Sluit deze videospeler
Een boxplot, ook wel bekend als een whiskerplot, is een visuele weergave die de distributie van een dataset weergeeft, samen met verschillende belangrijke statistische metingen . Het biedt een grafische samenvatting van belangrijke informatie over een dataset, waaronder de minimumscore, eerste kwartiel, mediaan, derde kwartiel en maximumwaarden.
De boxplot ziet eruit als een rechthoek, vaak de box genoemd, die de interkwartielafstand aangeeft. Het midden van de box vertegenwoordigt de mediaan en de buitenste zijden van de box vertegenwoordigen respectievelijk het eerste kwartiel (25e percentiel) en het derde kwartiel (75e percentiel). De “snorharen” die zich uitstrekken vanaf de box tonen het bereik van de gegevens, exclusief de outliers.
De boxplot werd voor het eerst geïntroduceerd door de wiskundige John Tukey in 1970.
Dit artikel bespreekt wat een boxplot u kan vertellen over een dataset en de verschillende onderdelen van een boxplot. Het behandelt ook hoe boxplots u kunnen helpen bij het analyseren van data en hoe u deze kunt interpreteren.
Inhoudsopgave
Welke informatie geven boxplots u?
Een boxplot geeft een aantal belangrijke gegevenspunten weer, die belangrijke details en informatie kunnen onthullen over de gegevens die ze beschrijven.
Enkele van deze belangrijke punten zijn de mediaan, het interkwartielbereik en de minimum- en maximumwaarden exclusief de uitschieters.
De 7 elementen van een boxplot
De zeven belangrijkste elementen van een boxplot zijn:
- Minimumscore : De minimumscore is het laagste gegevenspunt waarbij eventuele uitschieters zijn uitgesloten.
- Mediaan : De lijn in het vak geeft de mediaan van een dataset aan. De mediaan is de middelste waarde van de dataset wanneer de waarden op volgorde worden gezet. Dit getal is belangrijk omdat het de centrale tendens van de dataset aangeeft.
- Onderste percentiel : Ook bekend als het eerste kwartiel of 25e percentiel. Dit is de mediaan van de onderste helft van de dataset.
- Bovenste percentiel : Ook bekend als het derde kwartiel of 75e percentiel. Dit is de mediaan van de bovenste helft van de dataset.
- Maximale score : Dit is het hoogste gegevenspunt in de dataset, nadat uitschieters zijn uitgesloten.
- Whiskers : De “whiskers” van de boxplot zijn de lijnen die zich aan beide kanten van de box uitstrekken. Deze lijnen geven het bereik van de data weer zonder de outliers. Dit kan handig zijn om inzicht te krijgen in de minimum- en maximumwaarden binnen een bepaald bereik.
- De interkwartielafstand (IQR) : De box in een boxplot vertegenwoordigt de interkwartielafstand van de dataset. De IQR is het bereik tussen het eerste kwartiel en het derde kwartiel. Dit bevat de middelste 50% van de data en is handig voor het visualiseren van de spreiding van de dataset.
Boxplots zijn niet-parametrisch, wat betekent dat ze geen aannames doen over de onderliggende distributie van de data. In plaats daarvan functioneren ze om een visuele representatie te geven op basis van de mediaan en kwartielen.
Dit maakt ze nuttig voor het vergelijken van data over verschillende groepen of condities. Ze bieden een beknopte samenvatting van de belangrijkste kenmerken van de data door snel de centrale tendens en spreiding over te brengen.
Boxplot-oriëntatie
Boxplots kunnen horizontaal en verticaal worden gepresenteerd. Ze worden vaak verticaal gepresenteerd in professionele academische papers .
Waarom zijn boxplots nuttig bij het analyseren van gegevens?
Boxplots hebben een aantal belangrijke toepassingen en voordelen bij het overbrengen en analyseren van gegevens in psychologisch onderzoek .
Deze grafische representaties kunnen snel belangrijke informatie over de spreiding en symmetrie van een distributie overbrengen. Met behulp van deze tools is het mogelijk om visuele vergelijkingen van verschillende groepen data te maken.
Onderzoekers suggereren ook dat boxplots mensen kunnen helpen hun vermogen om complexe informatie te interpreteren en begrijpen te verbeteren. Dit stelt mensen in staat om effectiever te redeneren over kwantitatieve informatie .
Boxplots kunnen ook een goed alternatief zijn voor histogrammen. Terwijl het voor een histogram over het algemeen wordt aanbevolen om een minimale steekproefomvang van 50 datapunten te hebben, kan een boxplot effectief zijn met een steekproefomvang van slechts vijf. Boxplots kunnen ook op verschillende manieren worden aangepast om de vergelijking en interpretatie te verbeteren. Er kan bijvoorbeeld een inkeping aan de box worden toegevoegd om het 95% betrouwbaarheidsinterval voor de mediaan weer te geven.
Hoe een boxplot te interpreteren
Bij het interpreteren van data in een boxplot volgen onderzoekers doorgaans een reeks stappen of methoden om inzicht te krijgen en conclusies te trekken. Dit zijn de gebruikelijke stappen die worden gebruikt om data in een boxplot te interpreteren:
Bekijk de belangrijkste kenmerken van de gegevens
De eerste stap bij het interpreteren van een boxplot is het bekijken van enkele van de belangrijkste kenmerken van de gegevens:
- Identificeer de mediaan : De mediaan wordt weergegeven door de lijn binnen het vak in de boxplot. Het verdeelt de data in twee gelijke helften, waarbij 50% van de data onder en 50% boven de mediaan valt. Het biedt een maat voor de centrale tendens.
- Bepaal de kwartielen : De box in de boxplot vertegenwoordigt de interkwartielafstand (IQR). Het onderste kwartiel (Q1) is de mediaan van de onderste helft van de data, en het bovenste kwartiel (Q3) is de mediaan van de bovenste helft. De IQR is het bereik tussen Q1 en Q3 en bevat de middelste 50% van de data.
- Beschouw het bereik: Het bereik van de data, aangegeven door de lengte van de snorharen, geeft inzicht in de spreiding van de data. Een breed bereik zou worden aangegeven door langere snorharen. Korte snorharen zouden daarentegen een smal bereik aangeven. Een breed bereik suggereert een grotere variabiliteit in de data.
Let op tekenen van ongebruikelijke gegevens
Het kan ook nuttig zijn om te letten op signalen dat uw gegevens op de een of andere manier vervormd of ongebruikelijk zijn.
- Outliers identificeren : Outliers zijn datapunten die significant boven of onder de snorharen van de boxplot liggen. Ze worden aangegeven door individuele punten of stippen buiten de snorharen. Outliers kunnen extreme waarden of datapunten vertegenwoordigen die significant afwijken van de meerderheid.
- Zoek naar scheve gegevens : Gegevens die zwaar scheef zijn, kunnen een teken zijn dat de gegevens niet normaal zijn. U kunt de scheefheid beoordelen door te kijken naar de locatie van de box op de middenlijn en de locatie van de mediaan in relatie tot de box. Als de mediaan dichter bij Q1 ligt, kan de verdeling links scheef zijn, terwijl de verdeling rechts scheef kan zijn als deze dichter bij Q3 ligt. Als uw gegevens ongewoon scheef lijken, is het belangrijk om te onderzoeken wat de oorzaak hiervan kan zijn.
- Symmetrie analyseren : De symmetrie van de boxplot kan de symmetrie van de datadistributie aangeven. Als de box grofweg symmetrisch is, suggereert dit een symmetrische distributie. Asymmetrische boxes kunnen scheefheid of andere kenmerken van de distributie suggereren.
Vergelijkingen maken
Boxplots kunnen worden gebruikt om distributies tussen verschillende groepen of categorieën te vergelijken. Onderzoekers kunnen verschillen of overeenkomsten in de data identificeren door de positie, vorm en spreiding van de boxen en snorharen visueel te vergelijken.
- Kijk naar inkepingen : Als u een boxplot beoordeelt, kunnen inkepingen in de zijkanten van de box een visuele vergelijking van onzekerheid tussen groepen bieden. Als de inkepingen niet overlappen, kunnen de medianen aanzienlijk verschillen.
- Kijk naar de medianen : als de mediaanlijn van het ene vak buiten het vak van de andere groep ligt, is dit een goed teken dat er verschillen zijn tussen de twee groepen.
- Houd rekening met de steekproefgrootte : Bij het vergelijken van boxplots is het belangrijk om rekening te houden met de steekproefgroottes. Een kleine steekproefgrootte is mogelijk niet representatief voor de gehele populatie, dus conclusies moeten met de nodige voorzichtigheid worden getrokken.
- Vergelijk box- en whiskerlengtes : Het vergelijken van de boxlengtes (het interkwartielbereik) en de whiskers (de algehele dataspreiding) kan ook waardevolle informatie opleveren bij het vergelijken van groepen. Aanzienlijke verschillen in de lengtes van de boxes en whiskers suggereren verschillen tussen de groepen.
Door deze stappen te volgen, kunt u de gegevens die boxplots weergeven beter interpreteren en inzicht krijgen in de visuele weergave van de gegevens.
Dat betekent niet dat boxplots altijd de beste keuze zijn voor het presenteren van data. Ze kunnen nuttig zijn voor het vergelijken van groepen, maar een meer gedetailleerde visuele weergave, zoals een histogram , kan informatiever zijn als u naar een enkele dataset kijkt.