Fermer ce lecteur vidéo
Un diagramme en boîte, également appelé diagramme à moustaches, est une représentation visuelle qui affiche la distribution d’un ensemble de données ainsi que plusieurs mesures statistiques clés . Il fournit un résumé graphique des informations importantes sur un ensemble de données, notamment le score minimum, le premier quartile, la médiane, le troisième quartile et les valeurs maximales.
Le diagramme en boîte ressemble à un rectangle, souvent appelé boîte, qui indique l’écart interquartile. Le centre de la boîte représente la médiane et les côtés extérieurs de la boîte représentent respectivement le premier quartile (25e percentile) et le troisième quartile (75e percentile). Les « moustaches » qui s’étendent à partir de la boîte indiquent la plage de données, à l’exclusion des valeurs aberrantes.
Le box plot a été introduit pour la première fois par le mathématicien John Tukey en 1970.
Cet article explique ce qu’un diagramme en boîte peut vous apprendre sur un ensemble de données et les différentes parties d’un diagramme en boîte. Il explique également comment les diagrammes en boîte peuvent vous aider à analyser les données et comment les interpréter.
Table des matières
Quelles informations les box plots vous révèlent-ils ?
Un graphique en boîte fournit un certain nombre de points de données clés qui peuvent aider à révéler des détails et des informations importants sur les données qu’ils décrivent.
Certains de ces points clés incluent la médiane, l’écart interquartile et les valeurs minimales et maximales excluant les valeurs aberrantes.
Les 7 éléments d’un diagramme en boîte
Les sept éléments clés d’un box plot sont :
- Score minimum : Le score minimum est le point de données le plus bas qui exclut toutes les valeurs aberrantes.
- Médiane : La ligne à l’intérieur de la case indique la médiane d’un ensemble de données. La médiane est la valeur médiane de l’ensemble de données lorsque les valeurs sont alignées dans l’ordre. Ce nombre est important car il indique la tendance centrale de l’ensemble de données.
- Centile inférieur : également connu sous le nom de premier quartile ou 25e centile, il s’agit de la médiane de la moitié inférieure de l’ensemble de données.
- Centile supérieur : également connu sous le nom de troisième quartile ou 75e centile, il s’agit de la médiane de la moitié supérieure de l’ensemble de données.
- Score maximal : il s’agit du point de données le plus élevé dans l’ensemble de données une fois les valeurs aberrantes exclues.
- Moustaches : Les « moustaches » du graphique en boîte sont les lignes qui s’étendent de chaque côté de la boîte. Ces lignes représentent la plage des données sans les valeurs aberrantes. Cela peut être utile pour obtenir un aperçu des valeurs minimales et maximales dans une certaine plage.
- Écart interquartile (IQR) : la boîte d’un graphique en boîte représente l’écart interquartile de l’ensemble de données. L’IQR est l’écart entre le premier quartile et le troisième quartile. Il contient les 50 % du milieu des données et est utile pour visualiser la répartition de l’ensemble de données.
Les diagrammes en boîte ne sont pas paramétriques, ce qui signifie qu’ils ne font pas d’hypothèses sur la distribution sous-jacente des données. Au lieu de cela, ils fonctionnent pour donner une représentation visuelle basée sur la médiane et les quartiles
Elles sont donc utiles pour comparer des données entre différents groupes ou conditions. Elles fournissent un résumé concis des principales caractéristiques des données en transmettant rapidement la tendance centrale et la dispersion.
Orientation du diagramme en boîte
Les diagrammes en boîte peuvent être présentés horizontalement et verticalement. Ils sont souvent présentés verticalement dans les articles universitaires professionnels .
Pourquoi les boîtes à moustaches sont-elles utiles dans l’analyse des données ?
Les boîtes à moustaches présentent un certain nombre d’utilisations et d’avantages importants dans la transmission et l’analyse des données dans la recherche en psychologie .
Ces représentations graphiques peuvent rapidement transmettre des informations importantes sur la propagation et la symétrie d’une distribution. Grâce à ces outils, il est possible de créer des comparaisons visuelles de différents groupes de données.
Les chercheurs suggèrent également que les diagrammes en boîte peuvent aider les gens à améliorer leur capacité à interpréter et à comprendre des informations complexes. Cela permet aux gens de raisonner plus efficacement sur informations quantitatives .
Les boîtes à moustaches peuvent également être une bonne alternative aux histogrammes. Alors que pour un histogramme, il est généralement recommandé d’avoir un échantillon minimum de 50 points de données, une boîte à moustaches peut être efficace avec un échantillon de seulement cinq points. Les boîtes à moustaches peuvent également être adaptées de diverses manières pour aider à améliorer la comparaison et l’interprétation. Par exemple, une encoche peut être ajoutée à la boîte pour afficher l’intervalle de confiance à 95 % pour la médiane.
Comment interpréter un diagramme en boîte
Lors de l’interprétation des données dans un diagramme en boîte, les chercheurs suivent généralement un ensemble d’étapes ou de méthodes pour obtenir des informations et tirer des conclusions. Voici les étapes courantes utilisées pour interpréter les données dans un diagramme en boîte :
Regardez les caractéristiques clés des données
La première étape lors de l’interprétation d’un graphique en boîte consiste à examiner certaines des caractéristiques les plus importantes des données :
- Identifier la médiane : La médiane est représentée par la ligne à l’intérieur de la boîte dans le diagramme en boîte. Elle divise les données en deux moitiés égales, avec 50 % des données se situant en dessous et 50 % au-dessus de la médiane. Elle fournit une mesure de la tendance centrale.
- Déterminer les quartiles : La boîte dans le diagramme en boîte représente l’écart interquartile (IQR). Le quartile inférieur (Q1) est la médiane de la moitié inférieure des données et le quartile supérieur (Q3) est la médiane de la moitié supérieure. L’IQR est l’intervalle entre Q1 et Q3 et contient les 50 % médians des données.
- Tenez compte de la plage : la plage des données, indiquée par la longueur des moustaches, permet de comprendre la dispersion des données. Une large plage serait indiquée par des moustaches plus longues. Des moustaches courtes, en revanche, indiqueraient une plage étroite. Une large plage suggère une plus grande variabilité des données.
Recherchez des signes de données inhabituelles
Il peut également être utile de rechercher des signes indiquant que vos données pourraient être biaisées ou inhabituelles d’une manière ou d’une autre.
- Identifier les valeurs aberrantes : les valeurs aberrantes sont des points de données qui se situent nettement au-dessus ou en dessous des moustaches du diagramme en boîte. Elles sont indiquées par des points ou des points individuels situés à l’extérieur des moustaches. Les valeurs aberrantes peuvent représenter des valeurs extrêmes ou des points de données qui s’écartent considérablement de la majorité.
- Recherchez des données asymétriques : des données fortement asymétriques peuvent être le signe que les données ne sont pas normales. Vous pouvez évaluer l’asymétrie en observant l’emplacement de la boîte sur la ligne centrale et l’emplacement de la médiane par rapport à la boîte. Si la médiane est plus proche de Q1, la distribution peut être asymétrique à gauche, tandis que si elle est plus proche de Q3, la distribution peut être asymétrique à droite. Si vos données semblent inhabituellement asymétriques, il est important de rechercher ce qui pourrait en être la cause.
- Analyser la symétrie : La symétrie du diagramme en boîte peut indiquer la symétrie de la distribution des données. Si la boîte est à peu près symétrique, cela suggère une distribution symétrique. Des boîtes asymétriques peuvent suggérer une asymétrie ou d’autres caractéristiques de la distribution.
Faire des comparaisons
Les boîtes à moustaches peuvent être utilisées pour comparer les distributions entre différents groupes ou catégories. Les chercheurs peuvent identifier les différences ou les similitudes dans les données en comparant visuellement la position, la forme et la répartition des boîtes et des moustaches.
- Observez les encoches : si vous évaluez un diagramme en boîte, les encoches sur les côtés de la boîte peuvent fournir une comparaison visuelle de l’incertitude entre les groupes. Si les encoches ne se chevauchent pas, les médianes peuvent être significativement différentes.
- Regardez les médianes : si la ligne médiane d’une boîte se trouve à l’extérieur de la boîte de l’autre groupe, c’est un bon signe de différences entre les deux groupes.
- Tenir compte de la taille de l’échantillon : lors de la comparaison de boîtes à moustaches, il est important de tenir compte de la taille des échantillons. Un échantillon de petite taille peut ne pas être représentatif de l’ensemble de la population, les conclusions doivent donc être tirées avec prudence.
- Comparer les longueurs des boîtes et des moustaches : La comparaison des longueurs des boîtes (écart interquartile) et des moustaches (dispersion globale des données) peut également fournir des informations précieuses lors de la comparaison de groupes. Des différences significatives dans les longueurs des boîtes et des moustaches suggèrent des différences entre les groupes.
Suivre ces étapes peut vous aider à interpréter les données représentées par les boîtes à moustaches et à tirer des enseignements des représentations visuelles des données.
Cela ne signifie pas que les diagrammes en boîte constituent toujours le meilleur choix pour présenter des données. Ils peuvent être utiles pour comparer des groupes, mais une représentation visuelle plus détaillée, comme un histogramme , peut être plus informative si vous examinez un seul ensemble de données.