Chiudi questo lettore video
Un box plot, noto anche come whisker plot, è una rappresentazione visiva che mostra la distribuzione di un set di dati insieme a diverse misure statistiche chiave . Fornisce un riepilogo grafico di informazioni importanti su un set di dati, tra cui il punteggio minimo, il primo quartile, la mediana, il terzo quartile e i valori massimi.
Il box plot ha l’aspetto di un rettangolo, spesso chiamato box, che indica l’intervallo interquartile. Il centro del box rappresenta la mediana e i lati esterni del box rappresentano rispettivamente il primo quartile (25° percentile) e il terzo quartile (75° percentile). I “baffi” che si estendono dal box mostrano l’intervallo di dati, escludendo i valori anomali.
Il box plot è stato introdotto per la prima volta dal matematico John Tukey nel 1970.
Questo articolo discute cosa un box plot può dirti su un set di dati e sulle diverse parti di un box plot. Spiega anche come i box plot possono aiutarti ad analizzare i dati e come interpretarne uno.
Indice
Quali informazioni forniscono i box plot?
Un box plot fornisce una serie di punti chiave di dati che possono aiutare a rivelare dettagli e informazioni importanti sui dati che descrivono.
Alcuni di questi punti chiave includono la mediana, l’intervallo interquartile e i valori minimo e massimo escludendo i valori anomali.
I 7 elementi di un box plot
I sette elementi chiave di un box plot sono:
- Punteggio minimo : il punteggio minimo è il punto dati più basso che esclude eventuali valori anomali.
- Mediana : la linea all’interno della casella indica la mediana di un set di dati. La mediana è il valore centrale del set di dati quando i valori sono allineati in ordine. Questo numero è importante perché indica la tendenza centrale del set di dati.
- Percentile inferiore : noto anche come primo quartile o 25° percentile, è la mediana della metà inferiore del set di dati.
- Percentile superiore : noto anche come terzo quartile o 75° percentile, è la mediana della metà superiore del set di dati.
- Punteggio massimo : si tratta del punto dati più alto nel set di dati una volta esclusi i valori anomali.
- Whiskers : i “baffi” del box plot sono le linee che si estendono da entrambi i lati del box. Queste linee rappresentano l’intervallo dei dati senza i valori anomali. Ciò può essere utile per ottenere informazioni sui valori minimi e massimi all’interno di un certo intervallo.
- Intervallo interquartile (IQR) : la casella in un box plot rappresenta l’intervallo interquartile del set di dati. L’IQR è l’intervallo tra il primo e il terzo quartile. Contiene il 50% centrale dei dati ed è utile per visualizzare la diffusione del set di dati.
I box plot sono non parametrici, ovvero non fanno ipotesi sulla distribuzione sottostante dei dati. Invece, servono a fornire una rappresentazione visiva basata sulla mediana e sui quartili.
Ciò li rende utili per confrontare i dati tra gruppi o condizioni diverse. Forniscono un riassunto conciso delle caratteristiche principali dei dati, trasmettendo rapidamente la tendenza centrale e la diffusione.
Orientamento del box plot
I box plot possono essere presentati orizzontalmente e verticalmente. Spesso sono presentati verticalmente in articoli accademici professionali .
Perché i box plot sono utili nell’analisi dei dati?
I box plot presentano numerosi utilizzi e vantaggi importanti nella trasmissione e nell’analisi dei dati nella ricerca psicologica .
Queste rappresentazioni grafiche possono trasmettere rapidamente informazioni importanti sulla diffusione e la simmetria di una distribuzione. Utilizzando questi strumenti, è possibile creare confronti visivi di diversi gruppi di dati.
I ricercatori suggeriscono anche che i box plot possono aiutare le persone a migliorare la loro capacità di interpretare e comprendere informazioni complesse. Ciò consente alle persone di ragionare in modo più efficace sulle informazioni quantitative .
I box plot possono anche essere una buona alternativa agli istogrammi. Mentre per un istogramma è generalmente consigliabile avere una dimensione minima del campione di 50 punti dati, un box plot può essere efficace con una dimensione del campione di soli cinque. I box plot possono anche essere adattati in vari modi per aiutare a migliorare il confronto e l’interpretazione. Ad esempio, è possibile aggiungere una tacca al box per mostrare l’intervallo di confidenza del 95% per la mediana.
Come interpretare un box plot
Quando si interpretano i dati in un box plot, i ricercatori solitamente seguono una serie di passaggi o metodi per ottenere informazioni e trarre conclusioni. Ecco i passaggi comuni utilizzati per interpretare i dati in un box plot:
Guarda le caratteristiche chiave dei dati
Il primo passo nell’interpretazione di un box plot è osservare alcune delle caratteristiche più importanti dei dati:
- Identificare la mediana : la mediana è rappresentata dalla linea all’interno della casella nel box plot. Divide i dati in due metà uguali, con il 50% dei dati che cade sotto e il 50% sopra la mediana. Fornisce una misura della tendenza centrale.
- Determinare i quartili : la casella nel box plot rappresenta l’intervallo interquartile (IQR). Il quartile inferiore (Q1) è la mediana della metà inferiore dei dati, e il quartile superiore (Q3) è la mediana della metà superiore. L’IQR è l’intervallo tra Q1 e Q3 e contiene il 50% centrale dei dati.
- Considera l’intervallo: l’intervallo dei dati, indicato dalla lunghezza dei baffi, fornisce una comprensione della diffusione dei dati. Un intervallo ampio sarebbe indicato da baffi più lunghi. Dei baffi corti, d’altro canto, indicherebbero un intervallo ristretto. Un intervallo ampio suggerisce una maggiore variabilità nei dati.
Cerca segnali di dati insoliti
Può anche essere utile cercare segnali che indichino che i dati potrebbero essere distorti o in qualche modo insoliti.
- Identificare i valori anomali : i valori anomali sono punti dati che si trovano significativamente sopra o sotto i baffi del box plot. Sono indicati da singoli punti o puntini al di fuori dei baffi. I valori anomali possono rappresentare valori estremi o punti dati che si discostano significativamente dalla maggioranza.
- Cerca dati distorti : dati fortemente distorti possono essere un segno che i dati non sono normali. Puoi valutare l’asimmetria osservando la posizione del box sulla linea centrale e la posizione della mediana in relazione al box. Se la mediana è più vicina a Q1, la distribuzione potrebbe essere distorta a sinistra, mentre se è più vicina a Q3, la distribuzione potrebbe essere distorta a destra. Se i tuoi dati sembrano insolitamente distorti, è importante indagare cosa potrebbe causarli.
- Analizza la simmetria : la simmetria del box plot può indicare la simmetria della distribuzione dei dati. Se il box è approssimativamente simmetrico, suggerisce una distribuzione simmetrica. I box asimmetrici possono suggerire asimmetria o altre caratteristiche della distribuzione.
Fare confronti
I box plot possono essere utilizzati per confrontare le distribuzioni tra gruppi o categorie differenti. I ricercatori possono identificare differenze o somiglianze nei dati confrontando visivamente la posizione, la forma e la diffusione dei box e dei baffi.
- Osserva le tacche : se stai valutando un box plot, le tacche sui lati del box possono fornire un confronto visivo dell’incertezza tra i gruppi. Se le tacche non si sovrappongono, le mediane potrebbero essere significativamente diverse.
- Osserva le mediane : se la linea mediana di una casella si trova all’esterno della casella dell’altro gruppo, è un buon segno di differenze tra i due gruppi.
- Considerare la dimensione del campione : quando si confrontano i box plot, è importante considerare le dimensioni del campione. Una piccola dimensione del campione potrebbe non essere rappresentativa dell’intera popolazione, quindi le conclusioni dovrebbero essere tratte con cautela.
- Confrontare le lunghezze di box e whisker : confrontare le lunghezze di box (l’intervallo interquartile) e i whisker (la diffusione complessiva dei dati) può anche fornire informazioni preziose quando si confrontano i gruppi. Differenze significative nelle lunghezze di box e whisker suggeriscono differenze tra i gruppi.
Seguendo questi passaggi potrai interpretare i dati rappresentati dai box plot e ricavare informazioni dalle rappresentazioni visive dei dati.
Ciò non significa che i box plot siano sempre la scelta migliore per presentare i dati. Possono essere utili per confrontare gruppi, ma una rappresentazione visiva più dettagliata, come un istogramma , può essere più informativa se si esamina un singolo set di dati.