Cerrar este reproductor de vídeo
Un diagrama de caja, también conocido como diagrama de bigotes, es una representación visual que muestra la distribución de un conjunto de datos junto con varias medidas estadísticas clave . Proporciona un resumen gráfico de información importante sobre un conjunto de datos, incluidos la puntuación mínima, el primer cuartil, la mediana, el tercer cuartil y los valores máximos.
El diagrama de caja parece un rectángulo, a menudo llamado caja, que indica el rango intercuartil. El centro de la caja representa la mediana y los lados exteriores de la caja representan el primer cuartil (percentil 25) y el tercer cuartil (percentil 75), respectivamente. Las “barbas” que se extienden desde la caja muestran el rango de datos, excluyendo los valores atípicos.
El diagrama de caja fue introducido por primera vez por el matemático John Tukey en 1970.
En este artículo se analiza lo que un diagrama de caja puede indicarle sobre un conjunto de datos y las diferentes partes de un diagrama de caja. También se explica cómo los diagramas de caja pueden ayudarlo a analizar datos y cómo interpretarlos.
Índice
¿Qué información nos brindan los diagramas de caja?
Un diagrama de caja proporciona una serie de puntos clave de datos que pueden ayudar a revelar detalles e información importantes sobre los datos que describen.
Algunos de estos puntos clave incluyen la mediana, el rango intercuartil y los valores mínimo y máximo excluyendo los valores atípicos.
Los 7 elementos de un diagrama de caja
Los siete elementos clave de un diagrama de caja son:
- Puntuación mínima : la puntuación mínima es el punto de datos más bajo que excluye cualquier valor atípico.
- Mediana : La línea dentro del cuadro indica la mediana de un conjunto de datos. La mediana es el valor medio del conjunto de datos cuando los valores están alineados en orden. Este número es importante porque indica la tendencia central del conjunto de datos.
- Percentil inferior : también conocido como primer cuartil o percentil 25, es la mediana de la mitad inferior del conjunto de datos.
- Percentil superior : también conocido como tercer cuartil o percentil 75, es la mediana de la mitad superior del conjunto de datos.
- Puntuación máxima : este es el punto de datos más alto en el conjunto de datos una vez que se han excluido los valores atípicos.
- Bigotes : los “bigotes” del diagrama de caja son las líneas que se extienden desde ambos lados de la caja. Estas líneas representan el rango de los datos sin los valores atípicos. Esto puede resultar útil para obtener información sobre los valores mínimos y máximos dentro de un rango determinado.
- Rango intercuartil (RIC) : el recuadro de un diagrama de caja representa el rango intercuartil del conjunto de datos. El RIC es el rango entre el primer y el tercer cuartil. Contiene el 50 % central de los datos y resulta útil para visualizar la dispersión del conjunto de datos.
Los diagramas de caja no son paramétricos, lo que significa que no hacen suposiciones sobre la distribución subyacente de los datos. En cambio, funcionan para brindar una representación visual basada en la mediana y los cuartiles.
Esto los hace útiles para comparar datos de diferentes grupos o condiciones. Proporcionan un resumen conciso de las características principales de los datos al transmitir rápidamente la tendencia central y la dispersión.
Orientación del diagrama de caja
Los diagramas de caja se pueden presentar de forma horizontal y vertical. En los artículos académicos profesionales , suelen presentarse en vertical .
¿Por qué son útiles los diagramas de caja para analizar datos?
Los diagramas de caja tienen varios usos y beneficios importantes en la transmisión y análisis de datos en la investigación psicológica .
Estas representaciones gráficas permiten transmitir rápidamente información importante sobre la dispersión y la simetría de una distribución. Con estas herramientas es posible crear comparaciones visuales de diferentes grupos de datos.
Los investigadores también sugieren que los diagramas de cajas pueden ayudar a las personas a mejorar su capacidad para interpretar y comprender información compleja, lo que les permite razonar de manera más eficaz sobre información cuantitativa .
Los diagramas de caja también pueden ser una buena alternativa a los histogramas. Si bien para un histograma generalmente se recomienda tener un tamaño de muestra mínimo de 50 puntos de datos, un diagrama de caja puede ser eficaz con un tamaño de muestra de solo cinco. Los diagramas de caja también se pueden adaptar de varias maneras para ayudar a mejorar la comparación y la interpretación. Por ejemplo, se puede agregar una muesca al cuadro para mostrar el intervalo de confianza del 95 % para la mediana.
Cómo interpretar un diagrama de caja
Al interpretar los datos en un diagrama de caja, los investigadores suelen seguir un conjunto de pasos o métodos para obtener información y sacar conclusiones. Estos son los pasos habituales que se utilizan para interpretar los datos en un diagrama de caja:
Observar las características clave de los datos
El primer paso para interpretar un diagrama de caja es observar algunas de las características más importantes de los datos:
- Identificar la mediana : la mediana está representada por la línea dentro del cuadro en el diagrama de caja. Divide los datos en dos mitades iguales, con el 50 % de los datos por debajo y el 50 % por encima de la mediana. Proporciona una medida de tendencia central.
- Determinar los cuartiles : el cuadro en el diagrama de caja representa el rango intercuartil (RIC). El cuartil inferior (Q1) es la mediana de la mitad inferior de los datos, y el cuartil superior (Q3) es la mediana de la mitad superior. El RIC es el rango entre Q1 y Q3 y contiene el 50 % central de los datos.
- Considere el rango: el rango de los datos, indicado por la longitud de los bigotes, proporciona una idea de la dispersión de los datos. Un rango amplio estaría indicado por bigotes más largos. Por otro lado, los bigotes cortos indicarían un rango estrecho. Un rango amplio sugiere una mayor variabilidad en los datos.
Busque señales de datos inusuales
También puede ser útil buscar señales de que sus datos podrían estar sesgados o ser inusuales de algún modo.
- Identificar valores atípicos : los valores atípicos son puntos de datos que se encuentran significativamente por encima o por debajo de los límites del diagrama de caja. Se indican mediante puntos individuales fuera de los límites. Los valores atípicos pueden representar valores extremos o puntos de datos que se desvían significativamente de la mayoría.
- Busque datos sesgados : los datos muy sesgados pueden ser una señal de que no son normales. Puede evaluar la asimetría observando la ubicación del cuadro en la línea central y la ubicación de la mediana en relación con el cuadro. Si la mediana está más cerca de Q1, la distribución puede estar sesgada hacia la izquierda, mientras que si está más cerca de Q3, la distribución puede estar sesgada hacia la derecha. Si sus datos parecen inusualmente sesgados, es importante investigar qué podría estar causándolos.
- Analizar la simetría : la simetría del diagrama de caja puede indicar la simetría de la distribución de los datos. Si la caja es aproximadamente simétrica, sugiere una distribución simétrica. Las cajas asimétricas pueden sugerir asimetría u otras características de la distribución.
Hacer comparaciones
Los diagramas de cajas se pueden utilizar para comparar distribuciones entre diferentes grupos o categorías. Los investigadores pueden identificar diferencias o similitudes en los datos comparando visualmente la posición, la forma y la distribución de las cajas y los bigotes.
- Observar las muescas : si estás evaluando un diagrama de caja, las muescas en los lados de la caja pueden proporcionar una comparación visual de la incertidumbre entre los grupos. Si las muescas no se superponen, las medianas pueden ser significativamente diferentes.
- Mira las medianas : si la línea mediana de una caja se encuentra fuera de la caja del otro grupo, es una buena señal de diferencias entre los dos grupos.
- Tenga en cuenta el tamaño de la muestra : al comparar diagramas de cajas, es importante tener en cuenta el tamaño de la muestra. Una muestra pequeña puede no ser representativa de toda la población, por lo que las conclusiones deben sacarse con cautela.
- Comparar las longitudes de las cajas y los bigotes : comparar las longitudes de las cajas (rango intercuartil) y los bigotes (la dispersión general de los datos) también puede brindar información valiosa al comparar grupos. Las diferencias significativas en las longitudes de las cajas y los bigotes sugieren diferencias entre los grupos.
Seguir estos pasos puede ayudarle a interpretar los datos que representan los diagramas de caja y obtener información de las representaciones visuales de los datos.
Esto no significa que los diagramas de caja sean siempre la mejor opción para presentar datos. Pueden ser útiles para comparar grupos, pero una representación visual más detallada, como un histograma , puede ser más informativa si se analiza un único conjunto de datos.