Закрыть этот видеоплеер
Диаграмма ящиков, также известная как диаграмма усов, представляет собой визуальное представление, которое отображает распределение набора данных вместе с несколькими ключевыми статистическими показателями . Она обеспечивает графическое резюме важной информации о наборе данных, включая минимальный балл, первый квартиль, медиану, третий квартиль и максимальные значения.
Диаграмма ящика выглядит как прямоугольник, часто называемый ящиком, который указывает на межквартильный размах. Центр ящика представляет медиану, а внешние стороны ящика представляют первый квартиль (25-й процентиль) и третий квартиль (75-й процентиль) соответственно. «Усы», выходящие из ящика, показывают диапазон данных, исключая выбросы.
Диаграмма ящиков была впервые введена математиком Джоном Тьюки в 1970 году.
В этой статье обсуждается, что диаграмма ящиков может рассказать вам о наборе данных и различных частях диаграммы ящиков. Она также охватывает то, как диаграммы ящиков могут помочь вам анализировать данные и как их интерпретировать.
Содержание
Какую информацию дают диаграммы ящиков?
Ящичная диаграмма предоставляет ряд ключевых точек данных, которые могут помочь выявить важные детали и информацию о данных, которые они описывают.
Некоторые из этих ключевых точек включают медиану, межквартильный размах, а также минимальные и максимальные значения без учета выбросов.
7 элементов ящичного сюжета
Семь ключевых элементов ящичной диаграммы:
- Минимальная оценка : Минимальная оценка — это самая низкая точка данных, которая исключает любые выбросы.
- Медиана : линия внутри рамки указывает медиану набора данных. Медиана — это среднее значение набора данных, когда значения выстроены в ряд. Это число важно, поскольку оно указывает центральную тенденцию набора данных.
- Нижний процентиль : также известный как первый квартиль или 25-й процентиль, это медиана нижней половины набора данных.
- Верхний процентиль : также известный как третий квартиль или 75-й процентиль, это медиана верхней половины набора данных.
- Максимальная оценка : это наивысшая точка данных в наборе данных после исключения выбросов.
- Усы : «Усы» диаграммы ящиков — это линии, простирающиеся с обеих сторон ящика. Эти линии представляют диапазон данных без выбросов. Это может быть полезно для получения информации о минимальных и максимальных значениях в определенном диапазоне.
- Межквартильный размах (IQR) : Ящик на диаграмме представляет межквартильный размах набора данных. IQR — это диапазон между первым и третьим квартилем. Он содержит средние 50% данных и полезен для визуализации разброса набора данных.
Диаграммы ящиков непараметрические, то есть они не делают предположений о базовом распределении данных. Вместо этого они функционируют, чтобы дать визуальное представление на основе медианы и квартилей.
Это делает их полезными для сравнения данных по разным группам или условиям. Они предоставляют краткое резюме основных характеристик данных, быстро передавая центральную тенденцию и разброс.
Ориентация диаграммы ящика
Диаграммы ящиков могут быть представлены горизонтально и вертикально. В профессиональных научных работах они часто представлены вертикально .
Почему диаграммы ящиков полезны при анализе данных?
Диаграммы размаха имеют ряд важных применений и преимуществ при передаче и анализе данных в психологических исследованиях .
Эти графические представления могут быстро передавать важную информацию о разбросе и симметрии распределения. Используя эти инструменты, можно создавать визуальные сравнения различных групп данных.
Исследователи также предполагают, что диаграммы ящиков могут помочь людям улучшить свою способность интерпретировать и понимать сложную информацию. Это позволяет людям более эффективно рассуждать о количественной информации .
Ящичные диаграммы также могут быть хорошей альтернативой гистограммам. В то время как для гистограммы обычно рекомендуется иметь минимальный размер выборки в 50 точек данных, ящичная диаграмма может быть эффективна при размере выборки всего в пять. Ящичные диаграммы также можно адаптировать различными способами, чтобы улучшить сравнение и интерпретацию. Например, можно добавить выемку к ячейке, чтобы показать 95% доверительный интервал для медианы.
Как интерпретировать диаграмму ящиков
При интерпретации данных в диаграмме ящиков исследователи обычно следуют набору шагов или методов, чтобы получить представление и сделать выводы. Вот общие шаги, используемые для интерпретации данных в диаграмме ящиков:
Посмотрите на ключевые характеристики данных
Первый шаг при интерпретации диаграммы размаха — рассмотрение некоторых наиболее важных характеристик данных:
- Определите медиану : Медиана представлена линией внутри рамки на диаграмме. Она делит данные на две равные половины, при этом 50% данных находятся ниже и 50% выше медианы. Она обеспечивает измерение центральной тенденции.
- Определите квартили : Ящик на диаграмме представляет собой межквартильный размах (IQR). Нижний квартиль (Q1) является медианой нижней половины данных, а верхний квартиль (Q3) является медианой верхней половины. IQR — это диапазон между Q1 и Q3, содержащий средние 50% данных.
- Рассмотрим диапазон: Диапазон данных, обозначенный длиной усов, дает представление о разбросе данных. Широкий диапазон будет обозначен более длинными усами. Короткие усы, с другой стороны, будут указывать на узкий диапазон. Широкий диапазон предполагает большую изменчивость данных.
Ищите признаки необычных данных
Также может быть полезно обратить внимание на признаки того, что ваши данные могут быть искажены или необычны.
- Определите выбросы : выбросы — это точки данных, которые лежат значительно выше или ниже усов диаграммы. Они обозначены отдельными точками или точками за пределами усов. Выбросы могут представлять собой экстремальные значения или точки данных, которые значительно отклоняются от большинства.
- Посмотрите на перекошенные данные : данные, которые сильно перекошены, могут быть признаком того, что данные не являются нормальными. Вы можете оценить перекос, посмотрев на расположение ящика на центральной линии и расположение медианы по отношению к ящику. Если медиана ближе к Q1, распределение может быть перекошено влево, а если она ближе к Q3, распределение может быть перекошено вправо. Если ваши данные кажутся необычно перекошенными, важно выяснить, что может быть причиной этого.
- Анализ симметрии : Симметрия диаграммы может указывать на симметрию распределения данных. Если диаграмма примерно симметрична, это предполагает симметричное распределение. Асимметричные диаграммы могут указывать на асимметрию или другие особенности распределения.
Сравнивайте
Диаграммы ящиков можно использовать для сравнения распределений между различными группами или категориями. Исследователи могут выявлять различия или сходства в данных, визуально сравнивая положение, форму и распространение ящиков и усов.
- Посмотрите на зарубки : если вы оцениваете диаграмму ящиков, зарубки по бокам ящика могут обеспечить визуальное сравнение неопределенности между группами. Если зарубки не перекрываются, медианы могут существенно различаться.
- Посмотрите на медианы : если медианная линия одного блока лежит за пределами блока другой группы, это верный признак различий между двумя группами.
- Учитывайте размер выборки : при сравнении диаграмм типа «ящик» важно учитывать размер выборки. Небольшой размер выборки может не быть репрезентативным для всей популяции, поэтому выводы следует делать с осторожностью.
- Сравнение длин ящиков и усов : сравнение длин ящиков (межквартильный размах) и усов (общий разброс данных) также может предоставить ценную информацию при сравнении групп. Значительные различия в длинах ящиков и усов предполагают различия между группами.
Выполнение этих шагов поможет вам интерпретировать данные, представленные на диаграммах, и получить представление о визуальном представлении данных.
Это не означает, что диаграммы ящиков всегда являются лучшим выбором для представления данных. Они могут быть полезны для сравнения групп, но более подробное визуальное представление, такое как гистограмма , может быть более информативным, если вы смотрите на один набор данных.