Feche este player de vídeo
Um box plot, também conhecido como whisker plot, é uma representação visual que exibe a distribuição de um conjunto de dados junto com várias medidas estatísticas importantes . Ele fornece um resumo gráfico de informações importantes sobre um conjunto de dados, incluindo a pontuação mínima, o primeiro quartil, a mediana, o terceiro quartil e os valores máximos.
O gráfico de caixa parece um retângulo, geralmente chamado de caixa, que indica o intervalo interquartil. O centro da caixa representa a mediana, e os lados externos da caixa representam o primeiro quartil (25º percentil) e o terceiro quartil (75º percentil), respectivamente. Os “bigodes” que se estendem da caixa mostram o intervalo de dados, excluindo os outliers.
O gráfico de caixa foi introduzido pela primeira vez pelo matemático John Tukey em 1970.
Este artigo discute o que um box plot pode lhe dizer sobre um conjunto de dados e as diferentes partes de um box plot. Ele também aborda como os box plots podem ajudar você a analisar dados e como interpretá-los.
Índice
Quais informações os gráficos de caixa fornecem?
Um gráfico de caixa fornece uma série de pontos-chave de dados que podem ajudar a revelar detalhes e informações importantes sobre os dados que eles descrevem.
Alguns desses pontos-chave incluem a mediana, o intervalo interquartil e os valores mínimo e máximo, excluindo os valores discrepantes.
Os 7 elementos de um gráfico de caixa
Os sete elementos principais de um gráfico de caixa são:
- Pontuação mínima : A pontuação mínima é o menor ponto de dados que exclui quaisquer valores discrepantes.
- Mediana : A linha dentro da caixa indica a mediana de um conjunto de dados. A mediana é o valor médio do conjunto de dados quando os valores são alinhados em ordem. Esse número é importante porque indica a tendência central do conjunto de dados.
- Percentil inferior : também conhecido como primeiro quartil ou 25º percentil, é a mediana da metade inferior do conjunto de dados.
- Percentil superior : também conhecido como terceiro quartil ou 75º percentil, é a mediana da metade superior do conjunto de dados.
- Pontuação máxima : este é o ponto de dados mais alto no conjunto de dados depois que os valores discrepantes foram excluídos.
- Whiskers : Os ” whiskers ” do box plot são as linhas que se estendem de ambos os lados da caixa. Essas linhas representam o intervalo dos dados sem os outliers. Isso pode ser útil para obter insights sobre os valores mínimos e máximos dentro de um determinado intervalo.
- O Intervalo Interquartil (IQR) : A caixa em um gráfico de caixa representa o intervalo interquartil do conjunto de dados. O IQR é o intervalo entre o primeiro quartil e o terceiro quartil. Ele contém os 50% do meio dos dados e é útil para visualizar a dispersão do conjunto de dados.
Os gráficos de caixa não são paramétricos, o que significa que não fazem suposições sobre a distribuição subjacente dos dados. Em vez disso, eles funcionam para dar uma representação visual com base na mediana e nos quartis.
Isso os torna úteis para comparar dados entre diferentes grupos ou condições. Eles fornecem um resumo conciso das principais características dos dados, transmitindo rapidamente a tendência central e a dispersão.
Orientação do Box Plot
Os box plots podem ser apresentados horizontalmente e verticalmente. Eles são frequentemente apresentados verticalmente em artigos acadêmicos profissionais .
Por que os gráficos de caixa são úteis na análise de dados?
Os diagramas de caixa têm uma série de usos e benefícios importantes na transmissão e análise de dados em pesquisas psicológicas .
Essas representações gráficas podem transmitir rapidamente informações importantes sobre a dispersão e a simetria de uma distribuição. Usando essas ferramentas, é possível criar comparações visuais de diferentes grupos de dados.
Os pesquisadores também sugerem que os gráficos de caixa podem ajudar as pessoas a melhorar sua capacidade de interpretar e entender informações complexas. Isso permite que as pessoas raciocinem de forma mais eficaz sobre informações quantitativas .
Os diagramas de caixa também podem ser uma boa alternativa aos histogramas. Enquanto para um histograma é geralmente recomendado que você tenha um tamanho mínimo de amostra de 50 pontos de dados, um diagrama de caixa pode ser eficaz com um tamanho de amostra de apenas cinco. Os diagramas de caixa também podem ser adaptados de várias maneiras para ajudar a melhorar a comparação e a interpretação. Por exemplo, um entalhe pode ser adicionado à caixa para mostrar o intervalo de confiança de 95% para a mediana.
Como interpretar um gráfico de caixa
Ao interpretar dados em um box plot, os pesquisadores geralmente seguem um conjunto de etapas ou métodos para obter insights e tirar conclusões. Aqui estão as etapas comuns usadas para interpretar dados em um box plot:
Observe as principais características dos dados
O primeiro passo ao interpretar um gráfico de caixa é observar algumas das características mais importantes dos dados:
- Identifique a mediana : A mediana é representada pela linha dentro da caixa no box plot. Ela divide os dados em duas metades iguais, com 50% dos dados caindo abaixo e 50% acima da mediana. Ela fornece uma medida de tendência central.
- Determine os quartis : A caixa no gráfico de caixa representa o intervalo interquartil (IQR). O quartil inferior (Q1) é a mediana da metade inferior dos dados, e o quartil superior (Q3) é a mediana da metade superior. O IQR é o intervalo entre Q1 e Q3 e contém os 50% do meio dos dados.
- Considere o intervalo: O intervalo dos dados, indicado pelo comprimento dos bigodes, fornece uma compreensão da dispersão dos dados. Um intervalo amplo seria indicado por bigodes mais longos. Por outro lado, bigodes curtos indicariam um intervalo estreito. Um intervalo amplo sugere maior variabilidade nos dados.
Procure por sinais de dados incomuns
Também pode ser útil procurar sinais de que seus dados podem estar distorcidos ou incomuns de alguma forma.
- Identificar outliers : Outliers são pontos de dados que ficam significativamente acima ou abaixo dos limites do gráfico de caixa. Eles são indicados por pontos individuais ou pontos fora dos limites. Outliers podem representar valores extremos ou pontos de dados que se desviam significativamente da maioria.
- Procure por dados distorcidos : Dados muito distorcidos podem ser um sinal de que os dados não são normais. Você pode avaliar a assimetria observando a localização da caixa na linha central e a localização da mediana em relação à caixa. Se a mediana estiver mais próxima de Q1, a distribuição pode ser distorcida para a esquerda, enquanto se estiver mais próxima de Q3, a distribuição pode ser distorcida para a direita. Se seus dados parecerem anormalmente distorcidos, é importante investigar o que pode estar causando isso.
- Analisar simetria : A simetria do gráfico de caixa pode indicar a simetria da distribuição de dados. Se a caixa for aproximadamente simétrica, ela sugere uma distribuição simétrica. Caixas assimétricas podem sugerir assimetria ou outras características da distribuição.
Faça comparações
Box plots podem ser usados para comparar distribuições entre diferentes grupos ou categorias. Pesquisadores podem identificar diferenças ou similaridades nos dados comparando visualmente a posição, forma e dispersão das caixas e bigodes.
- Observe os entalhes : Se você estiver avaliando um gráfico de caixa, os entalhes nas laterais da caixa podem fornecer uma comparação visual da incerteza entre os grupos. Se os entalhes não se sobrepuserem, as medianas podem ser significativamente diferentes.
- Observe as medianas : se a linha mediana de uma caixa estiver fora da caixa do outro grupo, é um bom sinal de diferenças entre os dois grupos.
- Considere o tamanho da amostra : Ao comparar box plots, é importante considerar os tamanhos da amostra. Um tamanho de amostra pequeno pode não ser representativo de toda a população, então as conclusões devem ser tiradas com cautela.
- Compare os comprimentos de box e whisker : Comparar os comprimentos de box (o intervalo interquartil) e os whiskers (a dispersão geral dos dados) também pode fornecer informações valiosas ao comparar grupos. Diferenças significativas nos comprimentos de boxes e whiskers sugerem diferenças entre os grupos.
Seguir essas etapas pode ajudar você a interpretar os dados que os gráficos de caixa representam e obter insights das representações visuais dos dados.
Isso não significa que box plots sejam sempre a melhor escolha para apresentar dados. Eles podem ser úteis para comparar grupos, mas uma representação visual mais detalhada, como um histograma , pode ser mais informativa se você estiver olhando para um único conjunto de dados.