O boxplot é um gráfico poderoso, por condensar bastante informação numa única visualização. Como plotar e como interpretar?
Para plotar o gráfico:
A partir da série de dados a plotar, Inserir -> Histograma -> Caixa Estreita
O bloxplot é um gráfico comum do Excel, então valem todas as configurações comuns (eixos, títulos, cores, etc).
Entretanto, o que significa cada elemento do gráfico?
A mediana é a linha contínua no meio do corpo do batedor.
A parte inferior do batedor é o 1o quartil, e o superior, o 3o quartil
A distância entre o 1o e o 3o quartil é a distância interquartílica (doravante DIQ).
O “whisker”, ou “bigode”, tem os mínimos e máximos definidos por
Whisker Min = Maior (1o quartil – 1,5*DIQ, min da série)
Whisker Max = Menor (3o quartil + 1,5*DIQ, máximo da série)
Para exemplificar, considere a série de dados a seguir, já ordenada.
O menor valor é igual a 12, e o maior igual a 180.
O primeiro quartil, que é maior do que 25% dos números da lista, é igual a 32,75.
O segundo quartil, ou mediana, é maior do que 50% dos números da lista, é igual a 53.
O terceiro quartil, que é maior do que 75% dos números da lista, é igual a 79
A distância interquartílica é igual a 79 – 32,75 = 46,25
O whisker minímo é dado pelo menor valor da série (12), porque 1o quartil – 1,5*DIQ é menor do que 12.
O whisker máximo é dado por 3o quartil + 1,5*DIQ = 148,4. Mas por que está com o valor 99 no gráfico abaixo? Porque o 99 é o maior valor menor do que 148,4.
Já os dois valores acima de 148,4 são os outliers.
Um cuidado é que detalhes da implementação de cada boxplot variam de pacote para pacote, mas a ideia geral é sempre semelhante.