Boxplot no Excel

O Excel, a partir da versão 2016, tem gráficos novos que podem ser úteis.

Um deles é o boxplot.

Uma característica dela é colocar o máximo possível de informações de forma visual.

Para criar o gráfico, é só selecionar a série e Inserir -> Inserir gráfico de estatística -> Caixa estreita

Cada série vira um boxplot.

O que são as informações mostradas?

De baixo para cima.

A linha de baixo representa o mínimo.

A parte de baixo da caixa representa o 1º quartil da série

A linha do meio da caixa representa a mediana, ou o 2º quartil da série

A parte de cima da caixa representa o 3º quartil da série

A linha de cima da caixa representa o máximo da série

Segue aqui como exemplo.

O andar do bêbado

Modelos do tipo “Random walk” são amplamente utilizados para fenômenos probabilísticos.

A ideia básica é bem simples.

Imagine um bêbado, que está numa posição de coordenadas (0,0).

Como ele está chapado, ele pode dar um passo numa direção aleatória qualquer.

Traduzindo numa fórmula, seria Posição(t+1) = Posição(t) + aleatório(), ou seja, sua posição futura depende da posição atual, mais o passo aleatório.

Nota: a função aleatória do Excel varia de 0 a 1. Queremos que ela varie de -0,5 a 0,5 (para considerar que o bêbado pode andar para trás também). Portanto, a ideia é simplesmente utilizar (aleatório() – 0.5).

Colocando as fórmulas numa planilha, resulta num gráfico deste tipo:

Clicando F9, o Excel realiza um novo sorteio do passo aleatório:

Planilha para download.

Ideias técnicas com uma pitada de filosofia

https://ideiasesquecidas.com/

Forecast simples

Segue um exercício / desafio.

Dadas séries históricas, como a do print abaixo, como fazer o forecast para os próximos 12 meses?

Forecast é um assunto extremamente difícil, pelo simples motivo de que não conseguimos prever o futuro.

Há vários tipos de técnicas, média móvel, ARMA, ARIMA, cada uma adequada a uma situação específica. Em particular, o R tem muitos métodos.

Como fazer direto no Excel?

Ou utilizando um misto de Excel / R / python?

Uma solução possível. Uma macro que faz decomposição clássica (tendência + sazonalidade).

A sazonalidade considerada é de 12 meses.

Exemplo. Uma das séries era sazonal. O forecast vai seguir isto.

Link para download: https://1drv.ms/x/s!Aumr1P3FaK7jkWqkK0Xx3RgNLZ__?e=JNoCDG


Ideias técnicas com uma pitada de filosofia: https://ideiasesquecidas.com

Ferramentas Excel-VBA: https://ferramentasexcelvba.wordpress.com/

Exercício de estatística

Temos uma série histórica de dados (digamos, uma medição por mês do consumo).

Responda:

  • Qual a distribuição Normal que melhor fita os dados da Coluna A?
  • Qual a distribuição Uniforme que melhor fita os dados da Coluna A?
  • Desenhe um histograma desta distribuição
  • Qual das duas distribuições (Normal ou Uniforme) fita melhor os dados?

Respostas:

Primeiro, para que serve isto?

Uma aplicação clássica é para forecast, por exemplo. Tenho uma série de dados históricos, e quero prever o comportamento futuro, e tomar ações, digamos, considerar um estoque mínimo para garantir um nível de serviço.

A Normal é a curva em forma de sino. Ela tem dois parâmetros, média e desvio padrão.
=MÉDIA(A2:A94)
=DESVPAD.A(A2:A94)

No fundo, fazer forecast é como se eu tivesse que dar um chute.

Se eu não souber muito bem o comportamento da curva, posso dizer: fica entre 270 e 723.


A uniforme é exatamente isto, ela tem a mesma probabilidade de dar qualquer valor entre mínimo e máximo.
=MÍNIMO($A$2:$A$94)
=MÁXIMO($A$2:$A$94)

Para ilustrar o resultado, fiz mais duas listas. A primeira faz um sorteio baseado numa normal, e a segunda, numa uniforme.



A uniforme é mais fácil de explicar.
É como usar a função aleatório entre (mínimo, máximo).
Porém, ela é discreta, e a versão contínua é a fórmula seguinte.
=ALEATÓRIO()*($F$17-$F$16)+$F$16

Para sortear uma normal, o truque é usar a fórmula inv.normal (inverso da normal acumulada), com um parâmetro aleatório.
=INV.NORM(ALEATÓRIO();$F$11;$F$12)

Fiz o histograma com fórmulas cont.ses. A ideia é contar quantos itens das listas estão entre 250 e 300, 300 e 350, etc…

Nota-se que a normal parece representar melhor os dados que a uniforme, para este caso específico.

A distribuição acumulada é outra forma de ver.

Clicar em F9 para sortear outros valores, e ver a diferença.

Segue arquivo no onedrive.

Estatística não é a área que mais domino, então sugestões e complementações são bem vindas.


Ideias técnicas com uma pitada de filosofia: https://ideiasesquecidas.com

Ferramentas Excel-VBA: https://ferramentasexcelvba.wordpress.com/