Preenchimento automático no Excel

O preenchimento automático no Excel é uma funcionalidade útil que permite preencher rapidamente células com dados baseados em padrões ou séries. 

Preenchimento de Série: O Excel pode prever automaticamente séries de números, datas, texto e outros tipos de dados com base em um padrão reconhecido. Por exemplo, se você digitar “3” em uma célula e “6” na próxima, então selecione essas duas células e arraste a alça de preenchimento (o pequeno quadrado no canto inferior direito da célula selecionada) para baixo, o Excel automaticamente preencherá as células seguintes com a série numérica “9”, “12”, “15” e assim por diante.

Exemplo: Arrastar para baixo a seleção ou dar dois cliques no canto inferior direito vai preencher automaticamente as células abaixo.

Resultado:

Atenção, porque às vezes o Excel erra, ou melhor, extrapola o prenchimento com um padrão diferente do esperado.

No caso abaixo, a intenção era preencher com “a”, “b”, “c”, “d”, e ele repetiu “a”, “b”, “a”, “b”.

O Preenchimento Relâmpago é outra funcionalidade inteligente. Digamos que eu tenha a tabela a seguir, e vou escrevendo a concatenação na terceira coluna (não funciona com fórmula, seria escrevendo mesmo).

Podemos disparar o preenchimento relâmpago selecionando o range a ser preenchido e utilizando CTRL + E, ou indo pelo menu Página Inicial -> Edição -> Preenchimento Relâmpago.

O resultado será o padrão preenchido para o range selecionado.

Como criar e interpretar um gráfico Boxplot no Excel?

O boxplot é um gráfico poderoso, por condensar bastante informação numa única visualização. Como plotar e como interpretar?

Para plotar o gráfico: 

      A partir da série de dados a plotar, Inserir -> Histograma -> Caixa Estreita

O bloxplot é um gráfico comum do Excel, então valem todas as configurações comuns (eixos, títulos, cores, etc).

Entretanto, o que significa cada elemento do gráfico?

A mediana é a linha contínua no meio do corpo do batedor.

 A parte inferior do batedor é o 1o quartil,  e o superior, o 3o quartil

A distância entre o 1o e o 3o quartil é a distância interquartílica (doravante DIQ).

O “whisker”, ou “bigode”, tem os mínimos e máximos definidos por

Whisker Min = Maior (1o quartil – 1,5*DIQ, min da série)

Whisker Max = Menor (3o quartil + 1,5*DIQ, máximo da série)

Para exemplificar, considere a série de dados a seguir, já ordenada.

O menor valor é igual a 12, e o maior igual a 180.

O primeiro quartil, que é maior do que 25% dos números da lista, é igual a 32,75.

O segundo quartil, ou mediana,  é maior do que 50% dos números da lista, é igual a 53.

O terceiro quartil, que é maior do que 75% dos números da lista, é igual a 79


A distância interquartílica é igual a 79 – 32,75 = 46,25

O whisker minímo é dado pelo menor valor da série (12), porque 1o quartil – 1,5*DIQ é menor do que 12.

O whisker máximo é dado por 3o quartil + 1,5*DIQ = 148,4. Mas por que está com o valor 99 no gráfico abaixo? Porque o 99 é o maior valor menor do que 148,4.

Já os dois valores acima de 148,4 são os outliers.

Um cuidado é que detalhes da implementação de cada boxplot variam de pacote para pacote, mas a ideia geral é sempre semelhante.

Estatística parte 1

A estatística é parte importante da vida de um analista de dados.

Com ela, podemos fazer inferências e previsões com base em evidências, testar hipóteses, medir a confiabilidade e a precisão dos resultados, e comunicar informações de forma clara e objetiva.

Vamos utilizar duas ferramentas, o R e o Excel, para ilustrar conceitos básicos de estatística.

Dada uma série de dados, como a abaixo, no R podemos obter um sumário de informações com apenas alguns comandos.

serie1 = c(87, 39, 59, 51, 77, 71, 13, 48, 65, 39, 57, 62, 25, 75, 91, 30)

summary(serie1)

sd(serie1)

O “summary(serie1)” informa, o mínimo, primeiro quartil, mediana, média, terceiro quartil e máximo, respectivamente,

O “sd(serie1)” informa o desvio padrão.

No Excel:

A mesma série de dados é dada, no range “C6:C21”

Mínimo e Máximo

São referentes aos valores mínimo e máximo da série

– Obtenha o mínimo com a função “=MÍNIMO(RANGE)”

– Obtenha o máximo com a função “=MÁXIMO(RANGE)”

Qual a diferença entre média e mediana?

Ambas são medidas de tendência central, ou seja, referentes ao meio da distribuição.

– A média é dada por “=MÉDIA(RANGE)”

– A mediana é dada por “=MED(RANGE)”

Mediana:

A mediana é o valor que divide a distribuição ao meio. Começamos ordenando a série:

Serie1 (ordenada) = 13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91

Como há 16 valores, os valores do meio são 57 e 59, portanto o valor 58 divide a distribuição em duas partes de igual tamanho.

13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91

Média:

A média desse conjunto é calculada somando todos os números e dividindo pelo número de elementos, ou seja:

Média = (87 + 39 + 59 + 51 + 77 + 71 + 13 + 48 + 65 + 39 + 57 + 62 + 25 + 75 + 91 + 30)/16 = 55,56

          É como se fosse o centro de gravidade da distribuição.

A mediana é menos sensível a outliers. Por exemplo, se a série acima fosse a renda das pessoas, e tivesse uma amostra a mais, o Bill Gates, a média iria subir enormemente, porém a mediana seria pouco ou nada afetada.

Primeiro e Terceiro Quartis

Se a mediana dividiu a série em duas, os quartis dividem em 4 pedaços.

Podemos usar a fórmula “=QUARTIL.INC(RANGE)”.

– O primeiro quartil é maior do que 25% da série.

– O segundo quartil é maior do que 50% da série – também é chamado de mediana.

– O terceiro quartil é maior do que 75% da série.

Há também a fórmula “=QUARTIL.EXC(RANGE)”. A diferença é que o QUARTIL.INC considera o ponto de 0% e 100% inclusos na lista, ao passo que o QUARTIL.EXC não considera.

Como são muito semelhantes, ficaremos com o primeiro, para fins práticos.

Desvio padrão

É dado por “=DESVPAD.A(RANGE)”. É uma medida de dispersão, mostra o quão “concentrados” ou “espalhados” os dados estão em relação à média.

Uma distribuição com desvio padrão pequeno vai estar próxima à média. Já um desvio padrão grande, vai estar mais distribuído, como no exemplo abaixo.

Há uma diferença entre  “DESVPAD.A” e “DESVPAD.P”. A primeira é quando os dados são de uma amostra da população. O segundo, quando temos a população inteira do estudo.

No caso de uma variável aleatória normal, o intervalo entre (média – 1 desvio) e (média + 1 desvio) compreende 68% dos casos.

Uma boa recomendação é o livro a seguir, que explica conceitos de forma clara, sem fórmula alguma.

Domine as funções Somases e Cont.ses

As funções SOMA.SES e CONT.SES são funções avançadas do Excel que permitem somar ou contar valores que atendem a critérios específicos em vários intervalos de dados.

Ambas são bastante úteis para a análise de dados.

Suponha que você tenha a tabela a seguir. Para cada carregamento de madeira que entrou na fábrica de papel, qual o período, a espécie e o volume carregado.

Queremos calcular o número de carregamentos por mês e espécie, e a soma de volume calculado por mês e espécie.

Como podemos proceder?

A função CONT.SES conta o número de células em um intervalo de dados que atendem a critérios específicos. A sintaxe da função é a seguinte:

CONT.SES(intervalo1; critérios1; intervalo2; critérios2, …)

Exemplo. No caso acima, o primeiro intervalo é o “Mês”, que vai C3 a C34.

O segundo intervalo é “Espécie”, que vai de D3 A D34.

A fórmula “=CONT.SES($C$3:$C$34; “JAN”; $D$3:$D$34; “Eucalipto”)” vai contar quantas ocorrências de eucalipto ocorreram em JAN, ou seja, vai resultar em 6.

Podemos aplicar a fórmula de modo sistemático.

Primeiro, criar uma tabela, com os meses nas linhas e as espécies nas colunas.

Na fómula, aplicar exatamente o CONT.SES acima, porém com duas diferenças: travando a coluna no primeiro critério, e a linha no segundo critério.

=CONT.SES($C$3:$C$34;$I3;$D$3:$D$34;J$2)

Dessa forma, podemos escrever a fórmula na célula “J3” e arrastar a mesma para preencher a tabela toda corretamente.

Outra alternativa é utilizar uma tabela dinâmica, também funciona bem.