O preenchimento automático no Excel é uma funcionalidade útil que permite preencher rapidamente células com dados baseados em padrões ou séries.
Preenchimento de Série: O Excel pode prever automaticamente séries de números, datas, texto e outros tipos de dados com base em um padrão reconhecido. Por exemplo, se você digitar “3” em uma célula e “6” na próxima, então selecione essas duas células e arraste a alça de preenchimento (o pequeno quadrado no canto inferior direito da célula selecionada) para baixo, o Excel automaticamente preencherá as células seguintes com a série numérica “9”, “12”, “15” e assim por diante.
Exemplo: Arrastar para baixo a seleção ou dar dois cliques no canto inferior direito vai preencher automaticamente as células abaixo.
Resultado:
Atenção, porque às vezes o Excel erra, ou melhor, extrapola o prenchimento com um padrão diferente do esperado.
No caso abaixo, a intenção era preencher com “a”, “b”, “c”, “d”, e ele repetiu “a”, “b”, “a”, “b”.
O Preenchimento Relâmpago é outra funcionalidade inteligente. Digamos que eu tenha a tabela a seguir, e vou escrevendo a concatenação na terceira coluna (não funciona com fórmula, seria escrevendo mesmo).
Podemos disparar o preenchimento relâmpago selecionando o range a ser preenchido e utilizando CTRL + E, ou indo pelo menu Página Inicial -> Edição -> Preenchimento Relâmpago.
O resultado será o padrão preenchido para o range selecionado.
O boxplot é um gráfico poderoso, por condensar bastante informação numa única visualização. Como plotar e como interpretar?
Para plotar o gráfico:
A partir da série de dados a plotar, Inserir -> Histograma -> Caixa Estreita
O bloxplot é um gráfico comum do Excel, então valem todas as configurações comuns (eixos, títulos, cores, etc).
Entretanto, o que significa cada elemento do gráfico?
A mediana é a linha contínua no meio do corpo do batedor.
A parte inferior do batedor é o 1o quartil, e o superior, o 3o quartil
A distância entre o 1o e o 3o quartil é a distância interquartílica (doravante DIQ).
O “whisker”, ou “bigode”, tem os mínimos e máximos definidos por
Whisker Min = Maior (1o quartil – 1,5*DIQ, min da série)
Whisker Max = Menor (3o quartil + 1,5*DIQ, máximo da série)
Para exemplificar, considere a série de dados a seguir, já ordenada.
O menor valor é igual a 12, e o maior igual a 180.
O primeiro quartil, que é maior do que 25% dos números da lista, é igual a 32,75.
O segundo quartil, ou mediana, é maior do que 50% dos números da lista, é igual a 53.
O terceiro quartil, que é maior do que 75% dos números da lista, é igual a 79
A distância interquartílica é igual a 79 – 32,75 = 46,25
O whisker minímo é dado pelo menor valor da série (12), porque 1o quartil – 1,5*DIQ é menor do que 12.
O whisker máximo é dado por 3o quartil + 1,5*DIQ = 148,4. Mas por que está com o valor 99 no gráfico abaixo? Porque o 99 é o maior valor menor do que 148,4.
Já os dois valores acima de 148,4 são os outliers.
Um cuidado é que detalhes da implementação de cada boxplot variam de pacote para pacote, mas a ideia geral é sempre semelhante.
A estatística é parte importante da vida de um analista de dados.
Com ela, podemos fazer inferências e previsões com base em evidências, testar hipóteses, medir a confiabilidade e a precisão dos resultados, e comunicar informações de forma clara e objetiva.
Vamos utilizar duas ferramentas, o R e o Excel, para ilustrar conceitos básicos de estatística.
Dada uma série de dados, como a abaixo, no R podemos obter um sumário de informações com apenas alguns comandos.
É como se fosse o centro de gravidade da distribuição.
A mediana é menos sensível a outliers. Por exemplo, se a série acima fosse a renda das pessoas, e tivesse uma amostra a mais, o Bill Gates, a média iria subir enormemente, porém a mediana seria pouco ou nada afetada.
Primeiro e Terceiro Quartis
Se a mediana dividiu a série em duas, os quartis dividem em 4 pedaços.
Podemos usar a fórmula “=QUARTIL.INC(RANGE)”.
– O primeiro quartil é maior do que 25% da série.
– O segundo quartil é maior do que 50% da série – também é chamado de mediana.
– O terceiro quartil é maior do que 75% da série.
Há também a fórmula “=QUARTIL.EXC(RANGE)”. A diferença é que o QUARTIL.INC considera o ponto de 0% e 100% inclusos na lista, ao passo que o QUARTIL.EXC não considera.
Como são muito semelhantes, ficaremos com o primeiro, para fins práticos.
Desvio padrão
É dado por “=DESVPAD.A(RANGE)”. É uma medida de dispersão, mostra o quão “concentrados” ou “espalhados” os dados estão em relação à média.
Uma distribuição com desvio padrão pequeno vai estar próxima à média. Já um desvio padrão grande, vai estar mais distribuído, como no exemplo abaixo.
Há uma diferença entre “DESVPAD.A” e “DESVPAD.P”. A primeira é quando os dados são de uma amostra da população. O segundo, quando temos a população inteira do estudo.
No caso de uma variável aleatória normal, o intervalo entre (média – 1 desvio) e (média + 1 desvio) compreende 68% dos casos.
Uma boa recomendação é o livro a seguir, que explica conceitos de forma clara, sem fórmula alguma.
As funções SOMA.SES e CONT.SES são funções avançadas do Excel que permitem somar ou contar valores que atendem a critérios específicos em vários intervalos de dados.
Ambas são bastante úteis para a análise de dados.
Suponha que você tenha a tabela a seguir. Para cada carregamento de madeira que entrou na fábrica de papel, qual o período, a espécie e o volume carregado.
Queremos calcular o número de carregamentos por mês e espécie, e a soma de volume calculado por mês e espécie.
Como podemos proceder?
A função CONT.SES conta o número de células em um intervalo de dados que atendem a critérios específicos. A sintaxe da função é a seguinte:
Exemplo. No caso acima, o primeiro intervalo é o “Mês”, que vai C3 a C34.
O segundo intervalo é “Espécie”, que vai de D3 A D34.
A fórmula “=CONT.SES($C$3:$C$34; “JAN”; $D$3:$D$34; “Eucalipto”)” vai contar quantas ocorrências de eucalipto ocorreram em JAN, ou seja, vai resultar em 6.
Podemos aplicar a fórmula de modo sistemático.
Primeiro, criar uma tabela, com os meses nas linhas e as espécies nas colunas.
Na fómula, aplicar exatamente o CONT.SES acima, porém com duas diferenças: travando a coluna no primeiro critério, e a linha no segundo critério.
=CONT.SES($C$3:$C$34;$I3;$D$3:$D$34;J$2)
Dessa forma, podemos escrever a fórmula na célula “J3” e arrastar a mesma para preencher a tabela toda corretamente.
Outra alternativa é utilizar uma tabela dinâmica, também funciona bem.
Você precisa fazer login para comentar.