Análise de dados

Estatística descritiva

Prof. Marcus Carvalho @ DCX / CCAE / UFPB

Probabilidade vs. Estatística

A probabilidade busca prever a chance de eventos futuros ocorrerem
- A estatística analisa a frequência de eventos passados

A probabilidade é um ramo da matemática teórica sobre consequências de definições
A estatística é matemática aplicada na busca de entender observações do mundo real

Distribuições de variáveis aleatórias

Variáveis Aleatórias (VAs) são funções numéricas onde valores possuem probabilidades
A função densidade de probabilidade (FDP) mostra VAs (como histogramas)

Distribuições de variáveis aleatórias

Função Densidade Acumulada (FDA) é o somatório da FDP
- FDA é a integral da FDP, enquanto a FDP é a derivada da FDA

\[C(X \leq k) = \sum_{x \leq k} P(X = x)\]

Visualizando distribuições acumuladas

As vendas de iPhone estão bombando?

O crescimento é mesmo significativo?

FDAs podem dar uma visão errônea do crescimento
- A mudança incremental é a derivada da FDA, que é difícil de visualizar

Estatística descritiva vs. inferencial

Estatística descritiva: captura propriedades e distribuição dos dados
- Medidas de tendência central descrevem o centro de sua distribuição
- Medidas de variabilidade ou dispersão descrevem o seu espalhamento

Estatística inferencial: tomar decisões e achar relações nos dados
- Usa fundamentos e teorias da probabilidade
- Preocupa-se em modelar fenômenos aleatórios
- Exemplo: as diferenças nos dados entre duas situações podem ser atribuídas a diferenças reais ou ao acaso?

Estatística descritiva

Objetivos:

Dar uma noção de como os dados estão distribuídos
Entender melhor a natureza dos dados
Identificar pontos anormais (possíveis outliers)
Apresentação gráfica de aspectos importantes dos dados
Identificar relações entre variáveis

Sumarização de dados: medidas de centralidade

Medidas de centralidade com número único

Um número que seja representativo da maior parte dos dados
A princípio pode parecer trivial: é só calcular a média
- Em alguns casos ela pode não ser a melhor medida de valor central

Índices de tendência central (average) mais populares:
- Média amostral
- Mediana amostral
- Moda amostral

Medida de centralidade: média aritmética

Soma dividida pelo tamanho da amostra: $\mu_x = \frac{\sum_{i = 1}^{n} x_i}{n}$
Chamada de primeiro momento da distribuição ou valor esperado
A média é significativa para distribuições simétricas
- Mas é sensível a outliers, principalmente se a amostra é pequena

Medida de centralidade: variações da média

A média truncada (trimmed mean) remove os $p$ menores e os $p$ maiores valores antes de calcular a média
- Ajuda a tirar o viés de valores extremos

\[\text{Trimmed mean} = \frac{\sum^{n-p}_{i=p+1} x_i}{n − 2p}\]

Medida de centralidade: variações da média

A média ponderada (weighted mean) considera um peso $w$ para cada valor
- Exemplo: para calcular incidência média de covid-19 nos estados do Brasil, devem considerar a população de cada estado como peso

\[\text{Weighted mean} = \frac{\sum^{n}_{i=1} w_i x_i}{\sum{w_i}}\]

Medida de centralidade: mediana

Valor do meio dos dados ordenados (2o quartil ou 50-percentil)
- Ex: [1, 4, 4, 6, 7, 9, 14] # Mediana: $6$
Se o tamanho for par, a mediana é a média dos dois valores do meio
- Ex: [2, 5, 8, 10, 15, 16] # Mediana: $\frac{8+10}{2} = 9$
- É mais resistente a outliers, mas descarta muita informação

Medida de centralidade: moda 😎

É o valor que detém o maior número de observações
- Ou seja, o valor ou valores mais frequentes
- No gráfico de barras ou histograma, ele é a maior barra
- Também é resistente a outliers, mas descarta muita informação

Efeito de outliers na média

import pandas as pd

x = pd.Series([1.2, 1.3, 1.5, 1.4, 1.5, 1.7, 1.4, 1.5, 1.6, 1.5, 1.4, 1.5, 1.5,
               1.9, 1.7, 1.6, 1.8, 1.9, 1.7, 1.6, 1.8, 1.9, 1.7, 1.6, 1.7, 1.8,
               1.6, 1.5, 1.4, 1.8, 1.6, 1.5, 1.6, 1.7, 1.5, 1.3, 1.4, 1.5, 1.5, 120])
print(f"Média: {x.mean()} / Mediana: {x.median()} / Moda: {float(x.mode())}")

Média: 4.54 / Mediana: 1.6 / Moda: 1.5

x_f = x[x < 5]
print(f"Média: {x_f.mean()} / Mediana: {x_f.median()} / Moda: {float(x_f.mode())}")

Média: 1.5794871794871794 / Mediana: 1.6 / Moda: 1.5

Qual métrica usar?

Tipo de variável / escala	Índice de tendência central
Categórica nominal	Moda
Categórica ordinal	Mediana
Contínua Simétrica e sem outliers	Média
Contínua Assimétrica ou com outliers	Mediana

Bill Gates adiciona $250 à renda média, mas não muda mediana
No geral: se histograma é enviesado, usar mediana. Caso contrário, usar a média

Exemplo: medidas de centralidade

Dados de população e taxa de homicídios nos EUA:

             State  Population  Murder.Rate Abbreviation
0          Alabama     4779736          5.7           AL
1           Alaska      710231          5.6           AK
2          Arizona     6392017          4.7           AZ
3         Arkansas     2915918          5.6           AR
4       California    37253956          4.4           CA
5         Colorado     5029196          2.8           CO
6      Connecticut     3574097          2.4           CT
7         Delaware      897934          5.8           DE
8          Florida    18801310          5.8           FL
9          Georgia     9687653          5.7           GA
10          Hawaii     1360301          1.8           HI
11           Idaho     1567582          2.0           ID
12        Illinois    12830632          5.3           IL
13         Indiana     6483802          5.0           IN
14            Iowa     3046355          1.9           IA
15          Kansas     2853118          3.1           KS
16        Kentucky     4339367          3.6           KY
17       Louisiana     4533372         10.3           LA
18           Maine     1328361          1.6           ME
19        Maryland     5773552          6.1           MD
20   Massachusetts     6547629          2.0           MA
21        Michigan     9883640          5.4           MI
22       Minnesota     5303925          1.6           MN
23     Mississippi     2967297          8.6           MS
24        Missouri     5988927          6.6           MO
25         Montana      989415          3.6           MT
26        Nebraska     1826341          2.9           NE
27          Nevada     2700551          6.0           NV
28   New Hampshire     1316470          0.9           NH
29      New Jersey     8791894          3.9           NJ
30      New Mexico     2059179          4.8           NM
31        New York    19378102          3.1           NY
32  North Carolina     9535483          5.1           NC
33    North Dakota      672591          3.0           ND
34            Ohio    11536504          4.0           OH
35        Oklahoma     3751351          4.5           OK
36          Oregon     3831074          2.0           OR
37    Pennsylvania    12702379          4.8           PA
38    Rhode Island     1052567          2.4           RI
39  South Carolina     4625364          6.4           SC
40    South Dakota      814180          2.3           SD
41       Tennessee     6346105          5.7           TN
42           Texas    25145561          4.4           TX
43            Utah     2763885          2.3           UT
44         Vermont      625741          1.6           VT
45        Virginia     8001024          4.1           VA
46      Washington     6724540          2.5           WA
47   West Virginia     1852994          4.0           WV
48       Wisconsin     5686986          2.9           WI
49         Wyoming      563626          2.7           WY

Média da População

state['Population'].mean()

6162876.3

Média truncada (10%)

from scipy.stats import trim_mean
trim_mean(state['Population'], 0.1)

4783697.125

Mediana

state['Population'].median()

4436369.5

Exemplo: medidas de centralidade

Dados de população e taxa de homicídios nos EUA

             State  Population  Murder.Rate Abbreviation
0          Alabama     4779736          5.7           AL
1           Alaska      710231          5.6           AK
2          Arizona     6392017          4.7           AZ
3         Arkansas     2915918          5.6           AR
4       California    37253956          4.4           CA
5         Colorado     5029196          2.8           CO
6      Connecticut     3574097          2.4           CT
7         Delaware      897934          5.8           DE
8          Florida    18801310          5.8           FL
9          Georgia     9687653          5.7           GA
10          Hawaii     1360301          1.8           HI
11           Idaho     1567582          2.0           ID
12        Illinois    12830632          5.3           IL
13         Indiana     6483802          5.0           IN
14            Iowa     3046355          1.9           IA
15          Kansas     2853118          3.1           KS
16        Kentucky     4339367          3.6           KY
17       Louisiana     4533372         10.3           LA
18           Maine     1328361          1.6           ME
19        Maryland     5773552          6.1           MD
20   Massachusetts     6547629          2.0           MA
21        Michigan     9883640          5.4           MI
22       Minnesota     5303925          1.6           MN
23     Mississippi     2967297          8.6           MS
24        Missouri     5988927          6.6           MO
25         Montana      989415          3.6           MT
26        Nebraska     1826341          2.9           NE
27          Nevada     2700551          6.0           NV
28   New Hampshire     1316470          0.9           NH
29      New Jersey     8791894          3.9           NJ
30      New Mexico     2059179          4.8           NM
31        New York    19378102          3.1           NY
32  North Carolina     9535483          5.1           NC
33    North Dakota      672591          3.0           ND
34            Ohio    11536504          4.0           OH
35        Oklahoma     3751351          4.5           OK
36          Oregon     3831074          2.0           OR
37    Pennsylvania    12702379          4.8           PA
38    Rhode Island     1052567          2.4           RI
39  South Carolina     4625364          6.4           SC
40    South Dakota      814180          2.3           SD
41       Tennessee     6346105          5.7           TN
42           Texas    25145561          4.4           TX
43            Utah     2763885          2.3           UT
44         Vermont      625741          1.6           VT
45        Virginia     8001024          4.1           VA
46      Washington     6724540          2.5           WA
47   West Virginia     1852994          4.0           WV
48       Wisconsin     5686986          2.9           WI
49         Wyoming      563626          2.7           WY

Média da Taxa de homicídios

state['Murder.Rate'].mean()

4.066

Problema: na média aritmética os estados têm mesmo peso
- Solução: média ponderada pela população
Média ponderada

from numpy import average
average(state['Murder.Rate'], weights=state['Population'])

4.445833981123393

Sumarização de dados: medidas de dispersão (ou variabilidade)

Sumariando variabilidade

“Então há um homem que morreu afogado atravessando um riacho com uma profundidade média de seis polegadas”

A tendência central não é suficiente
Podemos adicionar a ela um índice de dispersão:
- Range / Intervalo (ex: valores mínimo e máximo)
- Variância / Desvio padrão / Coeficiente de variação
- Percentis extremos (ex: 10-percentil e 90-percentil)
- Intervalo semi-quartis (SIQR)

Sumariando a variabilidade

Histograma do desempenho de dois sistemas:

A média é a mesma. Mas qual você prefere?

Range

Intervalo: [min, max]

Útil apenas quando os valores de uma variavél são limitados (bounded)
- Dá para ter noção desses limites com o range
Varia de acordo com o número de observações
- Não dá para saber se o range é significativo ou não

Variância e desvio padrão

Variância amostral (unidade dos dados ao quadrado):

\[s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}\]

Desvio padrão amostral (mesma unidade dos dados):

\[s = \sqrt{s^2}\]

Coeficiente de variação (independente da média e da unidade):

\[COV = \bar{C} = \frac{s}{\bar{x}}\]

Quantis

0,05-quantil; 0,95-quantil: similar ao range
Decis $(\frac{1}{10})$, Quartis $(\frac{1}{4})$
Intervalos entre quartis
- Inter-Quartile Range: \[\mathit{IQR} = Q3 - Q1\]
- Semi IQR: \[\mathit{SIQR} = \frac{Q3 - Q1}{2}\]

Top frequent

Para dados categóricos, a dispersão pode ser a porcentagem de observações das categorias mais frequentes
Exemplo: top 90%, top 45%
- Qual está mais espalhado?

Como selecionar um índice de dispersão?

Tipo de variável	Índice de dispersão
Categórica	Top frequent
Contínua Simétrica	Variância, desvio padrão ou COV
Contínua Assimétrica	Quantis, IQR ou SIQR

Intervalo (range) pode ser usado para complementar a análise de dispersão

Exemplos - Índices de dispersão

Referências

Slides baseados no material de:
- Prof. Raquel Lopes (UFCG)
- Prof. Steven Skiena (Stony Brok University)
Outras referências:
- Probability and Statistics for Engineering and the Sciences. Jay Devore
- The Art of Computer Systems Performance Analysis. Raj Jain