Análise de dados

Estatística descritiva

Prof. Marcus Carvalho @ DCX / CCAE / UFPB

Probabilidade vs. Estatística

  • A probabilidade busca prever a chance de eventos futuros ocorrerem
    • A estatística analisa a frequência de eventos passados
  • A probabilidade é um ramo da matemática teórica sobre consequências de definições
  • A estatística é matemática aplicada na busca de entender observações do mundo real

Distribuições de variáveis aleatórias

  • Variáveis Aleatórias (VAs) são funções numéricas onde valores possuem probabilidades

  • A função densidade de probabilidade (FDP) mostra VAs (como histogramas)

Distribuições de variáveis aleatórias

  • Função Densidade Acumulada (FDA) é o somatório da FDP
    • FDA é a integral da FDP, enquanto a FDP é a derivada da FDA

\[C(X \leq k) = \sum_{x \leq k} P(X = x)\]

Visualizando distribuições acumuladas

  • As vendas de iPhone estão bombando?

O crescimento é mesmo significativo?

  • FDAs podem dar uma visão errônea do crescimento
    • A mudança incremental é a derivada da FDA, que é difícil de visualizar

Estatística descritiva vs. inferencial

  • Estatística descritiva: captura propriedades e distribuição dos dados
    • Medidas de tendência central descrevem o centro de sua distribuição
    • Medidas de variabilidade ou dispersão descrevem o seu espalhamento


  • Estatística inferencial: tomar decisões e achar relações nos dados
    • Usa fundamentos e teorias da probabilidade
    • Preocupa-se em modelar fenômenos aleatórios
    • Exemplo: as diferenças nos dados entre duas situações podem ser atribuídas a diferenças reais ou ao acaso?

Estatística descritiva

Objetivos:

  • Dar uma noção de como os dados estão distribuídos
  • Entender melhor a natureza dos dados
  • Identificar pontos anormais (possíveis outliers)
  • Apresentação gráfica de aspectos importantes dos dados
  • Identificar relações entre variáveis

Sumarização de dados: medidas de centralidade

Medidas de centralidade com número único

  • Um número que seja representativo da maior parte dos dados
  • A princípio pode parecer trivial: é só calcular a média
    • Em alguns casos ela pode não ser a melhor medida de valor central


  • Índices de tendência central (average) mais populares:
    • Média amostral
    • Mediana amostral
    • Moda amostral

Medida de centralidade: média aritmética

  • Soma dividida pelo tamanho da amostra: \(\mu_x = \frac{\sum_{i = 1}^{n} x_i}{n}\)

  • Chamada de primeiro momento da distribuição ou valor esperado

  • A média é significativa para distribuições simétricas

    • Mas é sensível a outliers, principalmente se a amostra é pequena

Medida de centralidade: variações da média

  • A média truncada (trimmed mean) remove os \(p\) menores e os \(p\) maiores valores antes de calcular a média
    • Ajuda a tirar o viés de valores extremos

\[\text{Trimmed mean} = \frac{\sum^{n-p}_{i=p+1} x_i}{n − 2p}\]

Medida de centralidade: variações da média

  • A média ponderada (weighted mean) considera um peso \(w\) para cada valor
    • Exemplo: para calcular incidência média de covid-19 nos estados do Brasil, devem considerar a população de cada estado como peso

\[\text{Weighted mean} = \frac{\sum^{n}_{i=1} w_i x_i}{\sum{w_i}}\]

Medida de centralidade: mediana

  • Valor do meio dos dados ordenados (2o quartil ou 50-percentil)
    • Ex: [1, 4, 4, 6, 7, 9, 14] # Mediana: \(6\)
  • Se o tamanho for par, a mediana é a média dos dois valores do meio
    • Ex: [2, 5, 8, 10, 15, 16] # Mediana: \(\frac{8+10}{2} = 9\)
    • É mais resistente a outliers, mas descarta muita informação

Medida de centralidade: moda 😎

  • É o valor que detém o maior número de observações
    • Ou seja, o valor ou valores mais frequentes
    • No gráfico de barras ou histograma, ele é a maior barra
    • Também é resistente a outliers, mas descarta muita informação

Efeito de outliers na média

import pandas as pd

x = pd.Series([1.2, 1.3, 1.5, 1.4, 1.5, 1.7, 1.4, 1.5, 1.6, 1.5, 1.4, 1.5, 1.5,
               1.9, 1.7, 1.6, 1.8, 1.9, 1.7, 1.6, 1.8, 1.9, 1.7, 1.6, 1.7, 1.8,
               1.6, 1.5, 1.4, 1.8, 1.6, 1.5, 1.6, 1.7, 1.5, 1.3, 1.4, 1.5, 1.5, 120])
print(f"Média: {x.mean()} / Mediana: {x.median()} / Moda: {float(x.mode())}")
Média: 4.54 / Mediana: 1.6 / Moda: 1.5
x_f = x[x < 5]
print(f"Média: {x_f.mean()} / Mediana: {x_f.median()} / Moda: {float(x_f.mode())}")
Média: 1.5794871794871794 / Mediana: 1.6 / Moda: 1.5

Qual métrica usar?

Tipo de variável / escala Índice de tendência central
Categórica nominal Moda
Categórica ordinal Mediana
Contínua Simétrica e sem outliers Média
Contínua Assimétrica ou com outliers Mediana


  • Bill Gates adiciona $250 à renda média, mas não muda mediana
  • No geral: se histograma é enviesado, usar mediana. Caso contrário, usar a média

Exemplo: medidas de centralidade

  • Dados de população e taxa de homicídios nos EUA:
             State  Population  Murder.Rate Abbreviation
0          Alabama     4779736          5.7           AL
1           Alaska      710231          5.6           AK
2          Arizona     6392017          4.7           AZ
3         Arkansas     2915918          5.6           AR
4       California    37253956          4.4           CA
5         Colorado     5029196          2.8           CO
6      Connecticut     3574097          2.4           CT
7         Delaware      897934          5.8           DE
8          Florida    18801310          5.8           FL
9          Georgia     9687653          5.7           GA
10          Hawaii     1360301          1.8           HI
11           Idaho     1567582          2.0           ID
12        Illinois    12830632          5.3           IL
13         Indiana     6483802          5.0           IN
14            Iowa     3046355          1.9           IA
15          Kansas     2853118          3.1           KS
16        Kentucky     4339367          3.6           KY
17       Louisiana     4533372         10.3           LA
18           Maine     1328361          1.6           ME
19        Maryland     5773552          6.1           MD
20   Massachusetts     6547629          2.0           MA
21        Michigan     9883640          5.4           MI
22       Minnesota     5303925          1.6           MN
23     Mississippi     2967297          8.6           MS
24        Missouri     5988927          6.6           MO
25         Montana      989415          3.6           MT
26        Nebraska     1826341          2.9           NE
27          Nevada     2700551          6.0           NV
28   New Hampshire     1316470          0.9           NH
29      New Jersey     8791894          3.9           NJ
30      New Mexico     2059179          4.8           NM
31        New York    19378102          3.1           NY
32  North Carolina     9535483          5.1           NC
33    North Dakota      672591          3.0           ND
34            Ohio    11536504          4.0           OH
35        Oklahoma     3751351          4.5           OK
36          Oregon     3831074          2.0           OR
37    Pennsylvania    12702379          4.8           PA
38    Rhode Island     1052567          2.4           RI
39  South Carolina     4625364          6.4           SC
40    South Dakota      814180          2.3           SD
41       Tennessee     6346105          5.7           TN
42           Texas    25145561          4.4           TX
43            Utah     2763885          2.3           UT
44         Vermont      625741          1.6           VT
45        Virginia     8001024          4.1           VA
46      Washington     6724540          2.5           WA
47   West Virginia     1852994          4.0           WV
48       Wisconsin     5686986          2.9           WI
49         Wyoming      563626          2.7           WY
  • Média da População
state['Population'].mean()
6162876.3
  • Média truncada (10%)
from scipy.stats import trim_mean
trim_mean(state['Population'], 0.1)
4783697.125
  • Mediana
state['Population'].median()
4436369.5

Exemplo: medidas de centralidade

  • Dados de população e taxa de homicídios nos EUA
             State  Population  Murder.Rate Abbreviation
0          Alabama     4779736          5.7           AL
1           Alaska      710231          5.6           AK
2          Arizona     6392017          4.7           AZ
3         Arkansas     2915918          5.6           AR
4       California    37253956          4.4           CA
5         Colorado     5029196          2.8           CO
6      Connecticut     3574097          2.4           CT
7         Delaware      897934          5.8           DE
8          Florida    18801310          5.8           FL
9          Georgia     9687653          5.7           GA
10          Hawaii     1360301          1.8           HI
11           Idaho     1567582          2.0           ID
12        Illinois    12830632          5.3           IL
13         Indiana     6483802          5.0           IN
14            Iowa     3046355          1.9           IA
15          Kansas     2853118          3.1           KS
16        Kentucky     4339367          3.6           KY
17       Louisiana     4533372         10.3           LA
18           Maine     1328361          1.6           ME
19        Maryland     5773552          6.1           MD
20   Massachusetts     6547629          2.0           MA
21        Michigan     9883640          5.4           MI
22       Minnesota     5303925          1.6           MN
23     Mississippi     2967297          8.6           MS
24        Missouri     5988927          6.6           MO
25         Montana      989415          3.6           MT
26        Nebraska     1826341          2.9           NE
27          Nevada     2700551          6.0           NV
28   New Hampshire     1316470          0.9           NH
29      New Jersey     8791894          3.9           NJ
30      New Mexico     2059179          4.8           NM
31        New York    19378102          3.1           NY
32  North Carolina     9535483          5.1           NC
33    North Dakota      672591          3.0           ND
34            Ohio    11536504          4.0           OH
35        Oklahoma     3751351          4.5           OK
36          Oregon     3831074          2.0           OR
37    Pennsylvania    12702379          4.8           PA
38    Rhode Island     1052567          2.4           RI
39  South Carolina     4625364          6.4           SC
40    South Dakota      814180          2.3           SD
41       Tennessee     6346105          5.7           TN
42           Texas    25145561          4.4           TX
43            Utah     2763885          2.3           UT
44         Vermont      625741          1.6           VT
45        Virginia     8001024          4.1           VA
46      Washington     6724540          2.5           WA
47   West Virginia     1852994          4.0           WV
48       Wisconsin     5686986          2.9           WI
49         Wyoming      563626          2.7           WY
  • Média da Taxa de homicídios
state['Murder.Rate'].mean()
4.066
  • Problema: na média aritmética os estados têm mesmo peso
    • Solução: média ponderada pela população
  • Média ponderada
from numpy import average
average(state['Murder.Rate'], weights=state['Population'])
4.445833981123393

Sumarização de dados: medidas de dispersão (ou variabilidade)

Sumariando variabilidade

“Então há um homem que morreu afogado atravessando um riacho com uma profundidade média de seis polegadas”


  • A tendência central não é suficiente

  • Podemos adicionar a ela um índice de dispersão:

    • Range / Intervalo (ex: valores mínimo e máximo)
    • Variância / Desvio padrão / Coeficiente de variação
    • Percentis extremos (ex: 10-percentil e 90-percentil)
    • Intervalo semi-quartis (SIQR)

Sumariando a variabilidade

  • Histograma do desempenho de dois sistemas:

  • A média é a mesma. Mas qual você prefere?

Range

Intervalo: [min, max]

  • Útil apenas quando os valores de uma variavél são limitados (bounded)
    • Dá para ter noção desses limites com o range
  • Varia de acordo com o número de observações
    • Não dá para saber se o range é significativo ou não

Variância e desvio padrão

Variância amostral (unidade dos dados ao quadrado):

\[s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}\]

Desvio padrão amostral (mesma unidade dos dados):

\[s = \sqrt{s^2}\]

Coeficiente de variação (independente da média e da unidade):

\[COV = \bar{C} = \frac{s}{\bar{x}}\]

Quantis

  • 0,05-quantil; 0,95-quantil: similar ao range

  • Decis \((\frac{1}{10})\), Quartis \((\frac{1}{4})\)

  • Intervalos entre quartis

    • Inter-Quartile Range: \[\mathit{IQR} = Q3 - Q1\]
    • Semi IQR: \[\mathit{SIQR} = \frac{Q3 - Q1}{2}\]

Top frequent

  • Para dados categóricos, a dispersão pode ser a porcentagem de observações das categorias mais frequentes

  • Exemplo: top 90%, top 45%

    • Qual está mais espalhado?

Como selecionar um índice de dispersão?

Tipo de variável Índice de dispersão
Categórica Top frequent
Contínua Simétrica Variância, desvio padrão ou COV
Contínua Assimétrica Quantis, IQR ou SIQR


  • Intervalo (range) pode ser usado para complementar a análise de dispersão

Exemplos - Índices de dispersão

Referências