Distribuições Amostrais

Conceitos preliminares

População É a totalidade de elementos ou resultados (escores, pessoas, medidas, etc) que estão sob discussão e dos quais se deseja inferir alguma informação.

Amostra
Corresponde a qualquer subconjunto de uma população.

O objetivo da Inferência Estatística é produzir afirmações sobre dada característica de uma população, com base nos dados contidos em uma amostra dessa população. Essa característica pode ser representada por uma variável aleatória.

População e amostra - exemplo 01
Considere uma escola de 5.000 alunos. Se quisermos fazer um estudo das estaturas (e.g., qual a estatura média?), podemos colher uma amostra de, digamos, 40 alunos e estudar o comportamento da \alert{varíavel estatura} apenas nesses alunos. A variável estudada poderia ser inteligência, número de irmãos, número de cáries, notas em história ou renda familiar, dentre outras.

População e amostra - exemplo 02
Para investigar a \emph{honestidade} de uma moeda, podemos lançá-la 50 vezes e contar o número de caras obtidas. A população pode ser considerada como tendo a distribuição da v.a. X, que assume o valor 1, com probabilidade $p$, se ocorrer cara, e 0 em caso contrário, com probabilidade $1-p$. Ou seja, a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro $p$. A varíavel ficará completamente especificada quando conhecermos o valor de $p$. A amostra será uma sequencia de 50 números, zeros ou uns.

Uma população pode ser representada por uma variável aleatória, que possui uma determinada distribuição de probabilidades com determinado conjunto de \alert{parâmetros}. Se tivéssemos acesso à função de probabilidade (no caso discreto) ou à função de densidade (no caso contínuo) dessa variável aleatória, o problema de fazer afirmações sobre a população estaria resolvido.

Ocorre que muitas vezes não sabemos nada sobre a variável ou essa informação é parcial. Exemplo: no caso das alturas dos alunos de uma escola, podemos presumir que elas sigam uma distribuição normal, mas, em geral, desconhecemos os parâmetros que a caracterizam (no caso da distribuição, esses parametrôs seriam a média e variância). Em geral, podem acontecer três situações:

  1. termos uma ideia da forma da curva da função de probabilidades, mas desconhecermos os valores dos parâmetros dessa distribuição.
  2. conhecermos os valores dos parâmetros, mas desconhecermos a forma da curva.
  3. não conhecermos nem a forma da curva nem os respectivos valores dos parâmetros.

Em qualquer caso, o uso de uma amostra pode nos revelar informações sobre o comportamento da variável (população). Sendo assim, um aspecto importante de nosso estudo é investigar que métodos podemos utilizar para produzir amostras a partir de uma população.

Planos amostrais

Existem diversos métodos de amostragem, denominados planos amostrais. Alguns deles:

  1. Amostragem aleatória sistemática: os itens ou indivíduos da população são ordenados de alguma forma - alfabeticamente ou por meio de algum outro método. Um ponto de partida aleatório é sorteado, e então cada $k$-ésimo membro da população é selecionado para a amostra.
  2. Amostragem aleatória estratificada: A população é inicialmente dividida em subgrupos (estratos) e uma subamostra é selecionada a partir de cada estrato da população.
  3. Amostragem aleatória simples: Dada uma população de tamanho $N$, uma amostra aleatória simples de tamanho $n$ é um conjunto de $n$ unidades da população, tal que qualquer outro conjunto, dos $\binom{N}{n}$ conjuntos diferentes de $n$ unidades, teria igual probabilidade de ser selecionado.

A amostra é escolhida de tal forma que cada elemento da população tem a mesma probabilidade de ser selecionado. \item Se a população tem tamanho $N$, cada elemento dessa população tem a mesma probabilidade igual a $1/N$ de entrar na amostra. Para construir uma amostra desse tipo, é possível utilizar

  1. uma tabela de números aleatórios para sortear (com mesma probabilidade) os elementos da amostra.
  2. alguma função para geração de números aleatórios} em algum software estatístico, como o R.

Mais formalmente, uma amostra aleatória simples de tamanho $n$ de uma v.a. $X$, com dada distribuição, é o conjunto de $n$ variáveis aleatórias independentes $X_1$, $X_2$, ..., $X_n$, cada uma com a mesma distribuição de $X$. Ou seja, uma AAS é uma $n$-tupla ordenada ($X_1$, $X_2$, ..., $X_n$), onde $X_i$ indica a observação do i-ésimo elemento sorteado.

Uma AAS pode ser recolhida da população de duas formas: com reposição ou sem reposição.

  • Quando a amostra é recolhida com reposição, cada elemento eventualmente selecionado pode ser selecionado novamente.
  • Quando a amostra é recolhida \textbf{sem reposição}, não há independência entre os elementos, fato que tem impacto na fórmula do cálculo das estimativas feito a partir dessa amostra.

A função sample do R pode ser usada para produzir amostras, tanto com reposição quanto sem reposição. Veja a documentação desta função.

In [10]:
x <- 1:100

# produz uma permutação aleatória da pouplação
sample(x)

# produz uma amostra de mesmo tamanho da população e COM reposição
sample(x, replace = TRUE)

# produz uma amostra de tamanho 13 e COM reposição
sample(x, 30)

# produz uma amostra de tamanho 13 e SEM reposição
sample(x, 30)
  1. 14
  2. 43
  3. 100
  4. 35
  5. 31
  6. 96
  7. 73
  8. 30
  9. 52
  10. 80
  11. 12
  12. 86
  13. 13
  14. 89
  15. 99
  16. 59
  17. 32
  18. 48
  19. 42
  20. 53
  21. 51
  22. 61
  23. 18
  24. 90
  25. 74
  26. 19
  27. 17
  28. 63
  29. 70
  30. 38
  31. 65
  32. 22
  33. 37
  34. 82
  35. 33
  36. 84
  37. 15
  38. 28
  39. 58
  40. 29
  41. 36
  42. 34
  43. 50
  44. 46
  45. 97
  46. 71
  47. 77
  48. 94
  49. 4
  50. 78
  51. 91
  52. 26
  53. 69
  54. 39
  55. 27
  56. 85
  57. 75
  58. 55
  59. 81
  60. 44
  61. 45
  62. 25
  63. 64
  64. 21
  65. 56
  66. 9
  67. 98
  68. 11
  69. 40
  70. 83
  71. 1
  72. 92
  73. 24
  74. 10
  75. 66
  76. 47
  77. 57
  78. 79
  79. 95
  80. 7
  81. 23
  82. 93
  83. 72
  84. 6
  85. 2
  86. 16
  87. 54
  88. 8
  89. 41
  90. 76
  91. 5
  92. 68
  93. 49
  94. 67
  95. 3
  96. 88
  97. 60
  98. 62
  99. 20
  100. 87
  1. 21
  2. 99
  3. 49
  4. 68
  5. 9
  6. 85
  7. 58
  8. 61
  9. 1
  10. 84
  11. 93
  12. 50
  13. 46
  14. 38
  15. 57
  16. 33
  17. 37
  18. 48
  19. 82
  20. 87
  21. 44
  22. 30
  23. 48
  24. 83
  25. 75
  26. 36
  27. 52
  28. 73
  29. 61
  30. 49
  31. 72
  32. 54
  33. 18
  34. 53
  35. 37
  36. 43
  37. 51
  38. 71
  39. 92
  40. 86
  41. 19
  42. 28
  43. 11
  44. 58
  45. 75
  46. 75
  47. 6
  48. 28
  49. 67
  50. 75
  51. 41
  52. 49
  53. 18
  54. 28
  55. 32
  56. 89
  57. 98
  58. 95
  59. 21
  60. 95
  61. 36
  62. 28
  63. 20
  64. 75
  65. 75
  66. 79
  67. 50
  68. 4
  69. 57
  70. 35
  71. 32
  72. 64
  73. 16
  74. 47
  75. 2
  76. 21
  77. 6
  78. 15
  79. 33
  80. 66
  81. 37
  82. 91
  83. 44
  84. 30
  85. 6
  86. 32
  87. 24
  88. 85
  89. 93
  90. 76
  91. 64
  92. 86
  93. 59
  94. 51
  95. 8
  96. 47
  97. 36
  98. 35
  99. 96
  100. 57
  1. 55
  2. 40
  3. 37
  4. 70
  5. 95
  6. 74
  7. 59
  8. 77
  9. 29
  10. 58
  11. 4
  12. 44
  13. 90
  14. 62
  15. 89
  16. 17
  17. 96
  18. 43
  19. 56
  20. 85
  21. 52
  22. 61
  23. 48
  24. 34
  25. 75
  26. 27
  27. 80
  28. 66
  29. 7
  30. 3
  1. 54
  2. 35
  3. 70
  4. 38
  5. 77
  6. 86
  7. 45
  8. 53
  9. 83
  10. 79
  11. 7
  12. 56
  13. 59
  14. 99
  15. 41
  16. 88
  17. 95
  18. 25
  19. 36
  20. 85
  21. 47
  22. 1
  23. 68
  24. 92
  25. 78
  26. 89
  27. 67
  28. 62
  29. 33
  30. 40

A Inferência Estatística fica interessante quando a utilizamos para investigar conjuntos de dados reais.

Como exemplo, seja estudarmos a distribuição de tempos de atrasos em voos aéreos. Para isso, vamos usar um conjunto de dados disponibilizado publicamente pelo Bureau of Transportation Statistics nos Estados Unidos. Esse conjunto de dados apresenta tempos de atraso de voos saindo de São Francisco no verão de 2015. Cada linha dessa tabela corresponde a um voo. As colunas são: data do voo (formato MM/DD/AA), número do voo, destino e duração do atraso (em minutos).

O código a seguir faz a carga desse conjunto de dados.

In [13]:
atrasos = read.csv("united_summer2015.csv")  # lê o arquivo csv 
atrasos
DateFlight.NumberDestinationDelay
6/1/15 73 HNL 257
6/1/15217 EWR 28
6/1/15237 STL -3
6/1/15250 SAN 0
6/1/15267 PHL 64
6/1/15273 SEA -6
6/1/15278 SEA -8
6/1/15292 EWR 12
6/1/15300 HNL 20
6/1/15317 IND -10
6/1/15318 DEN 29
6/1/15322 SEA 3
6/1/15331 DEN -7
6/1/15355 IAD 0
6/1/15358 LAS -1
6/1/15388 ORD -9
6/1/15392 LAS -9
6/1/15408 IAD 14
6/1/15433 LAX 10
6/1/15434 LAS -3
6/1/15464 PDX -3
6/1/15468 IAH 23
6/1/15477 ORD 10
6/1/15478 LAX 0
6/1/15480 PIT 5
6/1/15500 MSP 28
6/1/15502 JFK -4
6/1/15522 PDX 36
6/1/15525 LAX -4
6/1/15560 SEA 1
8/31/151735 PDX 12
8/31/151736 DEN -3
8/31/151742 EWR 3
8/31/151749 OGG -1
8/31/151756 BOS 17
8/31/151774 IAD 16
8/31/151780 PDX 8
8/31/151796 IAD -6
8/31/151822 SEA -3
8/31/151840 PHL 15
8/31/151900 SAN 5
8/31/151907 EWR 4
8/31/151912 BOS 1
8/31/151914 IAH 0
8/31/151922 EWR -2
8/31/151927 IAH -1
8/31/151937 IAH -2
8/31/151944 EWR 5
8/31/151945 EWR -5
8/31/151947 BWI 7
8/31/151950 CLE 2
8/31/151956 LAX -4
8/31/151957 MCO 120
8/31/151960 LAX 6
8/31/151975 PIT -4
8/31/151978 LAS -4
8/31/151993 IAD 8
8/31/151994 ORD 3
8/31/152000 PHX -1
8/31/152013 EWR -2
In [14]:
summary(atrasos)
      Date       Flight.Number   Destination       Delay       
 8/14/15:  166   Min.   :   3   ORD    :1368   Min.   :-16.00  
 8/7/15 :  166   1st Qu.: 591   EWR    :1322   1st Qu.: -2.00  
 7/17/15:  165   Median :1178   LAX    : 929   Median :  2.00  
 7/24/15:  165   Mean   :1133   IAH    : 895   Mean   : 16.66  
 7/2/15 :  164   3rd Qu.:1670   DEN    : 845   3rd Qu.: 18.00  
 7/31/15:  164   Max.   :2117   IAD    : 840   Max.   :580.00  
 (Other):12835                  (Other):7626                   

IMPORTANTE: Repare que o conjunto de dados atrasos é ele próprio uma amostra da população de todos os voos da companhia United.

Distribuição Empírica

Um conceito importante em Inferência Estatística é o de distribuição empírica. A distribuição empírica é a distribuição que obtemos se produzimos amostras a partir de uma amostra, em vez de produzr amostras a partir da população original.

A distribuição empírica possui aplicações práticas. A intuição é que se suas observações são representativas da população original. Sendo assim, podemos estudar a distribuição empírica para saber como fazer inferências sobre uma população com base em uma amostra desta população.

Para ilustrar o conceito de distribuição empírica, vamos usar o conjunto de dados atrasos. Vamos construir uma função em R para permitir gerar distribuições empíricas a partir dessa amostra e, para cada uma delas, apresentá-la graficamente por meio de um histograma empírico. Essa função, hist_empirico_atrasos, é apresentada abaixo. Essa função gera uma amostra com reposição a partir da amostra contida em atrasos.

In [26]:
hist_empirico_atrasos <- function(n) 
{
  amostra <- atrasos[sample(1:nrow(atrasos), n, replace = TRUE), ]
  h = hist(amostra$Delay, col="green", border="blue", breaks=c(-20, seq(-19, 600, 10)))
}

Estatísticas e parâmetros

Parâmetro
Um parâmetro é uma medida usada para descrever uma característica de uma população. É uma medida numérica (valor fixo) que descreve uma característica de uma população.

Estatística
Uma estatística é uma característica de uma amostra. É ela própria uma variável aleatória.

As \emph{distribuições amostrais} das estatísticas permitem fazer inferências sobre os parâmetros populacionais correspondentes.

In [27]:
hist_empirico_atrasos(10)
In [28]:
hist_empirico_atrasos(100)
In [29]:
hist_empirico_atrasos(1000)

Repare que, quanto maior o tamanho da amostra aleatória, mais o histograma empírico se assemelha ao histograma da população. Isso justifica o uso de grandes amostras aleatórias na inferência estatística. A ideia é que, uma vez que uma amostra aleatória grande provavelmente se assemelha à população a partir da qual é retirada, as quantidades calculadas a partir dos valores na amostra provavelmente estarão próximas das quantidades correspondentes na população.

Estatísticas e parâmetros

Um parâmetro é uma medida usada para descrever uma característica de uma população. É uma medida numérica (valor fixo) que descreve uma característica de uma população.

Uma estatística (do inglês statistic) é uma característica de uma amostra. É ela própria uma variável aleatória. As distribuições amostrais das estatísticas permitem fazer inferências sobre os parâmetros populacionais correspondentes.

Exemplos de parâmetros:

  1. $\mu$ (média populacional),
  2. $\sigma^2$ (variância populacional),
  3. $\sigma$ (desvio-padrão populacional),
  4. $p$ (proporção populacional).

Exemplos de estatísticas:

  1. $\overline{X}$ (média amostral),
  2. $S^2$ (variância amostral),
  3. $S$ (desvio padrão amostral),
  4. $\widehat{p}$ (proporção amostral).

Considere a variável aleatória correspondente à idade dos interessados em xadrez em um população. A quantidade total de pessoas interessadas em xadrez é um parâmetro. A esperança desta variável aleatória, digamos 35 anos, também é um parâmetro.

Agora considere que tomemos uma AAS dessa população. A média amostral, i.e., o valor obtido quando tomamos os elementos da amostra e calculamos a média de suas idades, é uma estatística.

Simulação de uma estatística

Vamos como exemplo simular a mediana amostral. Os passos para isso são os seguintes:

  1. Gerar um valor para a estatística: produzir uma amostra aleatória de tamanho 1000 e calcular a mediana dessa amostra. Registrar o valor obtido.
  2. Gerar mais valores da estattística: Repetir passo 1 inúmeras vezes.
  3. Visualizar os resultados. No fim do passo 2, teremos registrado muitos valores da mediana amostral, cada um deles retirado de uma amostra diferente. Podemos exibir todas as medianas obtidas em uma tabela. Alternativamente podemos visualizá-las usando um histograma – esse é o histograma empírico da estatistica.
In [38]:
r <- 5000 # quantidade de simulações
n <- 1000 # tamanho da amostra em cada simulação

duracoes_atrasos = atrasos$Delay

medianas_amostrais <- replicate(r, median(sample(duracoes_atrasos, n)))

hist(medianas_amostrais, breaks = seq(0.5, 5, 1))

Podemos vez pelo histograma acima que é bem provável que a mediana amostral estja próxima do valor 2. Além disso, já que 1000 amostras de durações de atrasos são um bomo representante da população de atrasos, não é de supreender que a mediana amostral das 5000 amostras seja próxima à mediana da população.

In [ ]:

In [ ]: