População É a totalidade de elementos ou resultados (escores, pessoas, medidas, etc) que estão sob discussão e dos quais se deseja inferir alguma informação.
Amostra
Corresponde a qualquer subconjunto de uma população.
O objetivo da Inferência Estatística é produzir afirmações sobre dada característica de uma população, com base nos dados contidos em uma amostra dessa população. Essa característica pode ser representada por uma variável aleatória.
População e amostra - exemplo 01
Considere uma escola de 5.000 alunos. Se quisermos fazer um estudo das estaturas (e.g., qual a estatura média?), podemos colher uma amostra de, digamos, 40 alunos e estudar o comportamento da \alert{varíavel estatura} apenas nesses alunos. A variável estudada poderia ser inteligência, número de irmãos, número de cáries, notas em história ou renda familiar, dentre outras.
População e amostra - exemplo 02
Para investigar a \emph{honestidade} de uma moeda, podemos lançá-la 50 vezes e contar o número de caras obtidas. A população pode ser considerada como tendo a distribuição da v.a. X, que assume o valor 1, com probabilidade $p$, se ocorrer cara, e 0 em caso contrário, com probabilidade $1-p$. Ou seja, a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro $p$. A varíavel ficará completamente especificada quando conhecermos o valor de $p$. A amostra será uma sequencia de 50 números, zeros ou uns.
Uma população pode ser representada por uma variável aleatória, que possui uma determinada distribuição de probabilidades com determinado conjunto de \alert{parâmetros}. Se tivéssemos acesso à função de probabilidade (no caso discreto) ou à função de densidade (no caso contínuo) dessa variável aleatória, o problema de fazer afirmações sobre a população estaria resolvido.
Ocorre que muitas vezes não sabemos nada sobre a variável ou essa informação é parcial. Exemplo: no caso das alturas dos alunos de uma escola, podemos presumir que elas sigam uma distribuição normal, mas, em geral, desconhecemos os parâmetros que a caracterizam (no caso da distribuição, esses parametrôs seriam a média e variância). Em geral, podem acontecer três situações:
Em qualquer caso, o uso de uma amostra pode nos revelar informações sobre o comportamento da variável (população). Sendo assim, um aspecto importante de nosso estudo é investigar que métodos podemos utilizar para produzir amostras a partir de uma população.
Existem diversos métodos de amostragem, denominados planos amostrais. Alguns deles:
A amostra é escolhida de tal forma que cada elemento da população tem a mesma probabilidade de ser selecionado. \item Se a população tem tamanho $N$, cada elemento dessa população tem a mesma probabilidade igual a $1/N$ de entrar na amostra. Para construir uma amostra desse tipo, é possível utilizar
Mais formalmente, uma amostra aleatória simples de tamanho $n$ de uma v.a. $X$, com dada distribuição, é o conjunto de $n$ variáveis aleatórias independentes $X_1$, $X_2$, ..., $X_n$, cada uma com a mesma distribuição de $X$. Ou seja, uma AAS é uma $n$-tupla ordenada ($X_1$, $X_2$, ..., $X_n$), onde $X_i$ indica a observação do i-ésimo elemento sorteado.
Uma AAS pode ser recolhida da população de duas formas: com reposição ou sem reposição.
A função sample
do R pode ser usada para produzir amostras, tanto com reposição quanto sem reposição. Veja a documentação desta função.
x <- 1:100
# produz uma permutação aleatória da pouplação
sample(x)
# produz uma amostra de mesmo tamanho da população e COM reposição
sample(x, replace = TRUE)
# produz uma amostra de tamanho 13 e COM reposição
sample(x, 30)
# produz uma amostra de tamanho 13 e SEM reposição
sample(x, 30)
A Inferência Estatística fica interessante quando a utilizamos para investigar conjuntos de dados reais.
Como exemplo, seja estudarmos a distribuição de tempos de atrasos em voos aéreos. Para isso, vamos usar um conjunto de dados disponibilizado publicamente pelo Bureau of Transportation Statistics nos Estados Unidos. Esse conjunto de dados apresenta tempos de atraso de voos saindo de São Francisco no verão de 2015. Cada linha dessa tabela corresponde a um voo. As colunas são: data do voo (formato MM/DD/AA), número do voo, destino e duração do atraso (em minutos).
O código a seguir faz a carga desse conjunto de dados.
atrasos = read.csv("united_summer2015.csv") # lê o arquivo csv
atrasos
summary(atrasos)
IMPORTANTE: Repare que o conjunto de dados atrasos
é ele próprio uma amostra da população de todos os voos da companhia United.
Um conceito importante em Inferência Estatística é o de distribuição empírica. A distribuição empírica é a distribuição que obtemos se produzimos amostras a partir de uma amostra, em vez de produzr amostras a partir da população original.
A distribuição empírica possui aplicações práticas. A intuição é que se suas observações são representativas da população original. Sendo assim, podemos estudar a distribuição empírica para saber como fazer inferências sobre uma população com base em uma amostra desta população.
Para ilustrar o conceito de distribuição empírica, vamos usar o conjunto de dados atrasos
. Vamos construir uma função em R para permitir gerar distribuições empíricas a partir dessa amostra e, para cada uma delas, apresentá-la graficamente por meio de um histograma empírico. Essa função, hist_empirico_atrasos
, é apresentada abaixo. Essa função gera uma amostra com reposição a partir da amostra contida em atrasos
.
hist_empirico_atrasos <- function(n)
{
amostra <- atrasos[sample(1:nrow(atrasos), n, replace = TRUE), ]
h = hist(amostra$Delay, col="green", border="blue", breaks=c(-20, seq(-19, 600, 10)))
}
Parâmetro
Um parâmetro é uma medida usada para descrever uma característica de uma população. É uma medida numérica (valor fixo) que descreve uma característica de uma população.
Estatística
Uma estatística é uma característica de uma amostra. É ela própria uma variável aleatória.
As \emph{distribuições amostrais} das estatísticas permitem fazer inferências sobre os parâmetros populacionais correspondentes.
hist_empirico_atrasos(10)
hist_empirico_atrasos(100)
hist_empirico_atrasos(1000)
Repare que, quanto maior o tamanho da amostra aleatória, mais o histograma empírico se assemelha ao histograma da população. Isso justifica o uso de grandes amostras aleatórias na inferência estatística. A ideia é que, uma vez que uma amostra aleatória grande provavelmente se assemelha à população a partir da qual é retirada, as quantidades calculadas a partir dos valores na amostra provavelmente estarão próximas das quantidades correspondentes na população.
Um parâmetro é uma medida usada para descrever uma característica de uma população. É uma medida numérica (valor fixo) que descreve uma característica de uma população.
Uma estatística (do inglês statistic) é uma característica de uma amostra. É ela própria uma variável aleatória. As distribuições amostrais das estatísticas permitem fazer inferências sobre os parâmetros populacionais correspondentes.
Exemplos de parâmetros:
Exemplos de estatísticas:
Considere a variável aleatória correspondente à idade dos interessados em xadrez em um população. A quantidade total de pessoas interessadas em xadrez é um parâmetro. A esperança desta variável aleatória, digamos 35 anos, também é um parâmetro.
Agora considere que tomemos uma AAS dessa população. A média amostral, i.e., o valor obtido quando tomamos os elementos da amostra e calculamos a média de suas idades, é uma estatística.
Vamos como exemplo simular a mediana amostral. Os passos para isso são os seguintes:
r <- 5000 # quantidade de simulações
n <- 1000 # tamanho da amostra em cada simulação
duracoes_atrasos = atrasos$Delay
medianas_amostrais <- replicate(r, median(sample(duracoes_atrasos, n)))
hist(medianas_amostrais, breaks = seq(0.5, 5, 1))
Podemos vez pelo histograma acima que é bem provável que a mediana amostral estja próxima do valor 2. Além disso, já que 1000 amostras de durações de atrasos são um bomo representante da população de atrasos, não é de supreender que a mediana amostral das 5000 amostras seja próxima à mediana da população.