Slides de revisão dos métodos.

parent 77dd16e1
---
title: "Inferência via abordagens computacionalmente intensivas"
author: "Walmes Zeviani"
#date: "June 29, 2018"
classoption: "aspectratio=34, serif, professionalfont"
header-includes: |
\let\oldShaded\Shaded
\let\endoldShaded\endShaded
\renewenvironment{Shaded}{\tiny\oldShaded}{\endoldShaded}
\let\oldverbatim\verbatim
\let\endoldverbatim\endverbatim
\renewenvironment{verbatim}{\tiny\oldverbatim}{\endoldverbatim}
\usepackage{palatino}
\usepackage{inconsolata}
output:
beamer_presentation:
highlight: haddock
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, size = "footnotesize")
```
# Introdução
A lógica dos testes de hipótese frequentistas:
1. Definir a **hipótese nula** e hipótese alternativa.
2. Determinar uma **estatística de teste** calculada a partir dos
dados.
3. Estabelecer a **região crítica** para tomar decisão.
A região crítica é baseada na **distribuição amostral** da estatística
de teste sob a hipótese nula.
# Exemplo
```{r}
# Tabela.
unstack(sleep, form = extra ~ group)
```
---
```{r}
# Gráfico.
plot(extra ~ group, data = sleep)
```
---
```{r}
# Teste de hipótese.
t.test(extra ~ group, data = sleep, var.equal = TRUE)
```
---
Sob a hipótese nula $H_0: \delta = \mu_1 - \mu_2 = 0$, a estatística
$$
t = \frac{(\bar{X}_1 - \bar{X}_2) - \delta}{\sqrt{s^2\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}
\sim t_{\text{Student}}(\nu = n_1 + n_2 - 2)
$$
---
```{r}
# Simulação.
N <- 1000
n <- 10
t_val <- replicate(N, {
# Amostras independentes da mesma população (H_0 verdadeira).
x_1 <- rnorm(n, mean = 0, sd = 1)
x_2 <- rnorm(n, mean = 0, sd = 1)
# Diferença entre médias (H_0: delta == 0).
d <- mean(x_1) - mean(x_2)
# Variância combinada.
s2 <- ((n - 1) * var(x_1) + (n - 1) * var(x_2))/(2 * n - 2)
# Estatística do teste.
t <- d/sqrt(s2 * (2/n))
return(t)
})
```
```{r den_ecdf, eval = FALSE}
# Distribuição empírica vs distribuição teórica.
par(mfrow = c(2, 1))
plot(density(t_val), main = NA)
curve(dt(x, df = 2 * n - 2), add = TRUE, col = 2)
plot(ecdf(t_val), main = NULL)
curve(pt(x, df = 2 * n - 2), add = TRUE, col = 2)
layout(1)
```
---
```{r, eval = TRUE, echo = FALSE, ref.label = "den_ecdf"}
```
---
* Distribuição amostral é a distribuição de uma estatística (qualquer
função da amostra) ao longo de todas as amostras de mesmo tamanho de
uma população.
* Algumas estatísticas de teste tiveram a distribuição amostral
determinada, e.g., $t$ de Student, $F$ de Snedecor, etc.
* Com a distribuição amostral pode-se fazer:
* Testes de hipótese;
* Intervalos de confiança;
* Determinação de tamanho de amostra;
* A distribuição de uma estatística de teste pode ser exata ou
aproximada.
* Com isso o teste pode ser exato ou aproximado.
---
## Algumas situações
* Não possuem um teste de hipótese apropriado.
* As suposições para os testes não são atendidas.
* O teste tem aproximação ruim com a amostra pequena.
## Abordagens consideradas
* Teste de aleatorização (permutação).
* Jackknife.
* Bootstrap.
* Simulação Monte Carlo.
# Testes de Aleatorização
* Abordagem baseada em permutação das observações.
* São considerados testes livre de distribuição.
* Faz suposições sobre o processo gerador dos dados.
* Cálculo da estatística de teste:
* No conjunto de todos os arranjos possíveis (exaustivo):
distribuição amostral exata.
* Amostra do conjunto completo de arranjos (reamostragem sem
reposição).
# Uma senhora toma chá
* Aconteceu com Fisher e Muriel Bristol.
* Fisher descreve em seu livro em 1935.
* A senhora declarou saber discriminar bebida conforme a ordem em que
chá e leite eram adicionados à xícara.
* $H_0$: a senhora não sabe distinguir (classifica aleatoriamente).
* Experimento: 8 xícaras, 4 de cada tipo servidas aleatoriamente.
* Resposta: a classificação de 4 xícaras de um tipo.
---
## Perguntas
* Quantos arranjos possíveis?
* Qual a chance da senhora acertar todas por mero acaso?
* Qual a chance de acertar 3 em 4?
* Qual a região crítica?
## Respostas
* $\binom{8}{4} = \frac{8!}{4!(8-4)!} = 70$.
* É 1/70 pois só existe uma forma correta no universo das 70.
* "Arranjos de 3 corretos em 4 selecionados" $\times$ "arranjos de 1
errado em 4 selecionados": $\binom{4}{3} \cdot \binom{4}{1} = 16$,
então 16/70 $\approx$ 0.23.
* Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora
acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05.
---
Mais exemplos nos scripts.
# Jackknife
* Jackknife é uma espécie de canivete suiço.
* Equipado com várias ferramentas, fácil transporte.
* Mas ferramentas especializadas são melhores que as desse canivete.
* Proposto por Tukey.
---
## A inspiração para a abordagem
A ideia é fundamentada no estimador da média
$$
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i.
$$
A média com a $j$-ésima observação removida, $\bar{X}_{-j}$, é
$$
\bar{X}_{-j} = \frac{1}{n - 1}
\left[ \left( \sum_{i=1}^{n} X_i \right) - X_j \right].
$$
Combinando as expressões anteriores, pode-se determinar o valor de $X_j$
por
$$
X_j = n\bar{X} - (n - 1) \bar{X}_{-j}.
$$
Essa expressão não tem valor para o caso da média, que serviu apenas de
inspiração. Mas tem utilidade para outras estatísticas.
---
## O caso geral
Suponha que $\theta$ seja um parâmetro a ser estimado a partir de uma
função dos dados (amostra de tamanho $n$)
$$
\hat{\theta} = f(X_1, X_2, \ldots, X_n).
$$
A quantidade
$$
\theta_j^{*} = n \hat{\theta} - (n - 1) \hat{\theta}_{-j}
$$
é denominada de *pseudo-valor* e se baseia nas diferenças entre a
estimativa com todas as observações ($\hat{\theta}$) e a *estimativa
parcial*, ou seja, aquela sem a $j$-ésima observação
($\hat{\theta}_{-j}$).
O estimador pontual de Jackknife é definido por
$$
\hat{\theta}^{*} = \frac{1}{n} \sum_{j = 1}^{n} \theta_j^{*},
$$
ou seja, **é a média dos pseudo-valores**.
---
Os valores $\hat{\theta}$ e $\hat{\theta}^{*}$ não são iguais para o
caso da média amostral mas não necessariamente iguais nos casos gerais.
Se for assumido que os valores $\theta_j^{*}$, $j = 1, \ldots, n$, são
independentes, a variância do estimador de Jackknife (inspirado pelo
caso da média) é dados por
$$
\text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n},
\quad S_{\theta^{*}}^2 = \frac{1}{n - 1}
\sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2.
$$
---
## Alguns cuidados
* Os pseudo valores são correlacionados em algum grau, com isso, a
variância do estimador Jackknife é viciada.
* Com isso, cuidado é exigido para a construção de intervalos de confiança.
* TODO;
# Bootstrap
# Monte Carlo
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment