Conclui slides resumo dos métodos intensivos.

parent 2ba51d8b
......@@ -123,9 +123,9 @@ layout(1)
## Abordagens consideradas
* Teste de aleatorização (permutação).
* Jackknife.
* Bootstrap.
* Simulação Monte Carlo.
* Métodos de Jackknife.
* Métodos de Bootstrap.
* Métodos de Monte Carlo.
# Testes de Aleatorização
......@@ -137,6 +137,7 @@ layout(1)
distribuição amostral exata.
* Amostra do conjunto completo de arranjos (reamostragem sem
reposição).
* Sob a hipótese nula os dados são **permutáveis**.
# Uma senhora toma chá
......@@ -167,10 +168,6 @@ layout(1)
* Ao nível de 5%, a hipótese nula será rejeitada apenas se a senhora
acertar as 4 xícaras pois 1/70 $\approx$ 0.14 $<$ 0.05.
---
Mais exemplos nos scripts.
# Jackknife
* Jackknife é uma espécie de canivete suiço.
......@@ -238,18 +235,126 @@ caso da média) é dados por
$$
\text{Var}(\hat{\theta}^{*}) = \frac{S_{\theta^{*}}^2}{n},
\quad S_{\theta^{*}}^2 = \frac{1}{n - 1}
\sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*})^2.
\sum_{j = 1}^n (\theta_j^{*} - \hat{\theta}^{*}**^2.
$$
---
## Alguns cuidados
## Informação adicional
* Os pseudo valores são correlacionados em algum grau, com isso, a
variância do estimador Jackknife é viciada.
* Com isso, cuidado é exigido para a construção de intervalos de confiança.
* TODO;
variância do estimador Jackknife pode ser viciada.
* É possível usar leave-two-outs, leave-three-outs, mas isso aumenta o
custo.
* Validação cruzada tem relação com Jackknife.
# Bootstrap
**Principal objetivo***
Determinar as propriedades da distribuição do estimador de certo
parâmetro, mas sem fazer suposições sobre a forma da distribuição dos
dados.
---
## A ideia
O conjunto de valores observados ($x_1,\ldots,x_n$) é considerado uma
realização de uma amostra aleatória ($X_1,\ldots,X_n$) de uma
distribuição desconhecida $F$.
Considere que existe interesse no parâmetro $\theta$ que pode ser
estimado pela estatística $T(X_1,\ldots,X_n)$, ou seja, $\hat{\theta} =
T(X_1,\ldots,X_n)$.
* Qual o vício do estimador $\hat{\theta}$?
* Qual a variância do estimador $\hat{\theta}$?
* Como obter um intervalo de confiança para $\theta$?
* Como testar hipóteses sobre $\theta$ a partir da conhecida amostra?
---
## Distribuição empírica
Distribuição empírica é a distribuição discreta em que cada ponto
amostral tem o mesmo peso, ou seja, cada $x_i, i = 1,\ldots,n$, tem peso
$1/n$. Essa distribuição de probabilidades é representada por $\hat{F}$
e é uma estimativa de $F$ baseada na amostra observada.
Principio plug-in: substituir a $F$ desconhecida por sua estimativa
conhecida $\hat{F}$.
N bootstrap, $\hat{F}$ é considerada como se fosse $F$.
Tomadas $B$ observações independentes e identicamente distribuídas de
$\hat{F}$ é o mesmo que reamostrar com reposição a amostra original.
---
### Bootstrap não-paramétrico
A amostra bootstrap é obtida através de reamostragem aleatória com
reposição da amostra original.
### Bootstrap paramétrico
A amostra bootstrap é obtida através de geração de números aleatórios da
distribuição assumida para os dados. Os parâmetros da distribuição são
estimados através da amostra original.
---
## O algorítmo do bootstrap não paramétrico
1. Gere uma amostra com reposição da distribuição empírica
dos dados (reamostragem com reposição).
2. Calcule $\hat\theta = T(x_1, \ldots, x_n)$ que é a estimativa
bootstrap de $\theta$.
3. Repita os passos 1 e 2 $B$ vezes, onde $B$ é suficientemente
grande.
4. Resuma ou represente a distribuição formada pelos valores
$\hat{\theta}_i, i = 1,\ldots,B$.
---
```{r, echo = FALSE, out.width = "\\textwidth"}
include_graphics("../img/bootstrap-resampling.png")
```
---
## Mais detalhes
Existem muitos aspectos relacionados ao bootstrap que não serão
abordados:
* Métodos para obtenção de intervalos de confiança.
* Correções para vício de estimadores.
* Inferência boostrap em amostras correlacionadas (séries temporais, dados espaciais).
Para mais detalhes visite \url{http://conteudo.icmc.usp.br/CMS/Arquivos/arquivos_enviados/SECAO-POSGRAD_87_bootstrap-slides.pdf}.
# Monte Carlo
A inferência por métodos Monte Carlos é baseada na geração de números
aleatórios do modelo assumido para os dados. Esses métodos são
utilizados para:
* Avaliar propriedades de um estimador pontual e/ou intervalar.
* Avaliar propriedades de um teste de hipóteses.
* Determinar tamanhos de amostra.
* Solucionar problemas otimização, integração, etc.
Os testes de aleatorização e boostrap são casos particulares de métodos
Monte Carlo.
---
Nos métodos MC, deve-se **assumir uma distribuição de probabilidades**
para algum componente aleatório do modelo, o que por vezes é considerada
uma desvantagem da abordagem.
A partir da geração de amostras aleatórias do modelo **sob hipótese
nula** são calculadas as estatísticas de interesse. A **distribuição
amostral** das estatísticas é o ponto de partida para a inferência.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment