+ - 0:00:00
Notes for current slide
Notes for next slide

DATA ARE DUMB

Encontro estatístico CONRE-3

1 / 26

Faxineiro de dados

2 / 26

Novos tempos?

  • Nos últimos anos os tipos de dados mudaram.
  • Coisas muito importantes no mercado hoje em dia:

3 / 26

Deep Learning

  • Popularidade recente da área de deep learning.

  • Promete fazer muitas coisas.

  • Tem um linguajar diferente do que estamos acostumados.

4 / 26

Problemas

  • Muita, muita gente usando.
5 / 26

Problemas

  • Muita, muita gente usando.

  • Mercado está pedindo. Só se fala nisso.

5 / 26

Problemas

  • Muita, muita gente usando.

  • Mercado está pedindo. Só se fala nisso.

  • Não aprendemos nada disso na faculdade

5 / 26

Problemas

  • Muita, muita gente usando.

  • Mercado está pedindo. Só se fala nisso.

  • Não aprendemos nada disso na faculdade

  • O que estudamos é ultrapassado?

5 / 26

Não entre em pânico!

6 / 26

Teoria

7 / 26

Judea Pearl

8 / 26

Três estruturas básicas

9 / 26

Três estruturas básicas

Mediadores

A -> B -> C

9 / 26

Três estruturas básicas

Mediadores

A -> B -> C

Confundidores / garfos

A <- B -> C

9 / 26

Três estruturas básicas

Mediadores

A -> B -> C

Confundidores / garfos

A <- B -> C

Colisores

A -> B <- C

9 / 26

Importância em regressão - mediador

lr X1 X1 X2 X2 X1->X2 Y Y X2->Y
n <- 1000
x1 <- rnorm(n)
x2 <- 1 + x1 + rnorm(n)
y <- 1 + x2 + rnorm(n)
modelo <- lm(y ~ x1 + x2)
coef(modelo)
## (Intercept) x1 x2
## 1.08872056 0.01828541 0.96271373
10 / 26

Importância em regressão - mediador

lr X1 X1 X2 X2 X1->X2 Y Y X2->Y
n <- 1000
x1 <- rnorm(n)
x2 <- 1 + x1 + rnorm(n)
y <- 1 + x2 + rnorm(n)
modelo <- lm(y ~ x1 + x2)
coef(modelo)
## (Intercept) x1 x2
## 1.08872056 0.01828541 0.96271373
modelo <- lm(y ~ x2)
coef(modelo)
## (Intercept) x2
## 1.0798605 0.9716253
10 / 26

Importância em regressão - confundidor

lr X1 X1 X2 X2 X1->X2 Y Y X1->Y X2->Y
n <- 1000
x1 <- rnorm(n)
x2 <- 1 + 2 * x1 + rnorm(n)
y <- 1 + x1 + x2 + rnorm(n)
modelo <- lm(y ~ x1)
coef(modelo)
## (Intercept) x1
## 1.915388 2.979533
11 / 26

Importância em regressão - confundidor

lr X1 X1 X2 X2 X1->X2 Y Y X1->Y X2->Y
n <- 1000
x1 <- rnorm(n)
x2 <- 1 + 2 * x1 + rnorm(n)
y <- 1 + x1 + x2 + rnorm(n)
modelo <- lm(y ~ x1)
coef(modelo)
## (Intercept) x1
## 1.915388 2.979533
modelo <- lm(y ~ x1 + x2)
coef(modelo)
## (Intercept) x1 x2
## 0.9335670 0.9577917 1.0250971
11 / 26

Importância em regressão - colisor

lr X2 X2 X1 X1 X2->X1 Y Y Y->X1
x2 <- rnorm(n)
y <- rnorm(n)
x1 <- 1 + 2 * x2 + 3 * y + rnorm(n)
lm(y[x1 > 1] ~ x2[x1 > 1]) %>%
summary() %>%
broom::tidy()
## # A tibble: 2 x 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 0.809 0.0337 24.0 4.25e-85
## 2 x2[x1 > 1] -0.366 0.0322 -11.4 9.65e-27
12 / 26

Importância em regressão - colisor

lm(y ~ x2) %>%
summary() %>%
broom::tidy()
## # A tibble: 2 x 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 0.0213 0.0312 0.685 0.494
## 2 x2 -0.0210 0.0304 -0.691 0.490
13 / 26

Importância em regressão - colisor

lm(y ~ x2) %>%
summary() %>%
broom::tidy()
## # A tibble: 2 x 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 0.0213 0.0312 0.685 0.494
## 2 x2 -0.0210 0.0304 -0.691 0.490

Viés de seleção

13 / 26

Wrap-up

Essas coisas não são ignoradas por estatísticos

14 / 26

Wrap-up

Essas coisas não são ignoradas por estatísticos

Não é possível verificar boa parte desses problemas nos dados

14 / 26

Wrap-up

Essas coisas não são ignoradas por estatísticos

Não é possível verificar boa parte desses problemas nos dados

Fazer diagramas causais ajuda a entender o problema

14 / 26

Wrap-up

Essas coisas não são ignoradas por estatísticos

Não é possível verificar boa parte desses problemas nos dados

Fazer diagramas causais ajuda a entender o problema

Pearl argumenta que não é só útil como necessário em problemas mais complexos

14 / 26

Paradoxos

15 / 26

Monty Hall

16 / 26

Colisor!

lr Escolha1 Escolha1 Apres Apres Escolha1->Apres Carro Carro Carro->Apres
17 / 26

Paradoxo de Berkson

18 / 26

Colisor!

lr Doenca1 Doenca1 Hospital Hospital Doenca1->Hospital Doenca2 Doenca2 Doenca2->Hospital
19 / 26

Paradoxo de Simpson

20 / 26

Paradoxo de Simpson

21 / 26

Confundimento!

lr IdadeSex IdadeSex Tratamento Tratamento IdadeSex->Tratamento Melhorar Melhorar IdadeSex->Melhorar Tratamento->Melhorar
22 / 26

Confundimento!

lr IdadeSex IdadeSex Tratamento Tratamento IdadeSex->Tratamento Melhorar Melhorar IdadeSex->Melhorar Tratamento->Melhorar

Nesse caso, temos de controlar por Idade e sexo

22 / 26

Outro exemplo!

23 / 26

Confundimento!

lr Pressao Pressao Melhorar Melhorar Pressao->Melhorar Tratamento Tratamento Tratamento->Pressao Tratamento->Melhorar
24 / 26

Confundimento!

lr Pressao Pressao Melhorar Melhorar Pressao->Melhorar Tratamento Tratamento Tratamento->Pressao Tratamento->Melhorar

Nesse caso, não é para controlar por pressão

24 / 26

Wrap-up

Diagramas causais resolvem paradoxos estatísticos facilmente

25 / 26

Wrap-up

Diagramas causais resolvem paradoxos estatísticos facilmente

Nem tudo está nos dados

25 / 26

Wrap-up

Diagramas causais resolvem paradoxos estatísticos facilmente

Nem tudo está nos dados

Reflexão: é possível implementar causalidade em deep learning?

25 / 26

Faxineiro de dados

2 / 26
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow