0% acharam este documento útil (0 voto)

27 visualizações34 páginas

Aula - 1 ST 2020

Enviado por

siawash.cam

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

27 visualizações34 páginas

Aula - 1 ST 2020

Enviado por

siawash.cam

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 34

Métodos Estatísticos de Previsão

Revisão

Prof. Thiago Rezende

Depto. Estatística - UFMG
Revisão: Regressão Linear Simples
Análise Exploratória (Gráfico de Dispersão)

Dados de Entrega

90
80
tempo de entrega

70
60
50
40
30
20
10
0
0 10 20 30 40
no. itens
Gráfico de Dispersão (b)
Scatterplot of y vs x3
80

40
y

0
50 60 70 80 90 100
x3
Regressão Linear Simples
• Suposição: f(.) pode ser
aproximada por uma reta

f ( xi )  0  1.xi   i

Intercepto Inclinação Erro aleatório

i : é uma variável aleatória que expressa a não-

adequação do modelo e componentes não explicadas
pela reta de regressão
A escolha do modelo
• O modelo é uma aproximação simplificada da relação real entre as
variáveis de interesse.
y

x
Interpretação Gráfica do Modelo Linear
y
8

0
2
1
y

0 x


-2

-4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
x
yi  0  1.xi   i
Suposições sobre o erro aleatório

E(ei )  0
var(ei )   2 Os erros são variáveis aleatórias
Independentes e identicamente
distribuídas

E(y | x)  0  1 x

var( y | x)   2

ei ~ iid N (0,  ) 2
Interpretação gráfica do erro
y

x1 x2 x3 x
Quais as suposições necessárias para
a seguinte base de dados?

Scatterplot of y vs x
2.5

2.0

1.5
y

1.0

0.5

0.0
2 3 4 5 6 7 8 9 10 11
x
Caracterização Visual dos Resíduos
resíduo

resíduo
 y,ˆ x   y,ˆ x 
resíduo

 y,ˆ x  resíduo  y,ˆ x 

Transformação para Estabilizar a
Variância
Relação entre 2 e E(y) Transformação

2  constante y’ = y
2  E(y) y’ = y (Poisson)
2  E(y)[1-E(y)] y’ = sin-1( y ), 0  yi  1
2  [E(y)]2 y’ = ln(y), ou log(y)
2  [E(y)]3 y’ = y-1/2
2  [E(y)]4 y’ = y-1
Forma Genérica para Escolha de
Transformações

y   0  1 x
Entretanto, para  = 0, a variável resposta é sempre 1.
Como alternativa, têm-se (Box-Cox):
 y 1
   1   0
  y 1 n 
( )
y  y  ln  i 1 ln yi 
1

n 
 y ln y   0


Critério de Escolha de 

• O valor de  é escolhido de forma a maximizar a soma dos

quadrados dos resíduos.

 
n 2

SQR   yi(  )  ˆ0  ˆ1 xi

i 1

• Os estimadores de 0 e 1 são obtidos a partir do uso da

variável resposta transformada.
Etapas para Análise de Regressão
Simples
• Inicie o procedimento realizando uma análise exploratória dos dados;
• Ajuste o modelo e realize um teste sobre a validade do mesmo;
• Caso necessário, faça uma transformação na variável resposta (y) para estabilizar
a variância;
• Faça uma análise dos resíduos para justificar a aleatoriedade e normalidade dos
mesmos e para detectar possíveis outliers;
• Caso seja identificado algum outlier, procure por evidências que justifiquem a
ocorrência do mesmo antes que seja retirado das observações.
Modelos Heterocedásticos
y

x
Regressão Linear Múltipla (revisão)
• Caso particular de duas variáveis

y  0  1.x1   2 .x2  
• Caso geral de p variáveis

y  0  1.x1  2 .x2    k .xk  

i y x1 x2

Forma Matricial i y x0 x1 x2
1 16,68 7 560 1 16,68 1 7 560
2 11,5 3 220 2 11,5 1 3 220
3 12,03 3 340 3 12,03 1 3 340
4 14,88 4 80 4 14,88 1 4 80
5 13,75 6 150 5 13,75 1 6 150
6 18,11 7 330 6 18,11 1 7 330
7 8 2 110 7 8 1 2 110
8 17,83 7 210 8 17,83 1 7 210
9 79,24 30 1460 9 79,24 1 30 1460
10 21,5 5 605 10 21,5 1 5 605
11 40,33 16 688 11 40,33 1 16 688
12 21 10 215 12 21 1 10 215
13 13,5 4 255 13 13,5 1 4 255
14 19,75 6 462 14 19,75 1 6 462
15 24 9 448 15 24 1 9 448
16 29 10 776 16 29 1 10 776
17 15,35 6 200 17 15,35 1 6 200
18 19 7 132 18 19 1 7 132
19 9,5 3 36 19 9,5 1 3 36
20 35,1 17 770 20 35,1 1 17 770
21 17,9 10 140 21 17,9 1 10 140
22 52,32 26 810 22 52,32 1 26 810
23 18,75 9 450 23 18,75 1 9 450
24 19,83 8 635 24 19,83 1 8 635
25 10,75 4 150 25 10,75 1 4 150
Representação Matricial

Observação Resposta Regressores

i y x0 x1 x2 ... xk

1 y1 1 x11 x12 ... x1k

2 y2 1 x21 x22 ... x2k
. . . . . .
. . . . . .
. . . . . .
n yn 1 xn1 xn2 ... xnk
Matriz Resposta e Matriz de Regressores
y x0 x1 x2
Equação do modelo de
16,68 1 7 560
11,5 1 3 220 regressão linear múltipla
12,03 1 3 340
14,88 1 4 80
13,75
18,11
8
1
1
1
6
7
2
150
330
110
y  Xβ  ε
17,83 1 7 210
79,24 1 30 1460
21,5 1 5 605
40,33 1 16 688
21 1 10 215
13,5 1 4 255
19,75 1 6 462
24 1 9 448
29 1 10 776
15,35 1 6 200
19 1 7 132
9,5 1 3 36
35,1 1 17 770
17,9 1 10 140
52,32 1 26 810
18,75 1 9 450
19,83 1 8 635
10,75 1 4 150

y n1 X n p
Estimação dos Parâmetros
Soma dos Quadrados dos Erros
n
SQEβ      y  Xβ  y  Xβ 
2 T
i
i 1
Ponto de
mínimo

SQE
 2XT y  2XT Xβˆ  0
β ˆ

Estimador de mínimos quadrados

ˆ
β X X
T
 1 T
X y
Propriedades dos Estimadores
E[βˆ ]  β
ˆ
cov(β)   ( X X)
2 T 1

ˆ
var( j )   C jj
2

   
ˆβ  XT X 1 XT y ~ N β, XT X 1 2 
onde Cjj é o elemento j da diagonal da matriz
C=(XTX)-1.
Exemplo:

n <- 20 n <- 20
x1 <- runif(n,-1,7) vtbeta0 <- c()
x2 <- rpois(n,5) vtbeta1 <- c()
erro <- rnorm(n,0,0.5) vtbeta2 <- c()
y <- 3 + 1.5*x1 + 4*x2 + erro for(cont in 1:1000){
dt <- list(y,x1,x2) x1 <- runif(n,-1,7)
mdl <- lm(y ~ x1 + x2, data = dt) x2 <- rpois(n,5)
summary(mdl) erro <- rnorm(n,0,0.5)
y <- 3 + 1.5*x1 + 4*x2 + erro
dt <- list(y,x1,x2)
mdl <- lm(y ~ x1 + x2, data = dt)
vtbeta0 <- c(vtbeta0, mdl$coef[1])
vtbeta1 <- c(vtbeta1, mdl$coef[2])
vtbeta2 <- c(vtbeta2, mdl$coef[3])
}
par(mfrow=c(3,1))
hist(vtbeta0)
hist(vtbeta1)
hist(vtbeta2)
summary(vtbeta0)
cat("\n Desvio:", sd(vtbeta0), "\n")
n = 20:
Histogram of vtbeta0

100 200
Frequency

0
1.5 2.0 2.5 3.0 3.5 4.0

vtbeta0

Histogram of vtbeta1
250
Frequency

0 100

1.3 1.4 1.5 1.6 1.7

vtbeta1

Histogram of vtbeta2
250
Frequency

0 100

3.8 3.9 4.0 4.1 4.2

vtbeta2
n = 100:
Histogram of vtbeta0

Frequency

100 200
0 2.6 2.8 3.0 3.2 3.4

vtbeta0

Histogram of vtbeta1
150
Frequency

0 50

1.45 1.50 1.55

vtbeta1

Histogram of vtbeta2
250
Frequency

0 100

3.95 4.00 4.05 4.10

vtbeta2
Matriz de Projeção (H)

yˆ  Xβˆ onde:  
ˆβ  XT X 1 XT y

Realizando a substituição:


yˆ  X X X X y
T
1 T fazendo: 
H  X X X XT
T

1

(hat matrix)
tem-se:

yˆ  Hy
Vetor de resíduos: r  I  H  y
Exemplo Matriz H

y  0  1 x1   yˆ  Hy
y x0 x1 ˆ0  0,5630 ˆ1  6,1026
0,31 1 0
 0.7226 0.0853 0.3243 0.1331 - 0.2652
25,23 1 4  0.0853 0.2252 0.1727 0.2147 0.3021 

14,91 1 2,5 H   0.3243 0.1727 0.2296 0.1841 0.0894 
 
24,88 1 3,7  0.1331 0.2147 0.1841 0.2086 0.2596 
- 0.2652 0.3021 0.0894 0.2596 0.6141
37,56 1 6,2
5
ˆ1 
y h
i 1
1i . yi

ˆ1  0,7226.0,31  0,853.25,23  0,3243.14,91  0,1331.24,88  0,2652.37,56

y
http://www.ipeadata.gov.br/
http://finance.yahoo.com/q/hp?s=%5EBVSP+Historical+Prices
Dados do Yahoo Finance no R
http://lib.stat.cmu.edu/datasets/
http://www.statsci.org/datasets.html

Aula - 1 ST 2020

Enviado por

Aula - 1 ST 2020

Enviado por

Métodos Estatísticos de Previsão

Prof. Thiago Rezende

Intercepto Inclinação Erro aleatório

i : é uma variável aleatória que expressa a não-

 y,ˆ x  resíduo  y,ˆ x 

• O valor de  é escolhido de forma a maximizar a soma dos

SQR   yi(  )  ˆ0  ˆ1 xi

• Os estimadores de 0 e 1 são obtidos a partir do uso da

y  0  1.x1  2 .x2    k .xk  

Observação Resposta Regressores

1 y1 1 x11 x12 ... x1k

Estimador de mínimos quadrados

1.3 1.4 1.5 1.6 1.7

3.8 3.9 4.0 4.1 4.2

1.45 1.50 1.55

3.95 4.00 4.05 4.10

ˆ1  0,7226.0,31  0,853.25,23  0,3243.14,91  0,1331.24,88  0,2652.37,56

Você também pode gostar

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.