Aula - 1 ST 2020
Aula - 1 ST 2020
Revisão
Dados de Entrega
90
80
tempo de entrega
70
60
50
40
30
20
10
0
0 10 20 30 40
no. itens
Gráfico de Dispersão (b)
Scatterplot of y vs x3
80
70
60
50
40
y
30
20
10
0
50 60 70 80 90 100
x3
Regressão Linear Simples
• Suposição: f(.) pode ser
aproximada por uma reta
f ( xi ) 0 1.xi i
x
Interpretação Gráfica do Modelo Linear
y
8
0
2
1
y
0 x
-2
-4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
x
yi 0 1.xi i
Suposições sobre o erro aleatório
E(ei ) 0
var(ei ) 2 Os erros são variáveis aleatórias
Independentes e identicamente
distribuídas
E(y | x) 0 1 x
var( y | x) 2
ei ~ iid N (0, ) 2
Interpretação gráfica do erro
y
x1 x2 x3 x
Quais as suposições necessárias para
a seguinte base de dados?
Scatterplot of y vs x
2.5
2.0
1.5
y
1.0
0.5
0.0
2 3 4 5 6 7 8 9 10 11
x
Caracterização Visual dos Resíduos
resíduo
resíduo
y,ˆ x y,ˆ x
resíduo
2 constante y’ = y
2 E(y) y’ = y (Poisson)
2 E(y)[1-E(y)] y’ = sin-1( y ), 0 yi 1
2 [E(y)]2 y’ = ln(y), ou log(y)
2 [E(y)]3 y’ = y-1/2
2 [E(y)]4 y’ = y-1
Forma Genérica para Escolha de
Transformações
y 0 1 x
Entretanto, para = 0, a variável resposta é sempre 1.
Como alternativa, têm-se (Box-Cox):
y 1
1 0
y 1 n
( )
y y ln i 1 ln yi
1
n
y ln y 0
Critério de Escolha de
n 2
x
Regressão Linear Múltipla (revisão)
• Caso particular de duas variáveis
y 0 1.x1 2 .x2
• Caso geral de p variáveis
Forma Matricial i y x0 x1 x2
1 16,68 7 560 1 16,68 1 7 560
2 11,5 3 220 2 11,5 1 3 220
3 12,03 3 340 3 12,03 1 3 340
4 14,88 4 80 4 14,88 1 4 80
5 13,75 6 150 5 13,75 1 6 150
6 18,11 7 330 6 18,11 1 7 330
7 8 2 110 7 8 1 2 110
8 17,83 7 210 8 17,83 1 7 210
9 79,24 30 1460 9 79,24 1 30 1460
10 21,5 5 605 10 21,5 1 5 605
11 40,33 16 688 11 40,33 1 16 688
12 21 10 215 12 21 1 10 215
13 13,5 4 255 13 13,5 1 4 255
14 19,75 6 462 14 19,75 1 6 462
15 24 9 448 15 24 1 9 448
16 29 10 776 16 29 1 10 776
17 15,35 6 200 17 15,35 1 6 200
18 19 7 132 18 19 1 7 132
19 9,5 3 36 19 9,5 1 3 36
20 35,1 17 770 20 35,1 1 17 770
21 17,9 10 140 21 17,9 1 10 140
22 52,32 26 810 22 52,32 1 26 810
23 18,75 9 450 23 18,75 1 9 450
24 19,83 8 635 24 19,83 1 8 635
25 10,75 4 150 25 10,75 1 4 150
Representação Matricial
y n1 X n p
Estimação dos Parâmetros
Soma dos Quadrados dos Erros
n
SQEβ y Xβ y Xβ
2 T
i
i 1
Ponto de
mínimo
SQE
2XT y 2XT Xβˆ 0
β ˆ
ˆ
β X X
T
1 T
X y
Propriedades dos Estimadores
E[βˆ ] β
ˆ
cov(β) ( X X)
2 T 1
ˆ
var( j ) C jj
2
ˆβ XT X 1 XT y ~ N β, XT X 1 2
onde Cjj é o elemento j da diagonal da matriz
C=(XTX)-1.
Exemplo:
n <- 20 n <- 20
x1 <- runif(n,-1,7) vtbeta0 <- c()
x2 <- rpois(n,5) vtbeta1 <- c()
erro <- rnorm(n,0,0.5) vtbeta2 <- c()
y <- 3 + 1.5*x1 + 4*x2 + erro for(cont in 1:1000){
dt <- list(y,x1,x2) x1 <- runif(n,-1,7)
mdl <- lm(y ~ x1 + x2, data = dt) x2 <- rpois(n,5)
summary(mdl) erro <- rnorm(n,0,0.5)
y <- 3 + 1.5*x1 + 4*x2 + erro
dt <- list(y,x1,x2)
mdl <- lm(y ~ x1 + x2, data = dt)
vtbeta0 <- c(vtbeta0, mdl$coef[1])
vtbeta1 <- c(vtbeta1, mdl$coef[2])
vtbeta2 <- c(vtbeta2, mdl$coef[3])
}
par(mfrow=c(3,1))
hist(vtbeta0)
hist(vtbeta1)
hist(vtbeta2)
summary(vtbeta0)
cat("\n Desvio:", sd(vtbeta0), "\n")
n = 20:
Histogram of vtbeta0
100 200
Frequency
0
1.5 2.0 2.5 3.0 3.5 4.0
vtbeta0
Histogram of vtbeta1
250
Frequency
0 100
vtbeta1
Histogram of vtbeta2
250
Frequency
0 100
vtbeta2
n = 100:
Histogram of vtbeta0
Frequency
100 200
0 2.6 2.8 3.0 3.2 3.4
vtbeta0
Histogram of vtbeta1
150
Frequency
0 50
vtbeta1
Histogram of vtbeta2
250
Frequency
0 100
vtbeta2
Matriz de Projeção (H)
yˆ Xβˆ onde:
ˆβ XT X 1 XT y
Realizando a substituição:
yˆ X X X X y
T
1 T fazendo:
H X X X XT
T
1
(hat matrix)
tem-se:
yˆ Hy
Vetor de resíduos: r I H y
Exemplo Matriz H
y 0 1 x1 yˆ Hy
y x0 x1 ˆ0 0,5630 ˆ1 6,1026
0,31 1 0
0.7226 0.0853 0.3243 0.1331 - 0.2652
25,23 1 4 0.0853 0.2252 0.1727 0.2147 0.3021
14,91 1 2,5 H 0.3243 0.1727 0.2296 0.1841 0.0894
24,88 1 3,7 0.1331 0.2147 0.1841 0.2086 0.2596
- 0.2652 0.3021 0.0894 0.2596 0.6141
37,56 1 6,2
5
ˆ1
y h
i 1
1i . yi