0% acharam este documento útil (0 voto)
15 visualizações23 páginas

FML ModeloLinearSimples

Este documento apresenta os fundamentos do modelo de regressão linear simples. O modelo descreve a relação entre uma variável dependente Y e uma variável independente X através de uma equação linear com um termo de erro. Os parâmetros do modelo (inclinação, intercepto e variância do erro) são estimados usando o método dos mínimos quadrados ordinários, que minimiza a soma dos quadrados dos resíduos. Os estimadores resultantes são não tendenciosos e têm variâncias mínimas entre todos os estimadores lineares possíveis.

Enviado por

volnys bernal
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
15 visualizações23 páginas

FML ModeloLinearSimples

Este documento apresenta os fundamentos do modelo de regressão linear simples. O modelo descreve a relação entre uma variável dependente Y e uma variável independente X através de uma equação linear com um termo de erro. Os parâmetros do modelo (inclinação, intercepto e variância do erro) são estimados usando o método dos mínimos quadrados ordinários, que minimiza a soma dos quadrados dos resíduos. Os estimadores resultantes são não tendenciosos e têm variâncias mínimas entre todos os estimadores lineares possíveis.

Enviado por

volnys bernal
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 23

FUNDAMENTOS EM MODELOS LINEARES

REGRESSÃO LINEAR SIMPLES

1 / 23
Introdução
Um modelo estatı́stico é constituı́do por duas partes, uma parte
modela a média de uma variável aleatória Y e a outra parte
modela a sua variância.

No caso do modelo de regressão linear simples, dado duas variáveis


(Y, X), com X possivelmente relacionada a Y , escrevemos:

Yi = β0 + β1 xi + ϵi ,

com E(ϵi ) = 0, V(ϵi ) = σ 2 e E(ϵi ϵi′ ) = 0, i, i′ = 1,2, · · · , n e


i ̸= i′ . O termo ”regressão”é devido a Galton (1886) que estudou altura
de filhos em função da altura de pais e concluiu que a altura de novas
gerações tende a ”regredir”para uma média populacional.
2 / 23
Introdução

12

e11

11
● ●
e10

10
e8 ●e ●
9

yi = β0 + β1xi + ei
Ganho de peso (y)

● e7
9


8

e5 e6

● e4

7

e3
● ● e2
6

e1 ●


5

5 6 7 8 9 10

Concentração do sal (x)

Figura 1: Regressão Linear Simples.

3 / 23
Introdução
De fato, embora não explı́cito na equação, esse é um modelo
condicional, ou seja, para Y |X = x, se X também for uma variável
aleatória.

E(Yi |Xi = xi ) = β0 + β1 xi e V(Yi |Xi = xi ) = σ 2 .

Assim
ϵi = Yi − E(Yi |Xi = xi )

e o modelo tem 3 parâmetros: β0 (intercepto), β1 (inclinação) e


σ 2 (variância da parte aleatória). Na notação que segue, o número
de parâmetros na equação será denotado por p (p = 2).
4 / 23
Introdução
Interpretação
β0 é E(Y |X = 0).

β1 é o efeito linear de X, mede a diferença esperada em Y


quando comparamos duas subpopulações, uma com X = x e
a outra com X = (x + 1) (∆x = 1), independente do valor x.
É um efeito transversal (cross-sectional), não é longitudinal.

σ 2 é a variância da parte aleatória se a equação incorporar


todas as variáveis relevantes para explicar Y . Caso contrário,
esta componente tem uma parte devido ao vı́cio ou falta de
ajuste do modelo.
5 / 23
Introdução

É comum assumir que ϵ ∼ N ormal(0; σ 2 ), porém tal suposição


não é necessária, a não ser para amostras muito pequenas.

Os parâmetros do modelo são estimados, ou seja, o modelo é


ajustado, via a seleção de uma amostra aleatória de n valores de
(X, Y ). Existem diversos métodos de estimação, sendo o método
de mı́nimos quadrados dos erros (OLS=Ordinary Least Squares), o
mais popular.

Os estimadores de mı́nimos quadrados, β̂0 e β̂1 , são as soluções


que minimizam a soma dos quadrados dos erros.
6 / 23
Estimação via Mı́nimos Quadrados
Definição de algumas estatı́sticas úteis.
Estatı́sticas Conceito

1
n
P Média Amostral
x̄ = n xi
i=1 de X
n n
(xi − x̄)2 =
P P
SXX = (xi − x̄)xi SQ de X
i=1 i=1

1
n
P Média Amostral
Ȳ = n Yi
i=1 de Y
n n
(Yi − Ȳ )2 =
P P
SY Y = (Yi − Ȳ )Yi SQ de Y =SQTOTAL
i=1 i=1
n
P n
P Soma de produtos
SXY = (xi − x̄)(Yi − Ȳ ) = (xi − x̄)Yi
i=1 i=1 cruzados de X e Y.
7 / 23
Estimação via Mı́nimos Quadrados

A soma de quadrados (SQ) dos erros é


n
X n
X
SQERROS = ϵ2i = [Yi − (β0 + β1 xi )]2 ,
i=1 i=1

que, diferenciando com respeito a cada coeficiente resulta em:


n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−1)
∂β0
i=1
n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−xi )
∂β1
i=1

8 / 23
Estimação via Mı́nimos Quadrados

Igualando a zero:
n
X n
X
nβ̂0 + β̂1 xi = Yi
i=1 i=1
n
X n
X n
X
β̂0 xi + β̂1 x2i = xi Yi
i=1 i=1 i=1

Essas equações são conhecidas como equações normais dos


mı́nimos quadrados, cujas soluções são

SXY
β̂0 = Ȳ − β̂1 x̄ e β̂1 = .
SXX

(demonstre esses resultados)

9 / 23
Propriedades dos Estimadores
β̂0 e β̂1 são não tendenciosos (em média estimam certo);
Prova para β̂1 :
 
SXY 1 1
E(β̂1 ) = E =E(SXY ) = E [Σ(xi − x̄)Yi ]
SXX SXX SXX
1 1
= Σ{E [(xi − x̄)Yi ]} = Σ{(xi − x̄)E [Yi ]}
SXX SXX
1
= Σ{(xi − x̄)E [β0 + β1 xi + ϵi ]}
SXX
1
= Σ{(xi − x̄) [E(β0 ) + E(β1 xi ) + E(ϵi )]}
SXX
1
= Σ{(xi − x̄) [β0 + β1 xi + 0]}
SXX
Σ(xi − x̄)
= β0 + Σ{(xi − x̄) [β0 + β1 xi ]}
SXX
Σ(xi − x̄)xi
= 0 + 0 + β1 = β1
SXX
(demonstre para E(β̂0 )) 10 / 23
Propriedades dos Estimadores

β̂0 e β̂1 são consistentes.

Prova para β̂1 :


 
SXY 1
V(β̂1 ) = V 2 V [Σ(xi − x̄)Yi ]
=
SXX SXX
1 1
= 2 Σ{V [(xi − x̄)Yi ]} = 2 Σ{(xi − x̄)2 V [Yi ]}
SXX SXX
σ2 2 σ2 σ2
= 2 Σ(x i − x̄) = 2 SXX =
SXX SXX SXX

σ2
Como SXX é uma soma de n termos positivos, SXX → 0 se
n → ∞.

11 / 23
Propriedades dos Estimadores
Para β̂0
x̄2
 
2 1
V(β̂0 ) = σ +
n SXX
(demonstre)
β̂1 e β̂0 são correlacionados, exceto quando x é centrada em

zero (x̄ = 0). A covariância é Cov(β̂0 ,β̂1 ) = −σ 2 SXX .
(demonstre)
Como ambos estimadores são combinações lineares de Y , podemos
invocar o TCL. Para n suficientemente grande:
     
1 x̄2 x̄
β̂ β + − SXX
 0  ∼ N2  0  ; σ 2  n SXX 
x̄ 1
β̂1 β1 − SXX SXX

12 / 23
Resposta estimada, predição e resı́duos
Uma vez estimado β0 e β1 podemos:
1. Estimar E(Yi ): E[Y
b i ] = Ŷi = β̂0 + β̂1 xi .

2. Predizer ϵi : ϵ̃i = Yi − Ŷi .


3. Estimar E[Y (x)] para qualquer x (desde que x não extrapole
muito os dados): E[Y
b (x)] = β̂0 + β̂1 x.

4. Predizer Y (x) = β0 + β1 x + ϵ para uma nova observação


(desde que x não extrapole muito os dados):

Ỹ (x) = E[Y
b (x)] + ϵ

= β̂0 + β̂1 x + ϵ

= β̂0 + β̂1 x + 0.
13 / 23
Resposta estimada, predição e resı́duos

A qualidade das estimativas e predições depende da variância dos


estimadores ou preditores. No caso 1 e 3 temos a mesma expressão
para a variância, que depende de x:
2 2
 
b (x)]} = σ 2 1 + x̄ + x − 2 x̄
V{E[Y
n SXX SXX SXX
2
 
1 (x − x̄)
= σ2 +
n SXX

Note que os valores pontuais de Ỹ (x) e E[Y


b (x)] são iguais. Mas

a variância da predição Ỹ (x) é maior devido à incerteza associada


a ϵ.

14 / 23
Resposta estimada, predição e resı́duos
Assim, temos

1 (x − x̄)2 1 (x − x̄)2
   
2 2
V[Ỹ (x)] = σ + + V(ϵ) = σ + + σ2
n SXX n SXX
1 (x − x̄)2
 
2
= σ 1+ +
n SXX

Note que as variâncias de estimativas e predições aumentam


conforme x se distancia de x̄ e que a variância de uma predição é
maior do a que a variâncias de uma estimativa para qualquer x.

Para encontrar a variância de ϵ̃i , V(ϵ̃i ) = V(Yi − Ŷi ), é útil


escrevermos Ŷi como uma função de Y .
(encontrar essa variância (ex. Lista 1))
15 / 23
ANOVA e Estimação de σ 2
Associada ao ajuste do modelo via OLS temos a decomposição de
variabilidade ou ANOVA (análise de variância):
n
X n
X n
X
SQRESIDU OS = ϵ̃2i = (Yi − Ŷi )2 = [Yi − Ȳ + Ȳ − Ŷi ]2
i=1 i=1 i=1
n
X
= (Yi − Ȳ + β̂1 x̄ − β̂1 xi )2
i=1
Xn
= [(Yi − Ȳ ) − β̂1 (xi − x̄)]2
i=1
Xn
= (Yi − Ȳ )2 − β̂12 Sxx
i=1
= SY Y − β̂12 SXX

= SQT OT AL − SQM ODELO . 16 / 23


ANOVA e Estimação de σ 2

Rearranjando os termos temos a identidade

SQT OT AL = SQM ODELO + SQRESIDU OS

As Somas de Quadrados são funções de Y e portanto, são


variáveis aleatórias quadráticas. Seus parâmetros são os graus de
liberdade da soma:

• SQT OT AL ⇒ n − 1 graus de liberdade

• SQM ODELO ⇒ (p − 1) = (2 − 1) = 1 graus de liberdade

• SQRESIDU OS ⇒ (n − p) = (n − 2) graus de liberdade

17 / 23
ANOVA e Estimação de σ 2
Tal decomposição fornece um estimador não tendencioso de σ 2
dado por
SQRESIDU OS
σ̂ 2 = = QMRESIDU OS
n−2
que recebe o nome de Quadrado Médio dos Resı́duos. Os
resultados são organizados na tabela ANOVA:

Tabela de Análise de Variância para o ajuste do ML simples


Fontes Variabilidade SQ GL QM F
QMM ODELO
M odelo SQM ODELO 2−1 QMM ODELO QMRESIDU OS

Residuos SQRESIDU OS n−2 QMRESIDU OS


T otal SQT OT AL n−1

18 / 23
ANOVA e Estimação de σ 2
A ANOVA, por si só, é um tipo de análise descritiva do ajuste do
modelo. A estatı́stica F é a razão entre variabilidades explicada
por X (modelo) e não explicada por X (erro).
Outra quantidade descritiva é o coeficiente de determinação,
popularmente conhecido como R2 dado por:
SQM ODELO SQRESIDU OS
R2 = =1−
SQT OT AL SQT OT AL
interpretado como a proporção de variabilidade em Y explicada
pelo modelo ajustado, no caso, explicada por X. Seu valor varia
entre 0 e 1, com valores altos indicando boa explicação. No caso

do modelo simples, R2 = ρ̂XY .
19 / 23
Inferências
Se os erros ϵi ’s forem Normalmente distribuı́dos (ou usando teoria
assintótica), a hipótese

H0 : β 1 = 0 (X não explica Y linearmente)

pode ser formalmente testada por um teste F . Sob H0 temos que:


(1)
• σ2
QMM ODELO ∼ χ21
(n−2)
• σ2
QMRESIDU OS ∼ χ2n−2

e essas duas variáveis são independentes. Portanto, sob H0

QMM ODELO
∼ F1;n−2
QMRESIDU OS

20 / 23
Inferências

Então, se Fobs > Fα; 1; (n−2) temos evidência para rejeitar H0 .


Esse teste é equivalente ao teste t para H0 : β1 = 0 que veremos
na sequência.

Substituindo σ 2 por σ̂ 2 nas expressões de variâncias para os


estimadores e preditores, e tomando-se a raiz quadrada, temos os
erros padrões estimados dos mesmos. Testes de hipóteses,
intervalos de confiança e bandas de predições podem ser obtidas
utilizando, como referência, a distribuição t-Student com n − 2
graus de liberdade.

21 / 23
Inferências
Assim, para testar hipótese do tipo

H0 : β1 = β10 vs HA : β1 ̸= β10

usamos a estatı́stica T dada por

β̂1 − β10
T = ,
√ σ̂
SXX

que, sob H0 , segue a distribuição t-Student, com n − 2 graus de


liberdade. Se o valor de T , tobs , for superior a |t α2 ; n−2 |, em que α
é o nı́vel de significância do teste, temos indicativa de que β1 não é
igual ao valor especificado na hipótese nula.

22 / 23
Inferências
Intervalos de Confiança a 100 × (1 − α)%:

para β1 :
 
σ̂ σ̂
β̂1 − |t α2 ; n−2 | √ ; β̂1 + |t α2 ; n−2 | √
SXX SXX

para E[Y (x)]:


 q q 
1 (x−x̄)2 1 (x−x̄)2
Ê[Y (x)] − |t α2 ; n−2 |σ̂ n + SXX ; Ê[Y (x)] + |t α2 ; n−2 |σ̂ n + SXX

para E[Y (x)]:


 q q 
1 (x−x̄)2 1 (x−x̄)2
Ỹ (x) − |t α2 ; n−2 |σ̂ 1+ n + SXX ; Ỹ (x) + |t α2 ; n−2 |σ̂ 1+ n + SXX

23 / 23

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy