0% acharam este documento útil (0 voto)
31 visualizações28 páginas

WD CAP 02 Folhetos

1) O documento apresenta o modelo de regressão simples, que estuda a relação entre uma variável dependente (y) e uma variável independente (x). 2) O modelo expressa y como uma função do intercepto (b0), da inclinação (b1) e de um termo de erro (u) que representa outros fatores. 3) A estimação dos parâmetros b0 e b1 é feita usando o método dos mínimos quadrados ordinários, que minimiza a soma dos resíduos elevados ao quadrado.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
31 visualizações28 páginas

WD CAP 02 Folhetos

1) O documento apresenta o modelo de regressão simples, que estuda a relação entre uma variável dependente (y) e uma variável independente (x). 2) O modelo expressa y como uma função do intercepto (b0), da inclinação (b1) e de um termo de erro (u) que representa outros fatores. 3) A estimação dos parâmetros b0 e b1 é feita usando o método dos mínimos quadrados ordinários, que minimiza a soma dos resíduos elevados ao quadrado.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 28

Econometria I (IS 211)

Modelo de Regressão Simples

Lucas Siqueira de Castro


lucascastro@ufrrj.br

Referências

 WOOLDRIDGE, J. Introdução à
econometria: uma abordagem
moderna. São Paulo: Cengage
Learning, 6a edição, 2017, capítulo
2.

Modelo de Regressão Simples

 Estudo da relação entre duas


variáveis y e x de uma população
 Questões:
 Como outros fatores afetam y (além de
x)?
 Qual é a relação funcional entre y e x?
 Como capturar a relação ceteris paribus
entre y e x?

1
Modelo de Regressão Simples

 Modelo na população:
 y = b 0 + b 1x + u

 y: variável dependente
 x: variável independente ou explicativa
 u: termo de erro
 Não-observável
 Representa outros fatores que afetam y
 b0 e b1 : parâmetros a serem estimados

Modelo de Regressão Simples

 No modelo de regressão, y é
chamado de:
 Variável dependente
 Variável explicada
 Variável de resposta
 Variável prevista
 Regressando

Modelo de Regressão Simples

 No modelo de regressão, x é
chamado de:
 Variável independente
 Variável explicativa
 Variável de controle
 Variável previsora
 Regressor
 Covariada
 Covariável

2
Modelo de Regressão Simples

 Relação funcional entre y e x


 Se Du=0 (variação de u é nula)
 Então
Dy = b0 + b1Dx se Du=0

 Outros fatores constantes


 Du=0
 Variação em y é b1 multiplicado pela
variação em x

Exemplo 1

 Produção de soja
 Modelo:
 produção = b0 + b1fertilizante + u

 Termo de erro (u) contém outros


fatores não modelados
 Qualidade da terra, chuva etc
 b1 mede o efeito dos fertilizantes sobre
a produção, mantendo os outros
fatores fixos

Exemplo 2

 Equação simples de salários


 salárioh = b 0 + b 1educ + u

 salárioh: salário por hora


 educ: anos de educação formal
 b 1 : mede a variação no salário-hora dado
um ano a mais de educação, mantendo
todos os outros fatores fixos (u)
 u: experiência da força de trabalho,
aptidão inata, permanência no emprego,
ética no trabalho etc.

3
Causalidade

 Efeito ceteris paribus de x sobre y


 Ou seja, considerando que todos os
outros fatores que afetam y estão
constantes
 Du=0
 Mas somente a condição “ceteris
paribus” não é suficiente para
estabelecer a causalidade

Causalidade

 Apenas estabelecer uma associação


entre y e x não é suficiente para a
causalidade
 Causalidade ≠ correlação

 Relação de causalidade (x causa y)


 Controle para os outros fatores
 Necessidade de uma hipótese crucial
que restrinja a relação de u com x

Uma Hipótese Simples

 O valor médio de u na população é


zero.
 E(u) = 0

 Hipótese não restritiva (e não crucial)


 Normaliza-se u a fim de que tenha média
zero

12

4
Quiz 1

 No modelo de regressão:
y = b 0 + b 1x + u

 Suponha que E(u)≠0. Fazendo


E(u)=a0, mostre que o modelo pode
sempre ser reescrito com a mesma
inclinação, mas com um novo
intercepto e erro, em que o novo erro
tem valor esperado zero.

Hipótese Crucial

 Hipótese de Média Condicional Zero


 Valor médio de u não depende do valor
de x
 Saber algo sobre x não dá informação
sobre u
 E(u|x) = E(u) = 0

 O que implica que:


 E(y|x) = b0 + b1x
 Função de regressão populacional (FRP)

E(y|x) como FRP


y
f(y)
.
. E(y|x)=b0+b1x

x1 x2 x3
15

5
Interpretando essa Hipótese

 Na equação de salários
 Suponha que u seja apenas a aptidão
inata
 Então, a hipótese de média condicional
zero requer que o nível médio de
aptidão seja o mesmo,
independentemente dos anos de
educação formal

Interpretando essa Hipótese

 Note que:
 Se E(aptidão│8) é aptidão média para
o grupo de pessoas com 8 anos de
estudo e E(aptidão│16) representa a
aptidão média para o grupo de pessoas
com 16 anos de estudo.
 A hipótese de média condicional zero
implica que essas duas médias sejam
iguais.
 Se a aptidão média aumentar com os
anos de educação formal, a hipótese não
é válida.

Mínimos Quadrados Ordinários

 Como estimar b0 e b1?

 Suponha uma amostra aleatória da


população

 Para cada observação i dessa


amostra
 yi = b0 + b 1xi + ui

6
Amostragem Aleatória Simples
.

SORTEIO

AMOSTRA

POPULAÇÃO

 Amostragem simples: todos


os itens da população têm
igual chance de pertencer à
amostra (sorteio aleatório)

Função de Regressão Amostral (FRA)


y
y4 .
û4{
yˆ  bˆ0  bˆ1 x

y3 .} û3
y2 û2{.

y1 .} û1
x1 x2 x3 x4 x
20

 A ideia é achar uma reta de ajuste


para os dados da amostra (Função
de Regressão Amostral),
minimizando os desvios em relação
aos valores observados

7
FRP e FRA

 Função de Regressão Populacional:


y = b 0 + b 1x + u

 Mas a FRP não pode ser observada


diretamente
 Estimando FRP por meio da Função
de Regressão Amostral (FRA)
yi  bˆ0  bˆ1 xi  uˆi
yi  yˆ i  uˆi

Reta de Ajuste aos Dados

 Note que:
uˆi  yi  yˆ i
uˆi  yi  bˆ0  bˆ1 xi

 Os resíduos ûi são as diferenças entre


os valores observados de yi e os
estimados (ajustados ou previstos) ŷi .

Reta de Ajuste aos Dados

 Dada uma amostra aleatória,


queremos determinar FRA de tal
forma que fique mais próxima dos
valores observados de y
 1ª opção
 Escolher FRA de tal sorte que a soma

 uˆ    y
i i  yˆ i 

seja a menor possível

8
Reta de Ajuste aos Dados

 Problema com essa 1ª opção


 Resíduos pequenos ou grandes têm o
mesmo peso neste somatório
 Consequência disso, a soma pode ser
pequena, mesmo os resíduos estando
dispersos em relação à FRA
 Exemplo
 Sejam os resíduos uˆ1  10, uˆ2  2, uˆ3  2, uˆ4  10
 A soma algébrica desses resíduos é zero

Mínimos Quadrados

 2ª opção: o critério dos mínimos


quadrados
 Achar FRA que faça a soma

 uˆ    y  yˆ 
2 2
i i i

 uˆ   y  bˆ  bˆ x 
2 2
i i 0 1 i

a menor possível
 Ao elevar ao quadrado, esse critério dá
um peso maior para os resíduos grandes
 Sensibilidade a observações influentes
(outliers)

Mínimos Quadrados

 Critério dos Mínimos Quadrados


 A reta de melhor ajuste é aquela que
minimiza a soma dos quadrados dos
resíduos dos pontos da FRA
 Resíduos medidos verticalmente
 A soma dos quadrados dos resíduos é
uma função dos estimadores b̂ 0 e bˆ1

9
Mínimos Quadrados

 Critério dos Mínimos Quadrados


 Escolher bˆ0 e b̂1 a fim de minimizar a
soma

 uˆ   y 
2
2
i i  bˆ0  bˆ1 xi

 A ideia é que essa soma atinja seu


valor mínimo, ou seja, passe entre os
pontos com melhor ajustamento
possível

Mínimos Quadrados

 Problema de minimização
 Condições de primeira ordem para a
minimização da soma dos quadrados
dos resíduos


  yi  bˆ0  bˆ1 xi  2

0
bˆ 0


  yi  bˆ0  bˆ1 xi 2

0
bˆ 1

 
  yi  bˆ0  bˆ1 xi 
2


ˆ
b 0
  2   
 yi  bˆ0  bˆ1 xi  0

 
   yi  bˆ0  bˆ1 xi 
2


bˆ0
  2 yi  nbˆ0  bˆ1  xi  0 

y i
 bˆ0  bˆ1
 xi
n n
bˆ0  y  bˆ1 x

10
Derivando o Estimador de 𝛽

𝜕∑ 𝑦 −𝛽 −𝛽 𝑥
=0
𝜕𝛽
−2 𝑥 𝑦 −𝛽 −𝛽 𝑥 =0

 ∑ 𝑥 𝑦 − 𝑦 − 𝛽 𝑥̅ − 𝛽 𝑥 = 0

 Após arranjando os termos:


𝑥 𝑦 −𝑦 =𝛽 𝑥 𝑥 − 𝑥̅

Derivando o Estimador de 𝛽

 Do operador de somatório [ver


(A.8)]:
 ∑ 𝑥 𝑥 − 𝑥̅ =∑ 𝑥 − 𝑥̅
 ∑ 𝑥 𝑦 − 𝑦 = ∑ 𝑥 − 𝑥̅ 𝑦 − 𝑦

 A inclinação estimada é:

∑ 𝑥 − 𝑥̅ 𝑦 − 𝑦
𝛽 =
∑ 𝑥 − 𝑥̅

Exemplo 1: Salários de Executivos

11
Exemplo 1: Salários de Executivos

Exemplo 1: Salários de Executivos

Valores Estimados e Resíduos

12
Exemplo 2: Salário e Educação

 Usando os dados do arquivo


WAGE1, em que n=526 indivíduos,
obtemos a seguinte reta de
regressão (FRA) por MQO:

𝑤𝑎𝑔𝑒 = −0,90 + 0,54𝑒𝑑𝑢𝑐

 𝑛 = 526
 wage: salários em dólar por hora
 educ: anos de escolaridade formal

Exemplo 2: Salário e Educação

 Cautela na interpretação do
intercepto!
 Uma pessoa sem educação formal tem
um salário-hora de US$ -0,90
 Sem sentido!
 Por que ocorre isso?
 Na amostra só há 18 indivíduos com
menos de 8 anos de escolaridade
 Modelo não consegue fazer boa previsão
 Poucas informações

Exemplo 2: Salário e Educação

 A inclinação estimada (𝛽 ) dá o
retorno da educação
 Um ano a mais de educação formal
aumenta o salário em 54 centavos de
dólar por hora
 Portanto, 4 anos a mais de educação
aumentam o salário-hora em
4*0,54=2,16
 US$ 2,16 dólares por hora

13
Propriedades Algébricas do MQO

 A soma dos resíduos estimados por


MQO é zero
 A média amostral dos resíduos é zero
 A covariância amostral entre a
variável explicativa e os resíduos
MQO é zero
 A linha de regressão estimada por
MQO passa pela média da amostra

40

Propriedades Algébricas do MQO

n  uˆ i

 uˆi  0 e assim,
i 1
i 1

n
0
n

 x uˆ
i 1
i i 0

y  bˆ0  bˆ1 x
41

Qualidade de Ajuste da Regressão

 Ideia
 Quanto da variação de y é explicada
pela variação de x?
 Quão bem a regressão estimada se
ajusta aos dados?
 Divisão da variação de y
Variação y     yi  y 
2

 Parte explicada pela regressão (x)


 Parte não-explicada pela regressão (u)

14
Terminologia

  y  y  soma dos quadrados total (SQT)


2
i

  yˆ  y  soma dos quadrados explicada (SQE)


2
i

 uˆ soma dos quadrados dos resíduos (SQR)


2
i

Então SQT  SQE  SQR

43

Coeficiente de Determinação R2

  yˆ  y
2
SQE i
R2  
SQT y i  y
2

  yi  yˆi 
2
SQT SQR SQR
R2    1  1
SQT SQT SQT   yi  y 2

Coeficiente de Determinação R2

 R2 mede a proporção da variação de


y que é explicada pela equação de
regressão.
 0≤ R2 ≤1
 Dado que SQE é menor SQT
 Quanto mais próximo de 1 (ou 100%),
melhor o ajuste
 Às vezes, multiplica-se R2 por 100
 R2 =0,8 ou 80%

15
Coeficiente de Determinação R2

 R2 mais baixo com dados de corte


transversal
 R2 mais alto com séries de tempo
 R2 baixo não significa que o modelo
de regressão seja inútil
 R2 não diz nada sobre a relação
causal (x causa y)

Unidades de Medida

 Mudança nas unidades de medida


das variáveis y ou x
 Alteração nas estimativas MQO da
regressão
 Exemplo
sal = b0 + b1roe + u

 sal: salário, em milhares de dólares por


ano

Unidades de Medida

 Mudança na variável dependente y


 Vamos mudar a medida de sal para
dólares por ano e chamaremos esta
variável de saldol:

saldol = b0 + b1roe + u

 saldol = sal X 1000

16
Unidades de Medida

Unidades de Medida

 Regra geral da mudança na medida


da variável dependente y
 Se a variável dependente y é
multiplicada (dividida) pela constante
c, então todas as estimativas da
regressão são multiplicadas (divididas)
por c.

Unidades de Medida

 Mudança na unidade de medida da


variável x
sal = b0 + b1roe + u

 Vamos redefinir roe como sendo:


roedec = roe/100
 roedec é o equivalente decimal
 Exemplo:
 Quando roe= 23%, roedec=0,23

17
Unidades de Medida

Unidades de Medida

 Regra geral para mudança na


medida da variável explicativa x
 Se a variável independente ou
explicativa x for dividida (multiplicada)
por alguma constante diferente de
zero, c, então o coeficiente de
inclinação de MQO é multiplicado
(dividido) por c.

Quiz 2

 Prove que se a variável dependente


y é multiplicada pela constante c,
então todas as estimativas da
regressão são multiplicadas por c.

18
Quiz 3

 Prove que se a variável


independente ou explicativa x for
multiplicada por alguma constante
diferente de zero, c, então o
coeficiente de inclinação de MQO é
dividido por c.

Não Linearidades na Regressão


Simples

 Formas funcionais
 Nível-Nível
 y = b0 + b1x + u
 Log-Nível
 log(y) = b0 + b1x + u
 Log-Log
 log(y) = b0 + b1log(x) + u
 Nível-Log
 y = b0 + b1log(x) + u

Interpretação do Nível-Nível

 Equação de salários
salárioh= 0,90 + 0,54 educ
 Interpretação
 Dy = b 1Dx
 Um ano a mais de educação formal
(Dx) aumenta o salário horário em 54
centavos de dólar (Dy)
 Mesmo aumento em unidades
 54 centavos é o aumento tanto de 1 ano
para 2 anos de escolaridade como de 11
anos para 12 anos de escolaridade

19
Interpretação Log-Nível

 Equação de salários
log(salárioh)= 0,584 + 0,083 educ
 log(salárioh) é medido em variação
percentual
 Interpretação
 Um ano a mais de educação formal
provoca um aumento aproximado do
salário-hora em 8,3%
 %Dy = (100b1)Dx
 8,3% é aumento percentual tanto de 1 ano
para 2 anos de escolaridade quanto de 11
anos para 12 anos

Interpretação Log-Log

 Modelo de elasticidade constante


 Regressão estimada
log(salário) = 4,822 + 0,257 log(vendas)

 Interpretação
 %Dy=b1%Dx
 Um aumento de 1% nas vendas das
empresas aumenta o salário dos CEOs
(presidentes das empresas) em cerca de
0,257%
 Interpretação de elasticidade constante!

Hipóteses do Modelo de
Regressão Linear (MRL)

 Hipótese 1: linearidade nos


parâmetros
 y = b 0 + b 1x + u

 Hipótese 2: amostragem aleatória


 Amostra aleatória [(yi, xi)] de tamanho
n representativa de população
 Unidades de corte transversal
independentes
 E se forem regiões?

20
Hipóteses do MRL

 Hipótese 3: variação amostral na


variável explicativa x
 Se x varia na população, então x varia
na amostra
 A menos que a variação na população
seja pequena ou que tamanho da amostra
seja pequeno
 Checagem por meio do cálculo do
desvio-padrão de x

Hipóteses do MRL

 Hipótese 4: média condicional zero


 Erro u tem valor esperado de zero,
dado qualquer valor da variável
explicativa
 E(u│x)=0
 O termo de erro u e a variável explicativa
x não estão relacionados
 Hipótese forte!
 Não existe relação linear ou não linear
entre u e x!

 Seja o estimador
n n

 x  x  y i i  y  x  x  y
i i
b̂1  i 1
n
 i 1
n

 x  x   x  x 
2 2
i i
i 1 i 1

 Substituir yi=b0 +b1xi + ui na


fórmula do estimador
n n

 x  x  y  x  x b
i i i 0  b1 xi  ui 
bˆ1  i 1
n
 i 1
n

 x  x   x  x 
2 2
i i
i 1 i 1

21
 Abrindo somente o numerador:
n n n

 x  x b   x  x b x   x  x u
i 1
i 0
i 1
i 1 i
i 1
i i 
n n n
 b 0  xi  x   b1   xi  x xi   xi  x ui
i 1 i 1 i 1

 Mas note duas coisas:


n

 x  x   0
i 1
i

n n 2

 x
i 1
i  x xi    xi  x 
i 1

 Então o estimador 1fica


 0 n n

 x  x   x  x u
2
n i i i
bˆ1  b 0   xi  x   b1 i 1
n
 i 1
n

 x  x   x  x 
i 1 2 2
i i
i 1 i 1
n

 x  x u i i
bˆ1  b1  i 1
n

 x  x 
2
i
i 1

 Definição de Justeza:
E bˆ1  b1  
 Valores esperados estão condicionados
aos valores de xi. Assim, xi não é
aleatório quando está condicionado

 
E bˆ1  b1 
 xi  x ui  b  E   xi  x ui   b   xi  x  E u   b
 xi  x    xi  x  

 xi  x 
2 1 2  1 2 i 1

 Lembrando que 0

E u   0

22
 Definição de justeza
 
E bˆ0  b 0
 Prova

bˆ0  y  bˆ1 x  b 0  b1 x  u  bˆ1 x  b 0  b1  bˆ1 x  u
 Condicional aos valores de xi
     
E bˆ0  b 0  E b1  bˆ1 x  E u   b 0  E b1  bˆ1 x  E u   b 0

 Note que:
E u   0 0 0

  
Como E bˆ1  b1 então E b1  bˆ1  0  

Ausência de Viés

 Inexistência de viés é uma


característica das distribuições
amostrais de b̂ 0 e bˆ1 .
 Não diz nada sobre uma amostra
particular
 Espera-se que tal amostra seja típica e,
portanto, que b̂ 0 e bˆ1 sejam próximos
dos verdadeiros parâmetros
populacionais b0 e b1.

Variância dos Estimadores MQO

 Estimador sem viés (justo)


 Certeza que a sua distribuição amostral
é centrada no verdadeiro valor do
parâmetro
 Qual é a dispersão dessa
distribuição amostral do estimador?
 Menos disperso, melhor
 Garantia de que uma amostra em
particular gere uma estimativa próxima
do verdadeiro valor do parâmetro

23
Estimador Sem Viés (Justo)

Probabilidade
de bˆ
1

 
E bˆ1  b1 bˆ1

Variância dos Estimadores MQO

 Hipótese 5: Homocedasticidade
 Var(u|x) = s2

 Interpretação
 A variabilidade de y em torno de sua
média é constante em todos os níveis
de x

Variância dos Estimadores MQO

 Var(u|x) = E(u2|x) - [E(u|x)]2


 E(u|x) = 0 [média condicional zero]
 Então s2 = E(u2|x)
 Note que:
 s é a raiz quadrada da variância do
erro
 Desvio-padrão do erro
 E(y|x)=b0 + b 1x e Var(y|x) = s2

72

24
Homocedasticidade
y
f(y|x)

.E(y|x) = b + b1x
.
0

x1 x2
73

Heterocedasticidade
f(y|x)

.
.
E(y|x)=b0+ b1x

.
x1 x2 x3 x
74

Variância das Estimativas MQO

 Para derivarmos a variância de bˆ1 ,


o ponto de partida é a seguinte
equação
xi  x ui
bˆ1  b1  
 xi  x 
2

 Denote agora
xi  x   d i
e
 x  x 
2
i  s x2

25
Variância das Estimativas MQO

 Então:
1
bˆ1  b1 
s x2
d u i i

 Vamos substituir essa expressão


para obter a fórmula da variância
de b̂1 :

   1 
Var bˆ1  Var  b1   2 d i ui 
s
 x 

Variância das Estimativas MQO

     
Var bˆ1  Var  b1   1 2   d i u i  
s
  x  
2 2

2  Var  d i u i   
 1   1 

 sx 
2
 sx 
 d Var u 
i
2
i

2 2
   
 1 2
 sx 
d i
2
s 2  s 2 1


s x2  d i
2

 
2
  2 s2
s 2 1  s   Var bˆ1
 s x2  x s x2
77

Variância das Estimativas MQO

 Quanto à última fórmula, note que:


 Quanto menor a variância do erro s ,
2

menor a variância de bˆ1 .


 Quanto maior a variabilidade nos dados
de x, menor a variância de b̂1
 Quanto maior o tamanho da amostra (n),
espera-se maior variabilidade dos dados
(sx2) e, assim, menor variância de bˆ1 .

26
Estimativa do Erro da Variância

 Problema
O valor da variância do erro s é
2

desconhecida
 Erro u é desconhecido e não observável
 O que se observa são os resíduos û
 É possível usar os resíduos para se
obter uma estimativa da variância do
erro (s ).
2

Estimativa do Erro da Variância

Um estimador não - viesado de s 2 é


1
sˆ 2   uˆi2  SQR / n  2 
n  2

80

Estimativa do Erro da Variância

sˆ  sˆ 2  Erro - padrão da regressão



Recorde que dp bˆ  s
sx
se substituirmos s por sˆ ,
então, temos o erro - padrão de bˆ1 ,

 
ep bˆ1 


 xi  x 
2

81

27
Regressão Através da Origem

 Regressão sem constante (ou b0=0)


 Raramente usada em econometria
 Reta de regressão (FRA) passa pelo
ponto x=0 e y=0
 É possível estimar b̂ 0 e b̂1
 Mas se b 0 não for realmente zero no
modelo populacional (FRP), então b̂1
será viesado.
 Cuidado na interpretação de R-
quadrado
 Pode ser negativo!

Regressão em uma Constante

 Modelo sem variável explicativa (x)


 y = b0 + u
 Modelo com inclinação zero (b 1=0)

 O intercepto estimado é a média de


y
 𝛽 =𝑦
 A constante que produz a menor soma de
quadrados de resíduos é sempre a média
amostral

O outlier solitário e infeliz numa


reta de regressão

28

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy