0% acharam este documento útil (0 voto)
211 visualizações80 páginas

Modelo Classico de Regressao Linear

O documento descreve o Modelo Clássico de Regressão Linear (MCRL), apresentando suas hipóteses, a estimação por Mínimos Quadrados Ordinários (MQO) e a derivação das equações normais. O MCRL supõe uma relação linear entre a variável dependente e as independentes, com distúrbios estocásticos de média nula e variância constante. O estimador de MQO de β minimiza a soma dos quadrados dos resíduos.

Enviado por

Karen Rangel
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
211 visualizações80 páginas

Modelo Classico de Regressao Linear

O documento descreve o Modelo Clássico de Regressão Linear (MCRL), apresentando suas hipóteses, a estimação por Mínimos Quadrados Ordinários (MQO) e a derivação das equações normais. O MCRL supõe uma relação linear entre a variável dependente e as independentes, com distúrbios estocásticos de média nula e variância constante. O estimador de MQO de β minimiza a soma dos quadrados dos resíduos.

Enviado por

Karen Rangel
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 80

1.

O Modelo Clássico de Regressão Linear (MCRL)

1.1. Hipóteses do MCRL


[Griffith et al., caps.3,5; Johnston e Dinardo, cap.3]

O modelo a ser estimado pode ser expresso como:

Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)

onde:

Y é a variável dependente,

X2,...,Xk são k-1 variáveis independentes (explicativas),

β1,..., βk são os parâmetros a serem estimados,

u é um distúrbio aleatório, e

i indexa as n observações amostrais.

1-1
Hipóteses básicas do MCRL:

(1) Linearidade nos parâmetros


O modelo pode ser escrito na forma (1.1).
→ refere-se à forma como os parâmetros entram
na equação, não necessariamente à relação entre
XeY
Ex.: a relação Y = AXβ não é linear no sentido
usual, mas pode ser expressa, em logaritmos,
como um modelo de regressão linear:

ln Y = α + β ln X

(2) Regressores não-estocásticos


Os valores de X são fixos em amostragens
repetidas

(3) Média zero dos distúrbios


E(ui|X2i,...,Xki) = 0 para todo i

(4) Homocedasticidade
Var(ui|X2i,...,Xki) = σ² (constante) para todo i

(5) Ausência de autocorrelação dos distúrbios


Cov(ui ,uj |X2i,...,Xki ,X2j,...,Xkj) = 0 para i ≠ j

1-2
(6) Ausência de correlação entre regressores e
distúrbios
Cov(ui ,X2i) =...= Cov(ui ,Xki) = 0

(7) Número de observações ≥ número de


regressores

(8) Variabilidade dos valores de X


0 < var(X) < ∞
→ trata-se de uma condição de identificação: se
todos os valores de X na amostra forem iguais,
não será possível inferir qualquer resultado sobre
a relação entre Y e X

(9) Modelo corretamente especificado

(10) Ausência de multicolinearidade perfeita entre


regressores

(11) Normalidade dos distúrbios


ui ~ N[0,σ²] para todo i
→ resultados referentes às propriedades dos
estimadores no MCRL independem dessa
hipótese
→ sob tal hipótese, o modelo é dito Modelo
Clássico de Regressão Linear Normal (MCRLN)

1-3
O modelo (1.1) pode ser reescrito como

Y1 = β1 + β 2 X 21 + β 3 X 31 + ... + β k X k1 + u1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + u 2
(1.2)
: : :
Yn = β1 + β 2 X 2 n + β 3 X 3n + ... + β k X kn + u n

ou, em forma matricial:

y = Xβ + u (1.3)

onde:

 Y1  1 X 21 .. X k1   β1   u1 
Y  1 X .. X k 2  β  u 
2 22 , β =  , u =  2 
2
y =  , X = 
: 1 : :   :  :
       
Yn  1 X 2 n .. X kn  β k  u n 
nx1 nxk kx1 nx1

X é a matriz de dados.

Observe que a 1a coluna de X é um vetor de 1’s,


referente ao termo constante (intercepto) de cada
equação.

Atenção: a ordem dos índices na matriz X é a inversa


da usualmente adotada na representação de matrizes.

1-4
A matriz X é formada por k vetores coluna x1,...,xk.
Uma forma alternativa de representar o modelo é,
portanto:

y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)

de modo que o vetor y pode ser expresso como uma


combinação linear das colunas de X e do vetor u.

As hipóteses do MCRL na versão matricial são:

(1) Linearidade nos parâmetros


O modelo pode ser escrito na forma (1.3)

(2) Regressores não-estocásticos


A matriz X (n x k) é não-estocástica

(3) Média zero dos distúrbios

 u1   E (u1 )  0
 u   E (u )   0 
E (u ) = E  2  =  2
= =0
 :   :  :
     
 n 
u E (u )
n  0 

1-5
(4)-(5) Homocedasticidade + ausência de
autocorrelação dos distúrbios

 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 


cov(u , u ) var(u2 ) .. cov(u2 , un )
Var (u ) =  2 1

 : : .. : 
 
cov(un , u1 ) cov(un , u2 ) .. var(un ) 
 E[u1 − E (u1 )]2 .. E[u1 − E (u1 )][un − E (un )]
 
= : .. : 
 E[un − E (un )][u1 − E (u1 )] .. E[un − E (un )] 2

= E[u − E (u)][u − E (u)]'
= E (uu' )
σ 2 0 0 .. 0 
 2 
 0 σ 0 .. 0 
=0 0 . : 
 
 : : . 0
 0 0 .. 0 σ 2 
= σ 2I n

(6) Ausência de correlação entre regressores e


distúrbios
Cov(X,u) = 0

1-6
(7)-(8)-(10) O posto da matriz X (n x k) é k
As colunas de X são linearmente independentes
→ não há multicolinearidade perfeita
→ os valores observados de X1,...,Xk não são
todos iguais (caso contrário, qualquer coluna de X
seria um múltiplo de outra)
→ n ≥ k (número de observações ≥ número de
variáveis independentes)

(9) Modelo corretamente especificado

(11) Normalidade dos distúrbios


u ~ N[ 0, σ²I ]

1-7
1.2. Estimação pelo Método dos Mínimos
Quadrados Ordinários (MQO) [Johnston e Dinardo,
cap.3; Griffith et al., cap.5]

Dado o modelo

y = Xβ + u , (1.5)

nosso objetivo é encontrar a “melhor” estimativa do


vetor de parâmetros desconhecidos β.

Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a


partir da qual pode-se definir o vetor de valores
ajustados de y,

yˆ = Xβ̂ (1.6)

e o vetor de resíduos

e = y − yˆ = y − Xβ̂ (1.7)

O método dos MQO seleciona β̂ de modo a minimizar


a soma dos quadrados dos resíduos e’e. Denotaremos
por b a solução desse problema.

O Apêndice 1.A mostra a derivação do estimador de


MQO a partir das condições de primeira e segunda
ordem desse problema.

1-8
Note que o problema consiste em tentar reproduzir, da
melhor forma possível, o vetor y(n x 1) através de uma
combinação linear das colunas da matriz X(n x k).

Em outras palavras: dentre todos os (infinitos) vetores


que se encontram no subespaço vetorial definido pelos
vetores-coluna de X, queremos encontrar aquele que
mais se aproxime do vetor y.

Podemos ter dois casos básicos:

• Caso 1: y está no espaço coluna de X

Isso significa que y pode ser expresso exatamente


como uma combinação linear das colunas de X:

y = Xb (1.8)

Ex.: x1, x2 e y são vetores 3x1 com a terceira


coordenada igual (ou seja, estão no mesmo
hiperplano).

x1
y = x1b1+x2b2

x2

1-9
• Caso 2: y não está no espaço coluna de X

Isso significa que y não pode ser expresso como


uma combinação linear das colunas de X; ou seja,
não há um vetor b que satisfaça (1.8).

Mas podemos escrever:

y = Xb + e (1.9)

onde e é a diferença (“resíduo”) entre y e a


combinação linear das colunas de X, Xb. O
objetivo é, então, encontrar o vetor b que minimize
tal resíduo.

Ex.:
x1, x2 são vetores 3x1 com a terceira coordenada
igual a zero.
y é um vetor com terceira coordenada não nula.

x1

yˆ = x 1b1 + x 2 b2 = Xb

x2

1-10
O Caso 2 é a situação típica na prática; isto é, as
variáveis independentes não conseguem explicar
totalmente a variável dependente, havendo sempre
uma diferença (resíduo) entre esta e sua estimativa.

A estimativa de y é sua projeção no espaço de X, dada


por ŷ na figura.

Observe que:

(1) O vetor de resíduos é ortogonal ao vetor ŷ :


yˆ ' e = 0

(2) Como ŷ é uma combinação linear das colunas de


X, (1) implica que o vetor de resíduos também é
ortogonal em relação a cada coluna de X:
X'e = 0

(3) Se as colunas de X são linearmente


independentes, ŷ pode ser expresso como uma
combinação linear única dessas colunas; caso
contrário, não há solução única.

Ex:
Na figura anterior, suponha um vetor adicional x3
no mesmo subespaço de x1 e x2. Então, ŷ não
tem uma única representação em termos dos
vetores xi’s.

1-11
A hipótese de que X tem posto cheio (= k) garante a
unicidade da solução. (Por quê?)

Mas como podemos calcular o vetor b que resolve o


problema?

Note que, como vimos, e é ortogonal a todo o plano


formado por combinações de x1 e x2, isto é:

X’e = 0

Mas e = y – Xb. Logo:

X’(y – Xb) = 0

De modo que o estimador b deve satisfazer as k


equações normais:

( X' X)b = X' y (1.10)

e, se (X’X)-1 existe, ele é encontrado a partir de:

b = ( X' X) −1 X' y (1.11)

O Apêndice 1.A prova que, dadas nossas hipóteses, a


matriz (X’X) é inversível, de modo que b pode
efetivamente ser calculado a partir de (1.11).

1-12
Vejamos as equações normais (1.10) em maior
detalhe:

 n ∑ X 2i .. ∑ X ki   b1   ∑ Yi 
∑ X ∑ X 2i
2
.. ∑ X 2i X ki  b2  ∑ X 2iYi 
 2i  =  (1.12)
 : : : :  :   : 
 2    
 ∑ X ki ∑ X 2i X ki .. ∑ X ki  bk   ∑ X kiYi 

(No Exercício 1.1 você deve derivar essa expressão)

(1.12) deveria parecer familiar a vocês.


Não parece? Suponha então que você esteja
regredindo Y contra uma constante e um único
regressor X2. As equações normais seriam, nesse
caso, estas:

 n ∑ X 2i   b1   ∑ Yi 
∑ X 2   =  (1.13)
 2i ∑ X 2i  b2  ∑ X 2iYi 

Se ainda não reconhece expressões estudadas no


curso anterior de Econometria, veja o Exercício 1.2.

1-13
1.2.1 Exemplo: A geometria do ajuste por MQO

Suponha que você deseje estimar uma regressão


univariada (com intercepto) a partir de nada mais do
que as seguintes três observações:

x1 = -1 y1 = 1
x2 = 1 y2 = 1
x3 = 2 y3 = 3

Essas três observações estão representadas como


quadrados no diagrama de dispersão abaixo.

1-14
Por mínimos quadrados, ajustaremos uma reta a
essas três observações, representada pela equação:

Yi = β1 + β2 Xi , i = 1...3

Substituindo os valores observados, obtemos o


sistema linear:
1 = β1 - β2
1 = β1 + β2
3 = β1 + 2β2

Esse sistema nas “variáveis” β1 e β2 não tem solução,


i.e., é inconsistente. Se o sistema tivesse solução,
haveria uma reta que passaria pelos três pontos do
diagrama de dispersão, o que é claramente
impossível. Essa é a situação típica em econometria

Escrito em forma matricial, o sistema é:

1 1 − 1
1 = 1 1  β1 
   β 
3 1 2  2 

Na notação do nosso curso:

1 1 − 1
 β1 
y = 1, X = 1 1, β= 
3 1 2 β 2 

1-15
A mesma equação vetorial pode ser rescrita

1 1 − 1
1 = 1 β +  1 β
   1   1
3 1  2

Essa segunda forma mostra que resolver o sistema


significaria encontrar uma combinação linear dos
vetores-coluna da matriz X que fosse igual ao vetor y.
Os pesos da combinação seriam β1 e β2.

O espaço vetorial gerado pelos vetores linearmente


independentes x1 = (1, 1, 1) e x2 = (-1, 1, 2) é um
plano. Se o sistema tivesse solução, y = (1, 1, 3) seria
um dos infinitos vetores nesse plano. Infelizmente, ele
não é e o sistema é insolúvel.

y = (1, 1, 3) Plano formado


y está fora do plano
pelas combinações
definido por x1 e x2.
lineares de x1 e x2.
É o “espaço-
coluna de X”.

x1 = (1, 1, 1)

x1 = (-1, 1, 2)

1-16
Como o sistema não tem solução, lançamos mão de
um ajuste de mínimos quadrados. As estimativas b1 e
b2 para os parâmetros β1 e β2 consistirão em pesos de
uma combinação linear de x1 e x2.

Essa combinação é um vetor muito especial: ele é a


projeção ortogonal de y sobre o espaço-coluna de X.
Justamente por ser ortogonal, a projeção minimiza o
comprimento do vetor de erro e, definido por:

e = y − yˆ = y − Xb

onde yˆ = Xb é a projeção ortogonal de y sobre o plano.

Esse vetor e, por construção, é ortogonal a todo o


plano formado por combinações de x1 e x2. Logo:

x1 ' (y − Xb) = 0
⇒ X' (y − Xb) = 0
x 2 ' (y − Xb) = 0

X' Xb = X' y

∴ b = (X' X ) X' y
−1

Aplicamos a seguir a fórmula do estimador para os


dados do exemplo.

1-17
SOLUÇÃO:

3 2 5 
X' X =   X' y =  
2 6  6 
−1
 3 2  5  9 7
b=    ⇒ b = 4
 2 6  6   7

1 − 1 5 7
9 7 
yˆ = 1 1   ⇒ yˆ = 13 7 
47
1 2   17 7

1  5 7   2 7
e = 1 − 13 7  ⇒ e = − 6 7
3 17 7  4 7

A soma dos resíduos ao quadrado, que também é o


quadrado do comprimento do vetor e, é a menor
possível, com as observações dadas (se não acredita,
tente obter outra estimativa que gere um vetor e de
comprimento menor!)
3
4 36 16 56
e' e = ∑ ei2 = + + =
i =1 49 49 49 49

Verifique, como exercício, que o vetor e é realmente


perpendicular aos vetores x1 e x2.

1-18
Há 2 formas de visualizar geometricamente essa
solução. A primeira, que você conheceu em
Econometria, é através do diagrama de dispersão,
agora com a reta de regressão obtida por MQO:

e3 = 3 – 17/7 = 4/7

e2 = 1 – 13/7 = -6/7

e1 = 1 – 5/7 = 2/7
X

1 5 7  2 7
y = 1 yˆ = 13 7  e = − 6 7 
3 17 7  4 7 

1-19
A segunda forma de visualizar esta, e qualquer outra
estimação por mínimos quadrados, é a que você
aprende agora em TPE.

y = (1, 1, 3)
e = (2/7, -6/7, 4/7)

x1 = (1, 1, 1)

Espaço-
coluna de X
y^ = (5/7, 13/7, 17/7)

x1 = (-1, 1, 2)

Se este é um triângulo retângulo, valerá para ele o


Teorema de Pitágoras? Veremos logo adiante que sim,
e que ele representa um resultado importante já visto
em Econometria: a decomposição da variância de y.

1-20
1.2.2 Duas matrizes importantes

Substituindo a fórmula do estimador de MQO (1.11) na


definição do vetor de valores ajustados, temos:

yˆ = Xb = X(X'X)−1 X' y = Py (1.14)

onde
P = X(X'X)−1 X'

é a matriz de projeção de y no espaço coluna de X.

É fácil verificar que P é idempotente, simétrica e


singular. (Quais as dimensões e o posto dela?)

Analogamente, podemos expressar o vetor de


resíduos como:

e = y − Xb = y − X(X'X)−1 X' y
= (I − X(X'X)−1 X' )y (1.15)
= My
onde
M = I − X(X' X) X'
−1

é uma matriz que, gera o vetor de resíduos de MQO


na regressão de y sobre X quando pré-multiplica
qualquer vetor y.

1-21
Note que M = I – P e, evidentemente:

Py + My = (P + I – P)y = y

pois y pode ser decomposto no ajuste da regressão e


no resíduo desta.

Eis um resumo gráfico:

M=I-P

P ŷ

1-22
1.2.3. Decomposição da soma dos quadrados

Podemos decompor a variação de y numa parte


explicada pela regressão e numa parte não explicada.
Partindo de

y = yˆ + e (1.18)

podemos definir a soma dos quadrados

y' y = (yˆ + e)' (yˆ + e)


= yˆ ' yˆ + e' e
(1.19)
= (Xb)' Xb + e' e
= b' X' Xb + e' e

Note que este resultado é exatamente o Teorema de


Pitágoras (em n dimensões), para o triângulo
retângulo formado pelos vetores y, y ajustado e e:

y' y = yˆ ' yˆ + e' e


A variação de y ao redor da média é dada por

∑ (Yi − Y ) 2 =∑ Yi 2 − 2Y ∑ Yi +nY 2
= ∑ Yi 2 − nY 2 (1.20)
= y' y − nY 2

1-23
Temos, então,

y' y − nY 2 = (b' X' Xb − nY 2 ) + e' e (1.21)

SQT SQE SQR

Finalmente, a partir da decomposição de quadrados,


são definidos o R2 e o R2 ajustado da regressão.

R2 =
SQE
SQT
(
R 2 = 1 − 1 − R2 ) nn −− 1k
EXEMPLO – Para o triângulo retângulo do ex. (1.2.1),
a aplicação do Teorema de Pitágoras e o R2 são:

y' y = yˆ ' yˆ + e' e

1 2 1 2
(12
)
+ 12 + 32 =
7 2
5(+ 13 2
+ 17 2
+
7
)2
(
2 + 62 + 42 )
483 56
11 = +
49 49

2 483 49 − 5 2 3 1,52
R = 2
= = 57%
11 − 5 3 2,67

R 2 = 1− 1− R2( ) nn −− 1k = 1 − (1 − 0,57) 33−− 12 = 14%

1-24
1.3 Teorema de Frisch-Waugh-Lovell

Suponha que nosso modelo contenha pelo menos 2


regressores (e, para facilitar, não inclua constante).

Podemos então dividir os regressores em 2 conjuntos


de variáveis, que denominaremos X1 e X2 e
correspondem a partições da matriz X.

Por exemplo, se X contivesse 4 regressores,


poderíamos agrupá-los em dois grupos de dois:

 X 11 X 21 X 31 X 41 
X= : : : : 
 
 X 1n X 2n X 3n X 4 n 

X1 X2

Para facilitar o raciocínio, pense inicialmente no caso


de apenas dois regressores, quando X1 e X2 são,
portanto, vetores. Lembre, porém, que os resultados a
seguir valem para o caso de k regressores.

1-25
Já sabemos como estimar por MQO os coeficientes b1
e b2 da regressão de y em X1 e X2. O Teorema de
Frisch-Waugh-Lovell nos fornece uma forma
alternativa de fazer isso, que tem uma interpretação
muito interessante.

Segundo o teorema, o vetor b2 obtido da regressão de


y sobre X1 e X2 é idêntico ao obtido através do
seguinte procedimento:

(1) Regressão de y sobre X1; forma o vetor de


resíduos y*;

(2) Regressão de X2 sobre X1; forma o vetor de


resíduos X2*;

(3) Regressão de y* sobre X2*.

[resultado análogo vale para b1]

1-26
Tal resultado significa que o vetor de coeficientes de
um regressor num modelo de regressão múltipla pode
ser obtido de duas formas alternativas:

• regredindo todas as variáveis sobre algum outro


regressor (p.ex., “tempo”), e usando os resíduos
dessas regressões em nova regressão;

• usando os regressores na forma original, incluindo


explicitamente o outro regressor (“tempo”) no
modelo a ser estimado

Em outras palavras, os coeficientes estimados num


modelo de regressão múltipla correspondem ao efeito
de cada regressor sobre a variável dependente,
“líquido” dos efeitos dos demais regressores.

Para uma apresentação mais detalhada desse


resultado e algumas aplicações, ver os Apêndices 1.C
e 1.D.

1-27
1.4 Distribuição do Estimador de MQO

Sabemos que a distribuição normal é preservada após


uma transformação linear; se Z tem uma distribuição
normal:

Z ~ N(µ,σ2)

então

aZ + c ~ N(aµ + c, a2σ2)

Para o caso de um vetor z:

z ~ N(µ, Σ)

Az + c ~ N(Aµ + c, AΣA’)

Usaremos esse resultado, nas próximas páginas, para


derivar a distribuição do estimador de MQO, o vetor b.

1-28
Primeiro, adotemos a hipótese de normalidade dos
distúrbios:
2
u ~ N(0, σ I )

Segundo, note que b é uma transformação linear de u:

b = (X' X)−1 X' y


= (X' X)−1 X'(Xβ + u)
= (X' X)−1 X' Xβ + (X' X)−1 X'u (1.16)
= β + (X' X)−1 X'u

Logo, usando o resultado anterior com


z=u
µ=0
Σ = σ 2I
A = (X' X)−1 X'
c=β

obtemos

b ~ N(β , σ 2 ( X' X) −1 ) (1.17)

1-29
Esta é uma distribuição normal multivariada; para cada
elemento,

bk ~ N( β k ,σ 2 ( X' X) −kk1 )

onde ( X' X) −kk1 é o k-ésimo elemento na diagonal da


matriz ( X' X) −1 .

Podemos, então, testar hipóteses sobre β usando a


distribuição normal. (Essa é a relevância da hipótese
de normalidade dos distúrbios!)

Observações importantes:

1. MQO é não-viesado

Pode ser visto diretamente de (1.17). Alternativamente:

E (b) = E[β + (X' X)−1 X'u]


= β + (X' X)−1 X' E (u) (1.18)

2. MQO é o melhor estimador linear não-viesado


(“BLUE”)

Ver Apêndice 1.E.

1-30
1.4.1 Estimação de σ 2

Ainda há um problema para a realização de testes de


hipótese sobre os parâmetros do modelo, pois a
variância do estimador de MQO depende do parâmetro
desconhecido σ 2 (variância dos distúrbios u).
2
Precisamos, então, de um estimador de σ . No
Apêndice 1.F, mostramos que um estimador não
enviesado é
e' e
s2 = (1.19)
n−k

de modo que a matriz de variância-covariância


estimada de b é

Var (b) = s 2 ( X' X) −1

1-31
1.5 Teste de hipóteses lineares

Dado o modelo

y = Xβ + u

podemos estar interessados em testar várias hipóteses


sobre os parâmetros β1 , β 2 ,..., β k . Por exemplo:

(i) H0 : β2 = 0
(ii) H 0 : β 2 = −1
(iii) H 0 : β 2 + β 3 = 1
(iv) H 0 : β 2 = β 4 ou H 0 : β 2 − β 4 = 0
(v) H 0 : β 2 = β 3 = ... = β k = 0
(vi) H 0 : β 2 = β 3 = 0

Qualquer uma dessas hipóteses pode ser rescrita


matricialmente através do formato geral

Rβ = r (1.20)

onde R é uma matriz (q x k), q<k, e r é um vetor (q x 1)


de constantes conhecidas.

A matriz R essencialmente “codifica” as hipóteses a


serem testadas. Cada linha dela corresponde a uma

1-32
restrição linear sobre o vetor β . Logo, q é o número de
restrições a serem testadas.

Para os exemplos acima, teríamos as seguintes


representações em termos de R e r:

(i) H0 : β2 = 0
 β1 
β 
 2
[0 1 0 .. 0] β 3  = 0
 
 : 
 β k 
R β = r
1xk kx1 1x1

(ii) H 0 : β 2 = −1
 β1 
β 
 2
[0 1 0 .. 0] β 3  = −1
 
 : 
 β k 

1-33
(iii) H 0 : β 2 + β 3 = 1
 β1 
β 
 2
[0 1 1 0 .. 0] β 3  = 1
 
 : 
 β k 

(iv) H 0 : β 2 − β 3 = 0
 β1 
β 
 2
[0 1 − 1 0 .. 0] β 3  = 0
 
 : 
 β k 

(v) H 0 : β 2 = β 3 = ... = β k = 0

0 1 0 0 .. 0  β 1  0
0 0 1 0 .. 0  β 2  0
    
0 0 0 1 .. 0  β 3  = 0
    
: : : : . :  :   : 
0 0 0 0 .. 1  β k  0
R β = r
(k-1) x k kx1 (k-1) x 1

1-34
(vi) H 0 : β 2 = β 3 = 0
 β1 
β 
0 1 0 0 .. 0   0
2

0 0 1 0 .. 0  β 3  = 0
    
 : 
 β k 

Ou seja: um conjunto qualquer de hipóteses lineares é


substituído por uma única hipótese matricial:

H 0 : Rβ − r = 0 (1.21)

Em outras palavras, qualquer conjunto de hipóteses


sobre os parâmetros do modelo econométrico é
substituído por uma pergunta ao mesmo tempo mais
simples e mais abstrata: “O vetor (Rβ – r) tem um
comprimento maior do que zero?”

Chegar à conclusão de que esse comprimento é nulo


significa aceitar o conjunto das hipóteses codificadas
em R e r. Por outro lado, a conclusão de que o
comprimento é maior do zero corresponde à rejeição
de uma ou mais das hipóteses conjuntas originais.

1-35
Se o vetor β é irremediavelmente desconhecido, o
vetor (Rβ - r) também o é. Por isso, testamos a
hipótese nula através do estimador de MQO. Dado o
estimador b, podemos computar o vetor (Rb - r).

Geometria do teste de hipóteses:

Espaço
vetorial de
dimensão q
(Rb – r) (número de
hipóteses a
(Rβ - r) se testar).

Vetor conhecido, mas Vetor desconhecido,


aleatório. Flutua ao mas fixo. Queremos
redor do ponto fixo e testar a hipótese de
desconhecido (Rβ β - r) que seu comprimento
é igual a zero

Quanto mais longe o vetor (Rb - r) estiver de 0, menos


provável é que o vetor (Rβ - r) seja igual a zero. Logo,
tenderemos a rejeitar a hipótese nula.

Como em qualquer teste de hipótese, a questão crucial


é se o desvio de (Rb - r) em relação a 0 pode ser
atribuído a erro de amostragem, ou se é realmente
significativo.

1-36
Para testar H0, investigaremos a distribuição do
quadrado do comprimento de (Rb – r), sob H0.

Lembrando que esse vetor nada mais é do que uma


transformação linear do vetor aleatório bem conhecido
nosso b, cuja distribuição é:

b ~ N(β , σ 2 ( X' X) −1 ),

segue:

E (Rb − r) = Rβ − r = zero (sob a hipótese nula)

Var (Rb − r ) =

Var (Rb) = E[(Rb − Rβ)(Rb − Rβ)' ]

= E[R(b − β)(b − β)' R ' ]

= RVar (b)R'

= σ 2 R ( X' X)−1 R'

E finalmente,

(Rb - r) ~ N( 0, σ 2 R(X' X)−1 R' ) (1.22)

1-37
Se então (Rb – r) é uma normal multivariada com
média 0, o seu comprimento ao quadrado, dado por

(Rb – r)’(Rb – r)

será uma soma de quadrados de v.a. normais. É uma


variável aleatória não tabelada, mas com um forte
“parentesco” com uma v.a. qui-quadrado. Como torná-
la uma qui-quadrado, com valores críticos conhecidos?

Pode-se mostrar (Johnston e Dinardo, Apêndice B),


que, se o vetor z (qx1) tem distribuição

z ~ N( 0,Σ )

então

z’ Σ −1 z ~ χ 2 (q )

Logo, a partir da distribuição amostral (1.22),


chegamos a uma v.a. tabelada, sobre a qual
poderíamos realizar testes de hipóteses:

(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) ~ χ 2 (q ) (1.23)

 Essa expressão deve ser entendida como o


quadrado do comprimento “padronizado” do vetor
(Rb – r), ou seja, medido em desvios padrões.

1-38
Infelizmente, não podemos parar aqui. A equação
(1.23) não pode ser usada na prática devido à
presença do parâmetro desconhecido σ 2 .

Mas pode-se mostrar (Johnston e Dinardo, Ap.B), que

e' e
2
~ χ 2 (n − k ) (1.24)
σ

e que tal estatística é distribuída independentemente


de b.

Além disso, sabemos que a razão entre duas variáveis


qui-quadrado independentes, divididas pelos
respectivos graus de liberdade n1 e n2, gera uma
variável com distribuição F(n1,n2).

Logo, podemos construir a estatística

(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) q


~ F(q,n-k)
(e' e σ 2 ) (n − k )

(Rb − r)'[R(X' X)−1 R' ]−1 (Rb − r) q


~ F(q,n-k) (1.25)
(e' e) (n − k )

1-39
Usando a definição de s2,

(Rb − r)'[ s 2 R(X' X)− 1 R' ]−1 (Rb − r) q ~ F(q,n-k) (1.26)

A estatística (1.26) pode, assim, ser usada para testar


hipóteses lineares sobre o vetor β . Valores elevados
da estatística apontam para a rejeição de H0.

Note que a raiz quadrada de uma variável F(1,n) é


uma variável t(n).

Logo, no caso de uma única restrição (q=1), a raiz


quadrada da estatística-F (1.26) equivale a uma
estatística-t.

Ex:

(i) H0 : β2 = 0

Rb − r = b2
s 2 R(X' X)−1 R' = Var (b2 )

b22
~ F (1, n - k)
Var (b2 )

b2
~ t (n - k)
d . p.(b2 )

1-40
(ii) H 0 : β 2 + β 3 = 1

Rb − r = b2 + b3 − 1

s 2 R(X' X)−1 R' =


0 
 c11 c21 c31 .. ck1   
c12 1
c22 c32 .. ck 2   
  1
= s 2 [0 1 1 0 .. 0]c13 c23 c33 .. ck 3   
0
 : : : . :  
:
c1k c2 k c3 k .. ckk   
0 
= s 2 (c22 + c23 + c32 + c33 )
= s 2 (c22 + 2c23 + c33 )
= var (b2 ) + 2 cov(b2 , b3 ) + var(b3 )
= var (b2 + b3 )

(b2 + b3 − 1) 2
var(b2 + b3 ) ~ F(1, n - k)

(b2 + b3 − 1)
var(b2 + b3 ) ~ t (n - k)

1-41
(v) H 0 : β 2 = β 3 = ... = β k = 0

b2 
b 
Rb − r =  3  = b 2
:
 
bk 

s 2 R(X' X)−1 R' =


0 0 .. 0
0 1 0 .. 0  c11 c21 .. ck1  
1 0 .. 0
0 0 1 .. 0 c12 c22 .. ck 2   
=s 2   0 1 .. 0
: : : . :  : : . :  
   : : . :
0 0 0 .. 1 c1k c2 k .. ckk  
0 0 .. 1
 c22 .. ck 2 
= s2  : . :  = s 2C
 
c2 k .. ckk 

A estatística de teste é, então,

F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.27)

Mas, conforme mostra o Apêndice 1.G, tal estatística


pode ser rescrita da seguinte forma:

R 2 (k − 1)
F= ~ F(k - 1, n - k) (1.28)
(1 − R 2 ) (n − k )

1-42
1.6 O Estimador de Mínimos Quadrados Restrito

De acordo com a abordagem acima, os testes de


hipóteses seguem os seguintes passos:

1. Estimam-se os parâmetors;

2. Verifica-se se tais estimativas estão muito longe de


satisfazer determinadas restrições.

Mas pode-se proceder de forma alternativa:

1. Impõem-se as restrições diretamente, estimando-


se uma regressão restrita;

2. Estima-se a regressão irrestrita usual;

3. Comparam-se os resultados das regressões


restrita e irrestrita, de modo a verificar se a perda
de ajuste ocasionada pela imposição das restrições
deve-se a amostragem ou realmente indica que as
restrições não são válidas.

As duas abordagens são equivalentes. A opção por


uma ou outra dependerá da situação:
• para testar uma única restrição ou a “significância
global” da regressão, a primeira abordagem é
preferível;
• para testar várias restrições, a segunda
abordagem é geralmente preferível

1-43
O Apêndice 1.H mostra a derivação formal do
estimador restrito. Aqui, nos limitamos a apresentar a
fórmula a ser utilizada nas aplicações:

(e'* e* − e' e) q
F= ~ F(q, n - k) (1.29)
e' e (n − k )

ou

( R 2 − R 2* ) q
F= 2
~ F(q, n - k) (1.30)
(1 − R ) ( n − k )

Ao usar (1.30) deve-se atentar para o fato de que,


freqüentemente, as regressões restrita e irrestrita
apresentam diferentes variáveis dependentes, de
modo que os R2 são incomparáveis.

Ex.:
Para testar H 0 : β 2 = 1 no modelo

ln Y = β1 + β 2 ln L + β 3 ln K + ε

pode-se impor a restrição

ln Y = β1 + ln L + β 3 ln K + ε

e estimar o modelo restrito, usando como variável


dependente ln Y − ln L :

ln Y − ln L = β1 + β 3 ln K + ε

1-44
Aplicação:
Teste de Chow para Mudança Estrutural
[Johnston e Dinardo, 4.5]

Pergunta: Os coeficientes da regressão são


constantes ao longo de toda a amostra? Ou há
diferentes vetores de parâmetros para diferentes
subconjuntos dos dados?

• Modelo irrestrito:

 y 1   X1 0  β 1 
y  =  0 X 2  β 2 
+u
 2 

Estimador de MQO:
−1
b 1   X'1 X 1 0   X'1 y   (X'1 X 1 ) −1 X'1 y 
b  =  0    =
X'2 X 2   X'2 y  (X'2 X 2 ) −1 X'2 y 
 2 

Trata-se de MQO aplicados separadamente a cada


equação.

A soma dos quadrados dos resíduos total é:

e' e = e'1 e1 + e'2 e 2

1-45
• Modelo restrito:

H 0 :β 1 = β 2

Pode-se formular a hipótese nula através da matriz


R = [I − I ] e do vetor r = 0.

Alternativamente, pode-se impor a restrição


diretamente no modelo:

y 1   X1 
y  =  X  β + u
 2  2

Trata-se de uma única regressão por MQO, cuja SQR


denotamos por e'* e* .

A estatística de teste é, então,

(e'* e* − e' e) k
F= ~ F(k, n - 2k)
e' e ( n − 2k )

1-46
Ex.: Emprego nos EUA (E) em função de uma
constante, do deflator do PIB (D), PIB (Y), Forças
Armadas (F) e tempo (t):

E = β1 + β 2 D + β 3Y + β 4 F + β 5t

A relação entre tais variáveis mudou após a Guerra da


Coréia (terminada em 1953) ?

1947-62 1947-53 1954-62


Coeficientes
C 1,169,090 1,678,148 3,776,130
D -19.768 -161.292 -42.4647
Y 0.06439 0.0948 0.11233
F -0.01014 -0.246697 -2.57928
t -576.464 -835.193 -1914.17

SQR 4.898.596 345.212 800.244

(4,898,596 − 345,212 − 800,244) 5


F [5,6] = = 3.932
(345,212 + 800,244) (7 + 9 − 10)

Valor crítico da distribuição-F a 5%: 4.39

⇒ Não se pode rejeitar a hipótese nula de constância


paramétrica.

1-47
1.7 Problemas de especificação (Greene 8.4)

Uma das hipóteses do MCRL nos diz que o modelo


deve estar “corretamente especificado”. Isso significa,
em particular, que no modelo

y = Xβ + u

a matriz X deveria incluir todas as variáveis


explicativas relevantes e não deveria incluir nenhuma
variável supérflua.

O que aconteceria se tais condições não fossem


satisfeitas? É o que veremos a seguir.

1.7.1 Omissão de variáveis relevantes

Suponha que o modelo verdadeiro seja

y = X1β 1 + X 2β 2 + u (1.31)

mas que o modelo estimado seja o seguinte:

y = X1β 1 + u (1.32)

Ou seja, estima-se um modelo caracterizado pela


omissão de um conjunto de variáveis relevantes (X2).

1-48
O estimador de MQO de (1.32) é

b1 = (X1 ' X1 ) −1 X1 ' y


= (X1 ' X1 ) −1 X1 ' (X1β 1 + X 2β 2 + u) (1.33)
= β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 + (X1 ' X1 )−1 X1 ' u

cujo valor esperado é

E (b1 ) = β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 (1.34)

Vemos, portanto, que b1 será viesado em geral, a não


ser que tenhamos X1’X2 = 0 , isto é, que os regressores
incluídos no modelo sejam ortogonais aos regressores
omitidos.

Em outras palavras, se alguma variável relevante for


omitida do modelo, e se a correlação dessa
variável com as variáveis incluídas no modelo não
for zero, então o estimador de MQO será viesado.

Na prática, é improvável que os regressores sejam


ortogonais, de modo que, em geral, deve-se esperar
que a omissão de variáveis relevantes gere
estimativas viesadas.

1-49
O que acontece com a variância do estimador de
MQO quando omitimos variáveis relevantes?

O Apêndice 1.I mostra que a variância de b1 é menor


que a variância de b1.2 (estimador que leva em
consideração X2).

Logo, apesar de obtermos estimativas viesadas ao


omitirmos variáveis relevantes, é possível que tais
estimativas sejam “mais precisas” do que as que
teriam sido obtidas com a inclusão dessas variáveis.
(O que não é grande consolo – estamos errando com
mais precisão!!)

No entanto, há um problema adicional, relativo à


estimação de σ 2 - necessária para a realização de
testes de hipótese. Conforme o Apêndice 1.I mostra, o
estimador usual

e1' e1
s2 =
n − k1

também é viesado, não sendo possível estimar σ 2 - e,


portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .

1-50
1.7.2 Inclusão de variáveis irrelevantes

Suponha agora que o modelo verdadeiro seja

y = X1β 1 + u (1.35)

mas que o modelo estimado seja

y = X1β 1 + X 2β 2 + u
(1.36)
= Xβ + u

onde

X = [X1 X2 ]
β 
β =  1
β 2 

Nesse caso, o estimador de MQO é dado pela fórmula


usual, e não é viesado:

b = (X' X)−1 X' y


= β + (X' X)−1 X' u

β  β 
E (b) = β =  1  =  1 
β 2   0 

Da mesma forma, a variância do estimador de MQO é


dada pela fórmula usual e também não é viesada.

1-51
Tais resultados parecem indicar que a inclusão de
variáveis irrelevantes não causa nenhum problema de
estimação.

Tendo em vista que, como vimos, a omissão de


variáveis relevantes causa problemas bastante graves,
a conclusão lógica pareceria ser:

“Sempre que estivermos em dúvida com relação à


inclusão/exclusão de alguma variável no modelo a ser
estimado, é melhor optar pela sua inclusão”.

Entretanto, tal conclusão está errada!

A razão disso é simples:

Se, por um lado, estimar um modelo omitindo uma


variável relevante equivale a impor uma restrição falsa
(restrição de que o coeficiente da variável é zero), por
outro lado, estimar um modelo incluindo uma variável
irrelevante equivale a deixar de impor uma restrição
verdadeira (restrição de que o coeficiente da variável é
zero).

O custo dessa segunda situação é a perda de


precisão da estimação. Conforme visto acima, a
variância do estimador de MQO aumenta com a
inclusão de novas variáveis explicativas.

Logo, também é necessário tomar cuidado para não


incluir variáveis irrelevantes no modelo.

1-52
APÊNDICE 1.A

Derivação do estimador de MQO

Problema:

Min β̂ e' e = (y − Xβ̂ )' (y − Xβ̂ )


= y' y − β̂ ' X' y − y' Xβ̂ + β̂ ' X' Xβ̂
= y' y − 2β̂ ' X' y + β̂ ' X' Xβ̂

Condições de primeira ordem:

∂ (e' e)
= −2 X' y + 2 X' Xβ̂ = 0
∂β̂

Seja b a solução do problema. Então, b satisfaz as k


equações normais:

( X' X)b = X' y

e, se (X’X)-1 existe, pode ser encontrado a partir de:

b = ( X' X) −1 X' y

Condições de segunda ordem para um mínimo:

∂ 2 (e' e)
= 2 X' X é positiva definida
∂β̂ 2

1-53
Pergunta: A condição de segunda ordem é satisfeita?

Resposta: Sim.

Prova:

Sejam X uma matriz (n x k) de posto cheio k e d um


vetor não nulo (k x 1). Observe que:

• d'(X’X)d ≥ 0 , pois é dada pela soma dos


quadrados dos elementos do vetor Xd (n x 1)

• d'(X’X)d = 0 se e somente se Xd = 0

Mas Xd = 0 implica que as colunas de X são


linearmente dependentes, o que contradiz a hipótese
de que X tem posto cheio. Logo,

d'(X’X)d > 0 para todo d ≠ 0

⇒ X’X é positiva definida

1-54
Pergunta: (X’X)-1 existe?

Resposta: Sim.

Prova:

Uma matriz positiva definida não pode ser singular.


Suponha que (X’X) seja singular; então, existe algum
vetor d ≠ 0 que satisfaz

(X’X)d = 0 ⇒ d'(X’Xd) = 0

o que contradiz a hipótese de que X’X é positiva


definida.

⇒ X’X é não-singular

1-55
APÊNDICE 1.B

O modelo em forma de desvios

Sejam i um vetor coluna composto por 1’s, e x um


vetor de observações de uma variável. Então,

x 
1
ix =  :  = i i' x
  n
 x 
1
= ii' x
n

Podemos expressar os valores de x em forma de


desvio:

 x1 − x 
 :  = x − ix = x − 1 ii' x
  n
 n
x − x 
1
= Ix − ii' x
n
 1 
= I − ii' x
 n 
= Ax

A matriz A é uma matriz simétrica e idempotente que,


ao premultiplicar qualquer vetor x, o coloca na forma
de desvios.

1-56
Observe que

 1 1 1 1 
1 − − − .. −
n n n n 
 1 1 1 
 − 1− 1 − .. − 
 n n n n 
1 1
A= − − : : : 
 n n 
 1 
 : : : 1− 1 − 
n n 

 −1 −
1
.. −
1
1− 1 
 n n n n

Tal matriz é usada primordialmente para calcular


somas de quadrados de desvios:

∑ ( x1 − x ) 2 = (x − ix )' (x − ix )
= (Ax)' Ax
= x' A' Ax
= x' Ax

Podemos colocar o modelo

y = Xb + e

na forma de desvio, premultiplicando cada termo por A

Ay = AXb + Ae

1-57
e, então, proceder à decomposição da soma dos
quadrados:

y' Ay = b' X' AXb + e' e

SQT SQE SQR

1-58
APÊNDICE 1.C

Teorema de Frisch-Waugh-Lovell

Suponha que X possa ser particionada em 2 conjuntos


de variáveis, X1 e X2:

y = Xβ + u = X 1β 1 + X 2β 2 + u

Sejam b1 e b2 os coeficientes estimados por MQO:

y = X 1b 1 + X 2 b2 + e

Premultiplicando por M 1 = I − X 1 (X 1 ' X 1 ) −1 X 1 ' , obtemos

M 1 y = M 1 X 1b 1 + M 1 X 2 b 2 + M 1e
(1.C1)
= M 1 X 2b 2 + e

e, premultiplicando por X’2 ,

X 2 ' M 1y = X 2 ' M 1 X 2b 2 + X 2 'e


(1.C2)
= X 2 ' M 1 X 2b 2

Rearrumando,

(M 1 X 2 )' (M 1 y ) = (M 1 X 2 )' (M 1 X 2 )b 2

1-59
ou seja, o vetor b2 obtido da regressão de y sobre X =
[X1 X2] é idêntico ao obtido através do seguinte
procedimento:

(4) Regressão de y sobre X1; forma o vetor de


resíduos M1y;

(5) Regressão de X2 sobre X1; forma o vetor de


resíduos M1X2;

(6) Regressão de M1y sobre M1X2.

[resultado análogo vale para b1]

Esse resultado é conhecido como Teorema de Frisch-


Waugh-Lovell.

1-60
APÊNDICE 1.D

Aplicações do Teorema de Frisch-Waugh-Lovell

Aplicação 1: Pode-se usar esse resultado para provar


que o R2 nunca diminui ao adicionarmos novas
variáveis na regressão.

A partir de (1.C1), obtemos:

y' M 1 y = b 2 ' X 2 ' M 1 X 2 b 2 + e' e

ou

e' e = y' M 1 y − b 2 ' X 2 ' M 1 X 2 b 2

Observe que:

• y' M 1 y = (M 1 y )' (M 1 y ) é a SQR da regressão de y


sobre X1

• e’e representa a SQR da regressão de y sobre X =


[X1 X2]

• b 2 ' X 2 ' M 1 X 2b 2 ≥ 0

Logo, a SQR da regressão de y sobre X1 e X2 nunca


será superior à SQR da regressão de y sobre X1
apenas. Consequentemente, o R2 nunca será inferior.

1-61
Aplicação 2: Coeficientes de correlação parcial

Em Econometria, vê-se que o coeficiente de


correlação simples entre a variável dependente (Y) e
uma das independentes (por ex., X2) pode ser
“contaminado” pelas outras variáveis.

Por exemplo, se tanto Y quanto X2 forem


positivamente correlacionadas à X3, então um aumento
nesta última causará aumentos simultâneos nas duas
outras, inflando a correlação “natural” entre elas.

A solução é utilizar o coeficiente de correlação


parcial: r12.34...k é a correlação entre Y e X2, expurgada
qualquer influência de X3, X4 ... Xk.

Seja M* a matriz que produz o vetor de resíduos de


uma regressão contra todas as variáveis
independentes exceto X2. Então:

r12.34...k = correlação entre (M ∗ y ) e (M ∗ x 2 )

x 2 ' M ∗y
r12.34...k =
x 2 ' M ∗ x 2 y ' M ∗y

Comparando com a equação (1.C2) acima, vê-se que:

y ' M ∗y s1.34...k
b2 = r12.34...k = r12.34...k
x 2 ' M ∗x 2 s2.34...k

1-62
APÊNDICE 1.E

Teorema de Gauss-Markov

A matriz de variância-covariância de b é:

Var (b) = E[(b − β)(b − β)' ]


= E[(X' X)−1 X'uu' X(X'X)−1 ]
= (X' X)−1 X' E (uu' )X(X'X)−1
= (X' X)−1 X'σ 2 IX(X' X)−1
= σ 2 (X' X)−1

É possível encontrar algum outro estimador linear e


não-viesado que seja mais eficiente que b?

Seja b0 um estimador linear alternativo dado por

b 0 = C0 y

onde C0 é um matriz de constantes.

b0 é não-viesado se C0X = I:

E (b 0 ) = E (C 0 y) = E (C 0 Xβ + C 0 u) = C 0 Xβ

A matriz de variância-covariância de b0 é:

Var (b 0 ) = Var (C 0 y) = C 0Var (y)C 0 ' = σ 2 C 0 C 0 '

1-63
Seja

D = C 0 − C = C 0 − (X' X)−1 X'

Dado que C0X = I por hipótese, temos:

DX + (X' X)−1 X' X = I


DX + I = I
DX = 0

Logo,

Var (b 0 ) = σ 2 [(D + (X' X)−1 X' )(D + (X' X)−1 X' )' ]
= σ 2 [DX(X'X)−1 + (X' X)−1 X' X(X'X)−1 + DD'+(X' X)−1 X' D' ]
= σ 2 (X' X)−1 + σ 2 DD'
= Var (b) + σ 2 DD'

O que significa que a matriz de variância de b0 é igual


à matriz de variância de b mais uma matriz positiva
semidefinida.

⇒ MQO é o melhor estimador linear não-viesado

1-64
APÊNDICE 1.F

Estimação de σ 2

Para estimar σ 2 , partimos do vetor de resíduos e:

e = My = M(Xβ + u) = Mu

E (e' e) = E[(Mu)' Mu] = E (u' Mu)

Usando as propriedades do traço de uma matriz,

E (e' e) = E[tr (u' Mu)]


= E[tr (uu' M )]
= tr[ E (uu' M )]
= tr[ E (uu' )M ]
= tr[σ 2 IM ]
= σ 2 tr (M )
= σ 2 tr (I n − X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X' X(X' X)−1 )
= σ 2 tr (I n ) − σ 2 tr (I k )
= σ 2 (n − k )

1-65
Seja

e' e
s2 =
n−k
2
Logo, s2 é um estimador não-viesado de σ :

 e' e 
E (s 2 ) = E  =σ
2

n−k

E a matriz de variância-covariância estimada de b é

Var (b) = s 2 ( X' X) −1

1-66
APÊNDICE 1.G

Teste de H 0 : β 2 = β 3 = ... = β k = 0

A estatística de teste

F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.G1)

pode ser rescrita em função de valores mais familiares.

Note que a inversa de uma matriz particionada

A A 12 
A =  11
 A 21 A 22 

é dada por

 A 11 −1 + A 11 −1 A 12 B 22 A 21 A 11 −1
−1
−1
− A 11 A 12 B 22 
A = −1  (1.G2)
 − B 22 A 21 A 11 B 22 
−1
onde B 22 = ( A 22 − A 21 A 11 A 12 ) −1

Logo, particionando X em X = [ i X2] , temos

 i'   n i' X 2 
X' X =  ' [i X 2 ] =  ' ' 
X 2  X 2 i X 2 X 2 

e, usando o resultado (1.G2) acima,

1-67
C = (X '2 X 2 − X '2 i n −1 i' X 2 ) −1 = (X '2 AX 2 ) −1

Por conseguinte,

b '2 C −1 b 2 = b '2 X '2 AX 2 b 2 (1.G3)

que corresponde à SQE da regressão.

Usando (1.G3) e a fórmula s 2 = e' e /( n − k ) , podemos


rescrever a estatística (1.G1) como

SQE (k − 1)
F= ~ F(k - 1, n - k)
SQR (n − k )

ou

R 2 (k − 1)
F= ~ F(k - 1, n - k)
(1 − R 2 ) (n − k )

1-68
APÊNDICE 1.H

Derivação do estimador de mínimos quadrados


restrito

Formalmente, o problema é

Min b (y − Xb* )' (y − Xb* ) − 2 λ ' (Rb * − r)


*

As condições de primeira ordem são:

∂φ
= −2X' y + 2 X' Xb* − 2R'λ = 0
∂b *
∂φ
= −2(Rb * − r) = 0
∂λ

Obtemos

X' Xb* = X' y + R'λ (1.H1)

Resolvendo para b*

b * = ( X' X) −1 X' y + ( X' X) −1 R' λ


−1
(1.H2)
= b + ( X' X) R' λ

Premultiplicando por R e resolvendo para λ

Rb * = Rb + R ( X' X) −1 R' λ

1-69
λ = [R(X' X)−1 R' ]-1 (r - Rb)

Substituindo em (1.H2),

b * = b + ( X' X) −1 R' [R(X' X)−1 R' ]-1 (r - Rb) (1.H3)

Os resíduos da regressão restrita são

e* = y − Xb*
= y − Xb − X(b* − b)
= e − X(b* − b)

e a soma dos quadrados é

e'* e* = e' e + (b * − b)' X' X(b* − b)

Observe que e'* e* ≥ e' e : a SQR da regressão restrita


não pode ser menor do que a SQR da regressão
irrestrita!

Usando (1.H3),

e'* e* − e' e = (r − Rb)'[R(X' X)−1 R' ]-1 R(X' X)−1 X' X


(X' X)−1 R'[R(X' X)−1 R' ]-1 (r − Rb) (1.H4)
= (r − Rb)'[R(X' X)−1 R' ]-1 (r − Rb)

1-70
Logo, podemos rescrever a estatística do teste
H 0 : Rb = r usando (1.H4):

(e'* e* − e' e) q
F= ~ F(q, n - k) (1.H5)
e' e (n − k )

1-71
APÊNDICE 1.I

Variância do estimador de MQO com omissão de


variáveis

A variância do estimador de MQO no modelo (1.32) é


dada por

Var (b1 ) = σ 2 ( X1' X1 ) −1

Caso tivéssemos estimado o modelo verdadeiro (1.31),


a variância teria sido

Var (b1.2 ) = σ 2 ( X1' M 2 X1 ) −1

onde

M 2 = I − X 2 (X 2 ' X 2 )−1 X 2 '

Podemos comparar as duas matrizes de variância


acima olhando para a diferença entre suas inversas:

Var (b1 ) −1 − Var (b1.2 ) −1 = σ 2 X1 ' X 2 ( X 2 ' X 2 ) −1 X 2 ' X1

que é uma matriz positiva definida.

Isso significa que a inversa da variância de b1 é maior


que a inversa da variância de b1.2, ou seja, que a
variância de b1 é menor que a variância de b1.2.

1-72
Outro problema diz respeito à estimação de σ 2 -
necessária para a realização de testes de hipótese. O
estimador usual seria

e1' e1
s2 =
n − k1

Mas pode-se mostrar que tal estimador também é


viesado. De fato, note que

e1 = M 1y = M 1 (X1β 1 + X 2β 2 + u) = M 1 X 2β 2 + M 1u

de modo que, procedendo como no Apêndice 1.F,


pode-se provar que

E (e1 ' e1 ) = β 2 ' X 2 ' M 1 X 2β 2 + (n − k1 )σ 2

Logo, s2 é viesado, não sendo possível estimar σ 2 - e,


portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .

1-73
EXERCÍCIOS
1.1

Usando as definições de y e X na página 1.4, mostre que (1.10) e (1.12) são equivalentes.

1.2

No curso de Econometria, você aprendeu que o estimador de MQO dos parâmetros β1 e


β2 na regressão

Yi = β1 + β 2 X i + ui
era dado por

∑ (Yi − Y )( X i − X)
b2 =
∑ (Xi − X )2
b1 = Y − b2 X
Mostre que as fórmulas acima podem ser obtidas a partir de (1.13).

1.3

Usando os resultados da Seção 1.2, mostre que se a regressão inclui um intercepto:


• a soma (e a média) dos resíduos é zero
• a média dos valores ajustados é igual à média dos valores observados

1.4

Mostre que MX = 0, onde M = I – X(X’X)-1X’ é a matriz definida na Seção 1.2.2. Interprete


o resultado.

1.5

Sejam os três vetores coluna: v1 = (1,2,c,4,4), v2 = (-2,1,4,-6,c), v3 = (-1,c,7,-2,7), onde c é


uma constante positiva. Esses vetores representam o resultado de uma regressão de
mínimos quadrados com intercepto: um deles é um vetor de observações da variável
dependente, outro um vetor de ajustes, e outro um vetor de resíduos. O espaço coluna da
matriz X tem dimensão igual a 2. Calcule numericamente o R2 ajustado da regressão.
[DICA: Uma forma de resolver é pensar nas propriedades dos resíduos de MQO num
modelo com intercepto.]

1-74
1.6

Espaço vetorial de dimensão... .....


Na figura ao lado, o círculo pontilhado
representa, simbolicamente, um espaço
vetorial de dimensão qualquer. Imerso
nele há um subespaço de dimensão
menor qualquer, simbolizado pelo plano.
O triângulo retângulo formado por três
vetores, apoiado nesse plano, tem um
significado crucial em Econometria.
Explique esse significado, mencionando:
a
c (a) O que determina as dimensões do
espaço vetorial e do subespaço
b vetorial.
(b) Que vetores geram o subespaço.
(c) O que representam os três vetores a,
b b e c que formam o triângulo.
(d) Por que é um triângulo retângulo.
Subspaço vetorial de dimensão.. ....
(e) Qual a expressão da matriz que
transforma linearmente o vetor a no
vetor b. E no vetor c.
(f) Qual a relação entre o R2 de uma
regressão e o Teorema de Pitágoras
aplicado a esse triângulo retângulo.

1.7

Considere as seguintes informações:

1  b 1 c 
y 1 = 1  y 2 = 1 X = 0 d  e1 = 0 e2 = y2
a  1 0 e 

onde: e1 = vetor de resíduos da regressão de y1 em X


e2 = vetor de resíduos da regressão de y2 em X
a, b, c, d, e = parâmetros desconhecidos.

(a) Quais são os valores dos parâmetros a e b? (1,5 pontos)

(b) Os parâmetros c, d, e podem ser unicamente determinados a partir das informações


acima? Por quê? (0,5 ponto)

(c) Caso a resposta ao item anterior seja positiva, encontre a solução única. Caso a
resposta seja negativa, apresente uma possível solução. (0,5 ponto)

1-75
1.8

Um economista deseja verificar se a taxa de crescimento econômico de um país é afetada


pelo “nível de liberdades individuais” e pelo “grau de corrupção” do país através da
seguinte regressão (contendo um termo constante):

Yi = β1 + β 2 Li + β 3Ci + ui

onde Y é a taxa de crescimento do PIB, L o nível de liberdades individuais e C o grau de


corrupção do país i. A variável L pode assumir os valores 1 (nível elevado de liberdades),
0 (nível médio de liberdades) ou –1 (nível baixo de liberdades). Similarmente, a variável C
pode assumir os valores 1 (baixo grau de corrupção), 0 (grau de corrupção médio) ou –1
(elevado grau de corrupção).

Para uma amostra de 10 países, observados ao longo de 1999, o economista obtém os


seguintes dados:

País Y L C
Dinamarca 6 1 1
México 2 1 -1
Chile 3 0 1
Colômbia -1 0 -1
Rússia 2 0 0
Argentina 2 0 0
Brasil 1 0 0
Grécia 1 0 0
Egito 0 -1 0
Indonésia 0 -1 0

Infelizmente, o economista não pode rodar a regressão, pois seu computador contraiu um
vírus que apagou todo o HD (inclusive o Eviews...). O economista precisa entregar a seu
superior um relatório com os resultados da regressão; entretanto, como ele não teve aula
de TPE, não sabe como realizar os cálculos manualmente. Você certamente poderá
ajudá-lo!

(a) Usando seus conhecimentos de álgebra linear, escreva as equações normais e


calcule o vetor de coeficientes de MQO. Interprete os coeficientes estimados.
(b) Calcule as variâncias dos coeficientes estimados. Tais coeficientes são
estatisticamente significativos (a 10%)?
(c) Calcule o R2 da regressão.

Suponha que, após você ter terminado seus cálculos, o economista consiga recuperar
seu HD e decida conferir suas respostas usando o Eviews.

(d) Mostre os resultados da regressão acima realizada no Eviews. Compare os resultados


com aqueles obtidos nos itens (a)-(c); os resultados deveriam ser idênticos (se não forem,
é sinal de que você cometeu algum erro!)

1-76
1.9

Em certo país, com o objetivo de testar algumas hipóteses sobre os determinantes dos
gastos dos municípios em educação e saúde, estima-se por MQO uma regressão dos
gastos municipais (G) em função de uma constante (C), das receitas tributárias do
município (R) e de uma variável dummy (D) que assume valor 1 se o município é
governado por um partido “de esquerda”, e zero em caso contrário. Sabemos que:
• O vetor de coeficientes estimados para C,R,D é b’=[ -0.7527, 0.4753, 2.3764 ]
• O número de municípios com governo de esquerda é 10
• A soma das receitas de todos os municípios é 200, sendo que os municípios de
esquerda têm 25% desse total
• A soma dos quadrados das receitas de todos os municípios é 2114
• A soma dos gastos de todos os municípios é 100
• A soma dos quadrados dos gastos de todos os municípios é 504
• Os valores na diagonal da matriz inversa de X’X são [0.338, 0.00267, 0.2329]

Responda:

a) Quanto foi gasto pelos municípios de esquerda em saúde/educação?


b) Calcule as variâncias dos coeficientes estimados e o R2 da regressão.
c) Teste, ao nível de 5%, a hipótese de que os partidos de esquerda não gastam mais
em saúde/educação relativamente aos demais.

1.10

Suponha um modelo econométrico para explicar o consumo (C) de famílias de uma


mesma região através de três variáveis: renda (R), poupança total (P) e posse do imóvel
em que habita (D). As variáveis C, R e P são medidas em reais. A variável D é uma
dummy que assume valor 1 se a família é dona do imóvel em que habita, e zero caso
contrário. A FRP é:

Ci = β1 + β 2 Ri + β 3 Pi + β 4 Di + ui

Um economista estimou esse modelo para uma amostra de 14 famílias, obtendo:

1  1 0 0 0
 2 −1
0 2 0 0 1
b=  (X ' X ) =  s2 =
1  0 0 1 0 3
4 0 0 0 3

Teste conjuntamente as hipóteses: (1) não há diferença entre os efeitos da renda e da


poupança sobre o consumo, e (2) o fato de a família ser dona do imóvel em que habita
não influencia em nada o consumo. O Conjunto das hipóteses é rejeitado ou não?
Interprete o resultado.

1-77
1.11

A teoria econômica sugere que o grau de independência da política monetária de um país


depende do regime cambial adotado: sob um regime de câmbio fixo e mobilidade de
capitais, a taxa de juros doméstica estaria atrelada à taxa de juros externa, enquanto que
num regime de câmbio flutuante as autoridade monetárias teriam liberdade para
determinar a taxa de juros doméstica. Entretanto, alguns autores afirmam que mesmo em
países com regimes flexíveis a política monetária não é independente, pois fatores como
credibilidade, repasse (“pass-through”) do câmbio à inflação e passivos em moeda
estrangeira impedem que as autoridades deixem o câmbio flutuar livremente – ou seja,
que adotem políticas monetárias independentes.

Com o objetivo de testar se a adoção de um regime flutuante realmente permite políticas


monetárias independentes, um economista estimou, para um conjunto de países, a
seguinte regressão:

i D = β1 + β 2i* + ε

onde iD = taxa de juros doméstica; i* = taxa de juros externa

A regressão foi estimada para a amostra completa de países e para duas subamostras,
classificadas de acordo com o tipo de regime cambial adotado pelos países: (1) câmbio
fixo; (2) câmbio flexível. As matrizes relevantes, em cada subamostra, são:

(1) Câmbio fixo

10 60   60 
X1' X1 =   X1' y1 =   y1' y1 = 490
60 420 420

(2) Câmbio flexível

10 60   60 
X2 ' X2 =   X2'y 2 =   y 2 ' y 2 = 430
60 420 390

a) Calcule o vetor de coeficientes de MQO e o R2 para a amostra inteira e para cada


subamostra. Os valores dos coeficientes estimados estão de acordo com a teoria
“convencional”?
b) Teste, ao nível de 5%, a igualdade dos coeficientes entre as duas subamostras.
Interprete o resultado.

1-78
1.12

Os dados abaixo referem-se a um modelo de regressão linear estimado:

 − 1 0,05 0,1 0 
b = − 2 =  0,1 0,4 0 
−1
e' e = 74 (X' X )
 3  0 0 0,5

O modelo (com intercepto) explica as importações de um país em função da taxa de


câmbio real (x2) e um índice de produção física industrial (x3). Teste, ao nível de
significância de 1%, a hipótese conjunta de que β 1 = 0 e β 2 = − β 3 .

1.13

Com o objetivo de analisar a relação entre os lucros dos bancos e o volume de


empréstimos concedidos, o economista A pretende estimar a seguinte regressão:

Li = β1 + β 2 Ei + ui
onde Li é o lucro por cliente do banco i, Ei é o volume de empréstimos do banco e ui é um
distúrbio aleatório.

Entretanto, segundo o economista B, não seria correto estimar tal regressão para a
amostra total de bancos, pois bancos com diferentes tamanhos devem apresentar
desempenhos muito diferentes – e, portanto, os parâmetros não podem ser considerados
constantes ao longo da amostra. O mais correto, segundo ele, seria estimar regressões
diferentes para bancos com tamanhos diferentes.

Suponha que seja possível dividir a amostra em duas partes, a primeira correspondente
aos bancos de pequeno porte e a segunda aos bancos de grande porte, cujas
observações geram as seguintes matrizes:

10 10 10 


X1' X1 =   X1' y1 =   y1 ' y1 = 3210
10 11 50

10 10  10 
X2 ' X2 =   X2 'y 2 =   y 2 'y 2 = a
10 11 100
onde X inclui um intercepto.

a) Calcule o vetor de coeficientes de MQO para a amostra inteira e para cada uma
das subamostras. Interprete os resultados.
b) Calcule a soma dos quadrados dos resíduos para cada subamostra. Qual é o
intervalo de valores possíveis para a?

1-79
c) Para quais valores de a poderíamos dizer, com 95% de confiança, que o
procedimento sugerido pelo economista B é realmente mais correto?

1.14

Um economista deseja estimar a seguinte relação para um conjunto de países:

Yi = β 1 + β 2 J i + β 3 Pi + u i , u i ~ N (0, σ 2 ) (1)

onde, para cada país i, Yi é a taxa de crescimento do PIB, Ji é a taxa de juros nominal e Pi
é a taxa de inflação.

Ele dispõe dos seguintes dados:

100 0 0 100
X' X =  0 10 0 X' y = - 15 y' y = 220,5
 0 0 1  1 

onde y é o vetor de observações da variável dependente e X a matriz de observações das


variáveis explicativas.

(a) Calcule os coeficientes estimados por MQO. [0,5 ponto]

(b) Segundo outro economista, a taxa de crescimento do PIB deveria depender


exclusivamente da taxa de juros real, de modo que uma equação mais apropriada
seria:
Yi = δ1 JRi + u (2)

onde JR = J – P é a taxa de juros real “ex-post”. Com base nas informações


disponíveis, teste ao nível de 5% a validade dessa especificação vis-à-vis a equação
(1). [1 ponto]

(c) Se nós dispuséssemos de informações adicionais, seríamos capazes de realizar o


teste do item anterior através de um método alternativo. Descreva esse método
alternativo, explicitando as informações requeridas para a sua realização. [0,5 ponto]

(d) Um terceiro economista, tentando conciliar as idéias dos outros dois, sugere estimar
por MQO uma equação contendo simultaneamente as variáveis nominais e reais, isto
é:
Yi = β1 + β 2 J i + β 3 Pi + β 4 JRi + ui (3)

Esse procedimento apresenta algum problema? Responda fazendo referência às


propriedades da matriz X de variáveis explicativas. [0,5 ponto]

1-80

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy