Texto Regressão Linear Múltipla
Texto Regressão Linear Múltipla
Gilberto A. Paula
Instituto de Matemática e Estatı́stica - Universidade de São Paulo
e-mail: giapaula@ime.usp.br
Setembro 2023
Resumo
O principal objetivo deste texto é apresentar uma sı́ntese dos principais
tópicos relacionados com regressão linear múltipla, tais como estimação por
mı́nimos quadrados e máxima verossimilhança, procedimentos inferenciais
e de teste de hipóteses, além de métodos de diagnóstico, conceito de in-
teração, comparação de médias, regressão ponderada, multicolinearidade,
seleção de modelos, regressão por partes e métodos robustos com extensões
para regressão não linear. Exemplos ilustrativos são apresentados ao longo
do texto e vários exercı́cios teóricos e aplicados são propostos no final do
texto. Uma abordagem mais completa pode ser encontrada, por exemplo,
no livro de Montgomery, Peck e Vining (2021).
1 Introdução
Denote por (y1 , x1 ), . . . , (yn , xn ) uma amostra aleatória de tamanho n de
uma determinada população, em que y1 , . . . , yn representam os valores obser-
vados da variável resposta (assumida contı́nua), enquanto xi = (xi1 , . . . , xip )>
denotam valores observados de variáveis explicativas, para i = 1, . . . , n. O
principal objetivo da regressão linear múltipla é tentar explicar o valor es-
perado da variável resposta dados os valores das variáveis explicativas. A
formulação mais usual é a seguinte:
1
ind
é crucial para fazer inferência. De (1) segue que Yi |xi ∼ N(µi , σ 2 ) com
µi = x> >
i β e β = (β1 , . . . , βp ) , para i = 1, . . . , n.
Em forma matricial o modelo (1) fica expresso na forma
y = Xβ + , (2)
∂S(β)
= −2X> (y − Xβ).
∂β
2
Na Figura 1 é apresentada uma representação geométrica da solução de
mı́nimos quadrados, em que y b = Xβ b = Hy corresponde à projeção orto-
gonal de y através do projetor linear H = X(X> X)−1 X> , no subespaço
gerado pelas colunas da matriz X, denotado por C(X). Por outro lado,
r = y−y b = (In − H)y definido como vetor de resı́duos ordinários, cor-
responde à projeção ortogonal de y através do projetor linear (In − H), no
subespaço complementar Cc (X), denominado ortocomplemento de C(X).
Cc(X)
r y
^
y^ = Xβ
C(X)
3
É preciso verificar se a raiz da primeira derivada é de fato um ponto de
mı́nimo da superfı́cie formada por (S(β), β > )> . Deriva-se então novamente
S(β) com relação a β` , obtendo-se
n
∂ 2 S(β) X
=2 xij xi` ,
∂βj ∂β`
i=1
∂ 2 S(β)
= 2X> X.
∂β∂β >
Como é assumido que X tem posto coluna completo então X> X é uma
matriz positiva definida, logo S(β) é uma superfı́cie convexa e β
b é ponto de
mı́nimo.
Resumindo, tem-se que Y|X ∼ Nn (Xβ, σ 2 In ) e como consequências
E(Y|X) = Xβ e Var(Y|X) = σ 2 In , em que Y = (Y1 , . . . , Yn )> . Seguem as
seguintes propriedades do estimador de mı́nimos quadrados:
b = E{(X> X)−1 X> Y} = (X> X)−1 X> E(Y|X) = (X> X)−1 X> Xβ = β.
E(β)
4
quadrados X> (y − Xβ) b = 0 que Pn ri = 0. Logo, obtém-se a decom-
i=1
posição de somas de quadrados
2 QMRes
R =1− ,
QMT
2
em que QMRes = SQRes n−p e QMT =
SQT
p−1 e 0 ≤ R ≤ 1. É possı́vel estabelecer
a seguinte relação:
2 (n − 1)
R = 1 − (1 − R2 ) .
(n − p)
2
Portanto, segue que R ≤ R2 .
yi = β1 + β2 xi + i ,
5
Assim, obtém-se
> n nx̄ X
X X= e X> y = (nȳ, xi yi )> .
x2i
P
nx̄
P P
xi yi
em que x̄ = n e ȳ = n . Logo,
x2i
P
> −1 1 −nx̄
(X X) = ,
nSxx −nx̄ n
Pn
em que Sxx = i=1 (xi − x̄)2 . O estimador de mı́nimos quadrados fica dado
por " # " #
b = (X> X)−1 X> y = βb1 ȳ − βb2 x̄
β = Sxy
βb2 Sxx
Pn
com Sxy = − x̄)(yi − ȳ). A matriz de variância-covariância assume
i=1 (xi
a forma
σ2
P 2
2 > −1 xi −nx̄
Var(β) = σ (X X) =
b .
nSxx −nx̄ n
2 2
P
σ x 2 2
Daı́ segue que Var(βb1 ) = nSxx i , Var(βb2 ) = Sσxx e Cov(βb1 , βb2 ) = − σSxxx̄ .
Supondo que X é uma variável quantitativa contı́nua, o coeficiente de
correlação linear amostral de Pearson entre X e Y é expresso na forma
Pn
i=1 (xi − x̄)(yi − ȳ)
rxy = Pn 1 ,
{ i=1 (xi − x̄)2 ni=1 (yi − ȳ)2 } 2
P
yi − ȳ) = (xi − x̄)βb2 e portanto ni=1 (b yi − ȳ)2 = βb22 ni=1 (xi − x̄)2 .
P P
Logo (b
Sxy
Então, segue que SQReg = βb22 Sxx . E desde que βb2 = Sxx obtém-se
SQReg
SQReg = βb2 Sxy → βb2 = .
Sxy
6
Finalmente, segue a relação
2 Sxx Sxy SQReg Sxx SQReg
rxy = βb22 = = = R2 .
SQT Sxx Sxy SQT SQT
Ou seja, o coeficiente de determinação R2 coincide com o quadrado do coe-
ficiente de correlação linear amostral de Pearson entre X e Y na regressão
linear simples.
3 Teste de Hipóteses
Inicialmente, supor que o interesse é avaliar se os coeficientes da regressão
são nulos, que corresponde a testar as hipóteses
H0 : β2 = · · · = βp = 0 contra H1 : βj 6= 0,
para pelo menos algum j = 2, . . . , p. A estatı́stica F fica expressa na forma
SQReg/(p − 1) QMReg H0
F= = ∼ F(p−1),(n−p) .
SQRes/(n − p) QMRes
Para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F > F(1−α),(p−1),(n−p) ,
em que F(1−α),(p−1),(n−p) denota o quantil (1 − α) da distribuição F com
(p − 1) e (n − p) graus de liberdade. É usual construir a tabela de análise
de variância (ANOVA), conforme descrito na Tabela 1.
7
p
em que EP(
c βbj ) = s Cjj . Para um nı́vel de significância 0 < α < 1, rejeita-
se H0 se |t| > t(1−α/2),(n−p) , em que t(1−α/2),(n−p) denota o quantil (1 − α/2)
de uma distribuição t-Student com (n−p) graus de liberdade. Em particular,
pode-se mostrar que t2 segue sob H0 distribuição F1,(n−p) .
Generalizando, supor que o interesse agora é testar H0 : Rβ = 0 contra
contra H1 : Rβ 6= 0, com pelo menos uma desigualdade estrita em H1 , em
que R é uma matriz r × p com posto linha r ≤ p. O acréscimo na soma de
quadrados de resı́duos devido à restrição Rβ = 0 (vide Montgomery et al.,
2021, Cap. 3) é dado por
b > {R(X> X)−1 R> }−1 Rβ.
ASQ(Rβ = 0) = (Rβ) b
8
4 Estimativa Intervalar
Um estimativa intervalar de coeficiente de confiança (1 − α) para βj fica
dada por
[βbj ± t(1−α/2),(n−p) EP(
c βbj )],
em que j = 1, . . . , p. Como para n grande a t-Student se aproxima da
normal, pode-se usar o quantil (1−α/2) da N(0, 1) no lugar de t(1−α/2),(n−p) .
É possı́vel mostrar que
SQRes modelo
∼ χ2(n−p) .
σ2
SQRes SQRes
Logo, segue que E σ2
= (n − p) e portanto s2 = (n−p) é um estimador
não tendencioso de σ 2 . Após algumas manipulações com a distribuição
χ2(n−p) tem-se que
( )
(n − p)s2 (n − p)s2
P ≤ σ2 ≤ 2 = (1 − α),
χ2(1−α/2),(n−p) χ(α/2),(n−p)
5 Bandas de Confiança
Supor uma nova observação que não pertence à amostra com valores para
as variáveis explicativas representados por z = (z1 , z2 , . . . , zp )> . Portanto,
tem-se que
y(z) = z> β + (z)
9
b(z) = z> β
e valor esperado E{Y (z)} = µ(z). Logo µ b e
µ(z)} = Var(z> β)
Var{b b = z> Var(β)z
b = σ 2 z> (X> X)−1 z.
e
√ 1
[z> β
b± cα σ{1 + z> (X> X)−1 z} 2 , ∀z ∈ IRp ].
Na prática deve-se substituir σ 2 por s2 e cα é obtido tal que P{Fp,(n−p) ≤
cα } = 1 − α. Em particular, para regressão linear simples é possı́vel mostrar
que z> (X> X)−1 z = 1/n + (z − x̄)2 /Sxx .
6 Métodos de Diagnóstico
Procedimentos de diagnóstico devem ser aplicados após o ajuste do modelo
linear normal e têm como principais objetivos:
10
(i) avaliar se há afastamentos importantes das suposições feitas para o mo-
delo, tais como independência, normalidade, homocedasticidade dos
erros e linearidade da média com relação aos valores das variáveis ex-
plicativas;
11
aberrante
2p 3p
o critério fica dado por hii ≥ n. Para amostras grandes sugere-se hii ≥ n.
12
6.2 Limites para a Predição
Supor uma nova observação com valores para as variáveis explicativas re-
presentados por z = (z1 , z2 , . . . , zp )> . Qual a condição para obter yb(z)? Se-
gundo Montgomery et al.(2021, p.110) pode-se fazer predição (interpolação)
no modelo de regressão linear múltipla com segurança se a seguinte condição
for satisfeita:
x> (X> X)−1 x ≤ hmax ∀x ∈ IRp ,
em que hmax = max{h11 , . . . , hnn }. Logo, uma condição para predição de
y(z) é que z> (X> X)−1 z ≤ hmax .
d
a b
x1
13
6.3 Análise de Resı́duos
Como visto anteriormente, o vetor de resı́duos ordinários é definido por
r = (In − H)y, em que r = (r1 , . . . , rn )> com ri = yi − ybi , para i = 1, . . . , n.
Tem-se que
14
t2
Cook e Weisberg (1982) mostram que (n−p) i
∼ Beta( 12 , (n−p−1)
2 ). A sugestão
2 2
é substituir s por s(i) , o erro quadrático médio do modelo sem a i-ésima
observação. Agora, tem-se que tri ∼ N(0, 1), (n − p − 1)s2(i) /σ 2 ∼ χ2(n−p−1)
e ainda tri e s2(i) são independentes. Então, tem-se o resı́duo Studentizado
r
t∗i = √i ∼ t(n−p−1) ,
s(i) 1 − hii
Ou seja, s2(i) pode ser obtido sem a necessidade de fazer o ajuste sem a
i-ésima observação.
Abaixo são descritos alguns gráficos sugeridos com o resı́duo t∗i .
(i) Gráfico entre os quantis observados t∗1) < · · · < t∗(n) do resı́duo t∗i
contra os quantis da distribuição N(0, 1). Esse gráfico é equivalente
ao gráfico normal de probabilidades sugerido em Montgomery et al.
(2021, Cap.4). Sugere-se a inclusão de banda de confiança empı́rica,
denominada envelope (Atkinson, 1981). Essa banda é recomendada
em virtude dos resı́duos serem correlacionados. Espera-se os pontos
distribuı́dos de forma aleatória dentro da banda de confiança. Dis-
torções no gráfico podem ser causadas por observações aberrantes e
outras formas para o gráfico são indı́cios de afastamentos da normali-
dade dos erros.
(ii) Gráfico de t∗i contra valores ajustados ybi . Desde que Cov(r, y b ) = 0,
espera-se distribuição uniforme dos pontos conforma varia o valor ajus-
tado. Afastamentos dessa tendência são indı́cios de que a variância dos
erros não deve ser constante.
(iii) Gráfico de t∗i contra a ordem das observações para detectar (quando
fizer sentido) correlação temporal dos dados. Pode-se também aplicar
o teste de Durbin-Watson para avaliar se há correlação autoregressiva
positiva nos erros. Esse teste será discutido na Seção 17.
15
A suposição de normalidade dos erros é crucial para fazer inferências
quando o tamanho amostral n é pequeno ou moderado, contudo para n
grande tem-se pelo Teorema Central do Limite (TCL) a normalidade as-
sintótica de β
b desde que os erros tenham média zero e variância constante.
Assim, quando há indı́cios de afastamentos importantes da suposição de
normalidade dos erros pode-se tentar aplicar alguma transformaçao apro-
priada g(Y ) a fim de alcançar a normalidade mesmo que aproximadamente
(vide Exercı́cios 12 e 13). O incoveniente desse procedimento é que o novo
modelo estará explicando E{g(Y )} ao invés de E(Y ). Outra opção seria
aplicar modelos lineares generalizados, em que procura-se uma distribuição
apropriada para Y , porém tem-se em contrapartida a modelagem de E(Y ).
No caso da violação da suposição de variância constante para os erros, uma
primeira opção seria aplicar regressão linear ponderada (Seção 9) que fle-
xibiliza a variãncia dos erros sem comprometer os resultados da regressão
linear. Alternativamente, pode-se aplicar a modelagem dupla em que E(Y )
e Var(Y ) são modelados conjuntamente.
Para amostras pequenas e moderadas, quando há violação da suposição
de erros normais, pode-se aplicar procedimentos de reamostragem para es-
timação e inferência dos coeficientes da regressão (vide, por exemplo, Fox e
Weisberg, 2019).
16
Trabalhando um pouco a expressão acima chega-se ao seguinte resultado:
ri2 (n − p − 1)
F= = t∗2
i .
s2 (1 − hii )(n − p − t2i )
Portanto, para um nı́vel de significância α, rejeita-se H0 se |t∗i | > t(1−α/2),(n−p−1) .
17
confiança é construı́da usando o resultado abaixo
( )
b − β)> (X> X)(β
(β b − β)
P ≤ F(1−α),p,(n−p) = 1 − α.
ps2
β1
18
obtém-se
> −1 >
β (i) = {X(i) X(i) } X(i) y(i)
b
Como hii /(1−hii ) é uma função crescente de hii , então Di será grande se |ti |
e/ou hii forem (for) grande(s). Uma proposta de pontos suspeitos de serem
influentes, baseada na região de confiança para β, é destacar as observações
tais que Di ≥ F(1−α),p,(n−p) . Outras sugestões se baseiam em obter limites
superiores para a distância de Cook com base nas variações dos valores
amostrais da distância e que levem em conta o tamanho amostral. Sugere-
se destacar as observações tais que Di ≥ D̄ + kDP(Di ), para k = 2, 3, 4.
Deve-se aumentar o valor k à medida que aumenta o tamanho amostral.
Outra medida de influência proposta por Belsley et al. (1980), que é
derivada da distância de Cook com s2 substuı́do por s2(i) , é definida por
1
|ri | hii 2
DFFITSi = √
s(i) 1 − hii 1 − hii
1
∗ hii 2
= |ti | .
1 − hii
1
Sugere-se destacar as observações tais que DFFITSi ≥ 2{p/(n − p)} 2 . Essa
medida leva também em conta a influência das observações na estimativa de
σ 2 . Contudo, quando o interesse está apenas nos coeficientes da regressão
sugere-se utilizar apenas a distância de Cook.
19
Finalmente, pode haver interesse em estudar a influência das observações
em coeficientes especı́ficos da regressão. Por exemplo, se há interesse em ava-
liar a influência da eliminação da i-ésima observação no j-ésimo coeficiente
estimado da regressão, utiliza-se a seguinte medida de influência:
(βbj − βbj(i) )
DFBETASji = p
s(i) Cjj
C>j xi ri
= p
s(i) (1 − hii ) Cjj
pji t∗
= q √ i ,
p> pj 1 − hii
j
Variação Percentual
A variação percentual do j-ésimo coeficiente da regressão quando a i-ésima
observação não é considerada no ajuste é definido por
β̂(i)j − β̂j
∆ij = × 100%,
β̂j
20
Comparação com Observações não Destacadas
Um outro procedimento usual é comparar alguma medida resumo das ob-
servações suspeitas com a mesma medida resumo obtida de r amostras
aleatórias de tamanho m das observações não suspeitas. Por exemplo, pode-
se computar a medida
β̂(S)j − β̂j
MRCS = max .
1≤j≤p β̂j
Comparar MRCS com as r medidas, MRCN S 1 , . . . , MRCN S r , das r amostras
aleatórias de tamanho m extraı́das do grupo de observações não suspeitas.
Se MRCS for muito maior que max1≤j≤r MRCN S j é um indı́cio de que as
observações em S são discrepantes. Sugere-se utilizar que r ≥ 10.
21
Definindo Z = (X, ω) como matriz do modelo ampliado, mostra-se facil-
mente que a estimativa de mı́nimos quadrados de θ = (β > , γ)> fica expressa
na forma θ̂ = (ZT Z)−1 ZT y. Após algumas manipulações algébricas a es-
timativa de mı́nimos quadrados do coeficiente da variável adicionada fica
dada por
ω > (In − H)y
γ̂ =
ω > (In − H)ω
ω>r
= .
ω > (In − H)ω
Ou seja, γ̂ pode ser expresso como sendo o coeficiente da regressão linear
passando pela origem do vetor de resı́duos r = (In − H)y sobre o novo
resı́duo υ = (In − H)ω, dado por
γ̂ = (υ > v)−1 υ > r
= {ω > (In − H)(In − H)ω}−1 ω > (In − H)(In − H)y
ω > (In − H)y
= .
ω T (In − H)ω
Portanto, o gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação linear e quais observações que estão se desviando da mesma. Esse
gráfico, conhecido como gráfico da variável adicionada (ver, por exemplo,
Atkinson, 1985) pode revelar quais observações que estão influenciando (e
de que maneira) a inclusão da nova variável explicativa no modelo.
A sugestão é que seja construı́do para cada variável explicativa contı́nua
incluı́da de forma linear no modelo um gráfico da variável adicionada.
6.8 Aplicação
Para ilustrar um exemplo de regressão linear simples considere parte dos
dados descritos em Neter et al. (1996, p.449) referentes à venda no ano
anterior de um tipo de telhado de madeira em n = 26 filiais de uma rede de
lojas de construção civil. Apenas duas variáveis serão consideradas:
(i) Telhados: total de telhados vendidos (em mil metros quadrados) e
(ii) Nclientes: número de clientes cadastrados na loja (em milhares).
O interesse é explicar o número médio de telhados vendidos dado o número
de clientes cadastrados. Na Tabela 2 são apresentadas algumas medidas
resumo referentes às duas variáveis observadas.
22
Tabela 2: Medidas resumo referentes ao exemplo sobre venda de telhados.
0.004
300
250
0.003
Telhados Vendidos
Densidade
200
0.002
150
0.001
100
50
0.000
23
350
300
250
Telhados Vendidos
200
150
100
50
30 40 50 60 70
Clientes Cadastrados
yi = β1 + β2 Nclientesi + i ,
iid
em que yi denota o total de telhados vendidos na i-ésima filial e i ∼ N(0, σ 2 ),
para i = 1, . . . , 26. Nota-se pela Tabela 3 que o coeficiente estimado do
número de clientes é altamente significativo e o intercepto é significativo ao
nı́vel de 10%. Assim, para um aumento de 1000 clientes em qualquer filial
espera-se aumento de 4656 mil m2 de telhados vendidos.
24
3
2
2
1
1
Resíduo Studentizado
Resíduo Studentizado
0
0
−1
−1
−2
−2
−3
50 100 150 200 250 −2 −1 0 1 2
Valor Ajustado Quantil da N(0,1)
yi = β1 + β2 xi2 + β3 xi3 + i ,
25
6
0.15
10
0.10
Distância de Cook
0.05
0.00
0 5 10 15 20 25
Índice
350
10
300
300
250
250
Telhados Vendidos
Telhados Vendidos
200
200
6
150
150
100
100
50
50
30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados
400
250
300
200
Telhados Vendidos
Telhados Vendidos
200
150
100
100
50
0
0
−100
30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados
iid
enquanto xi3 representa valores observados de uma variável contı́nua e i ∼
N(0, σ 2 ), para i = 1, . . . , n.
Portanto, tem-se dois submodelos de regressão
• (Grupo A) yi = β1 + β2 + β3 xi3 + i
• (Grupo B) yi = β1 + β3 xi3 + i
27
EA(Y|x3)
β2 EB(Y|x3)
• (Grupo B) yi = β1 + β3 xi3 + i
28
Um maneira de representar essa variável explicativa num modelo de re-
gressão é atribuindo a cada grupo uma variável binária da seguinte forma:
29
em que y1 , . . . , yn denotam os valores observados da variável resposta, xi2 e
xi3 são valores de variáveis binárias representando os grupos B e C, respec-
iid
tivamente, e i ∼ N(0, σ 2 ), para i = 1, . . . , n. Quando xi2 = xi3 = 0 tem-se
o grupo A. A matriz modelo nesse caso fica dada por
1 0 0
.. .. ..
. . .
1 0 0
1 1 0
X = ... ... ... .
1 1 0
1 0 1
.. .. ..
. . .
1 0 1
EA(Y|x3)
EB(Y|x3)
β2 + β4x3
30
EC(Y|x4)
EB(Y|x4)
(β3 − β2)
EA(Y|x4)
β2
• (Grupo A) yi = β0 + β4 xi4 + i
• (Grupo B) yi = β0 + β2 + β4 xi4 + i
• (Grupo C) yi = β0 + β3 + β4 xi4 + i
31
EC(Y|x4)
EB(Y|x4)
β2 + β5x4
EA(Y|x4)
32
• (Grupo B) yi = β0 + β2 + β4 xi4 + β5 xi4 + i
8 Comparação de Médias
Uma aplicação de modelos de regressão linear com variáveis binárias é na
comparação das médias de k grupos. O modelo pode ser expresso na forma
yij = α + βi + ij ,
iid
em que ij ∼ N(0, σ 2 ), para i = 1, . . . , k e j = 1, . . . , ni , com a restrição
β1 = 0. O Grupo 1 é denominado casela de referência. Assim, tem-se os
valores esperados
• E(Y1j ) = α para j = 1, . . . , n1
• E(Yij ) = α + βi , para i = 2, . . . , k e j = 1, . . . , ni ,
e daı́ segue que βi é o incremento no valor médio do i-ésimo grupo com
relação ao valor médio do grupo 1, para i = 2, . . . , k. Testar a igualdade de
médias equivale a testar H0 : β2 = · · · = βk contra H1 : βj 6= 0 para pelo
menos algum j = 2, . . . , k.
Em forma matricial o modelo fica dado por
y = Xβ + ,
33
1 0 ... 0
.. .. .. ..
. . . .
1 0 ... 0
1 1 ... 0
.. .. .. ..
. . . .
X=
1
.
1 ... 0
.. .. .. ..
. . . .
1 0 ... 1
.. .. .. ..
. . . .
1 0 ... 1
A solução de mı́nimos quadrados leva às estimativas α b = ȳ1 e βbi = ȳi − ȳ1
para i = 1, . . . , k, com variâncias e covariâncias
σ2 σ2 σ2
2 1 1
Var(b
α) = , Var(βj ) = σ
b + , Cov(b α, βbj ) = − e Cov(βbj , βb` ) = ,
n1 nj n1 n1 n1
para j 6= ` = 2, . . . , k.
Tem-se a seguinte decomposição das somas de quadrados:
ni
k X
X
SQT = (yij − ȳ)2 ,
i=1 j=1
X ni
k X k
X
2
SQReg = yij − ȳ) =
(b ni (ȳi − ȳ)2 e
i=1 j=1 i=1
X ni
k X ni
k X
X
2
SQRes = (yij − ybij ) = (yij − ȳi )2 .
i=1 j=1 i=1 j=1
34
8.1 Comparações Múltiplas
Quando rejeita-se a hipótese nula deseja-se saber onde estão as diferenças
entre as médias dos
k grupos. As propostas mais conhecidas consistem em
k
construir m = 2 estimativas intervalares para as diferenças de médias, de
modo que cada estimativa intervalar tenha coeficiente de confiança (1 − α∗ )
sendo o coeficiente de confiança global (1 − α).
Pelo método de Bonferroni (recomendado para m pequeno) cada esti-
mativa intervalar deve ter coeficiente de confiança (1 − α∗ ), sendo dadas
por s
1 1
(ȳi − ȳj ) ± t(1−α∗ /2),(n−k) s2 + ,
ni nj
para i 6= j, em que α∗ = m α
, de modo que o coeficiente global de confiança
seja de pelo menos (1 − α).
O método de Tukey é o mais utilizado na prática por ter um nı́vel de
significância global mais próximo de (1 − α). As estimativas intervalares são
expressas na forma
s
s2 1
1
(ȳi − ȳj ) ± q(k, n − k) + ,
2 ni nj
8.2 Aplicação
Como ilustração serão considerados os dados referentes ao tempo de desloca-
mento (em minutos) antes de decolar de 184 aeronaves de 8 Cias Aéreas no
aeroporto EWR (Newark) no perı́odo 1999-2001 (Venzani, 2004, Exemplo
11.7), descritas abaixo
35
• UA, United Airlines
• US, US Airways.
AA CO DL HP NW TW UA US
Cia Aérea
36
Tabela 4: Estimativas dos parâmetros referentes ao modelo de comparação
dos tempos médios de deslocamento das Cias Aéreas.
37
deslocamentos médios das Cias Aéreas correspondentes. Por outro lado, há
13 estimativas intervalares que não cobrem o valor zero. Observando essas
estimativas intervalares nota-se que as Cias Aéreas NW e US são aqueleas
que mais diferem das demais no sentido de terem um tempo médio de des-
locamento menor do que as demais. Isso vai ao encontro dos resultados da
Tabela 4.
CO−AA
DL−AA
HP−AA
NW−AA
TW−AA
UA−AA
US−AA
DL−CO
HP−CO
NW−CO
TW−CO
UA−CO
US−CO
HP−DL
NW−DL
TW−DL
UA−DL
US−DL
NW−HP
TW−HP
UA−HP
US−HP
TW−NW
UA−NW
US−NW
UA−TW
US−TW
US−UA
−10
−5
38
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip são
ind
valores observados de variáveis explicativas e i ∼ N(0, σi2 ), com σi2 = σ 2 ωi
e ωi > 0 (conhecido), para i = 1, . . . , n. A soma dos quadrados dos erros
(função objetivo) fica nesse caso expressa na forma
n
X
S(β) = ωi−1 (yi − x> 2
i β) ,
i=1
∂S(β)
= X> V−1 (y − Xβ),
∂β
que igualando a zero leva à seguinte solução de de mı́nimos quadrados pon-
derados:
b = (X> V−1 X)−1 X> V−1 y.
β
Denotando βb = AY, em que A = (X> V−1 X)−1 X> V−1 , tem-se a seguinte
propriedade:
E(β)
b = E(AY|X) = AE(Y|X)
= (X> V−1 X)−1 X> V−1 Xβ
= β.
b é um estimador não tendencioso de β. Desde que Var(Y|X) = σ 2 V,
Logo, β
segue a propriedade
b = Var(AY|X) = AVar(Y|X)A>
Var(β)
= σ 2 (X> V−1 X)−1 X> V−1 VV−1 X(X> V−1 X)−1
= σ 2 (X> V−1 X)−1 ,
b ∼ Np (β, σ 2 (X> V−1 X)−1 ).
e portanto β
As somas de quadrados ponderadas ficam expressas nas formas
n
X n
X n
X
SQT = ωi−1 (yi −ȳ)2 , SQReg = ωi−1 (b
yi −ȳ)2 e SQRes = ωi−1 (yi −b
yi )2 .
i=1 i=1 i=1
39
Similarmente ao caso homocedástico é possı́vel mostrar que s2 = SQRes
(n−p) é
2
um estimador não tendencioso de σ . Continuam valendo a decomposição
2
das somas de quadrados e as interpretações do R2 e R .
É possı́vel mostrar que o acréscimo na soma de quadrados de resı́duos
no modelo linear ponderado (5), devido às restrições lineares Rβ = 0, pode
ser expresso na forma
b > {R(X> V−1 X)−1 R> }−1 Rβ,
ASQ(Rβ = 0) = (Rβ) b
ASQ(Rβ = 0)/r H0
F= ∼ Fr,(n−p) .
SQRes/(n − p)
40
9.2 Aplicação
Como ilustração considere parte dos dados de um experimento desenvolvi-
mento em 2006 nas Faculdades de Medicina e de Filosofia, Letras e Ciências
Humanas da USP e analisado no Centro de Estatı́stica Aplicada do IME-
USP (CEA0P16) para avaliar o fluxo da fala de falantes do Português Brasi-
leiro segundo o gênero, idade e escolaridade. Uma amostra de 595 indivı́duos
residentes na cidade de São Paulo com idade entre 2 e 99 anos foi avaliada
segundo a fala auto-expressiva. O indivı́duo era apresentado a uma figura e
orientado a discorrer sobre a mesma durante um tempo mı́nimo de 3 minu-
tos e máximo de 6 minutos. Para crianças de 2 e 3 anos, as amostras foram
obtidas com a colaboração dos pais. As variáveis consideradas no estudo fo-
ram as seguintes: (i) idade (em anos), (ii) gênero (1:feminino, 2:masculino),
(iii) interj (número de interjeições durante o discurso), (iv) fpm (fluxo de
palavras por minuto) e (v) fsm (fluxo de sı́labas por minuto).
200
150
Fluxo de Palavras
100
50
41
constante da resposta fpm à medida que aumenta fsm. Isso sugere um mo-
delo linear simples entre fpm e fsm. Nas Tabelas 6 e 7 tem-se as estimativas
dos parâmetros do modelo
fpmi = β1 + β2 fsmi + i ,
iid ind
em que i ∼ N(0, σ 2 ) ou i ∼ N(0, ωi σ 2 ) com ωi = fsmi , respectivamente,
para i = 1, . . . , 594. Nota-se uma redução na estimativa do intercepto e
aumento do coeficiente de determinação sob o modelo linear ponderado.
Há também um controle melhor da variabilidade sob esse modelo (Figura
18) e melhora na qualidade do ajuste (Figura 19). As três observações que
aparecem destacadas como pontos aberrantes afetam muito pouco as esti-
mativas quando são excluı́das. Outros procedimentos para aprimoramento
do controle da variabilidade poderiam ser aplicados, como por exemplo a
modelagem dupla da média e variância.
10 Ortogonalidade
Supor novamente o modelo de regressão linear múltipla
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip
iid
são valores observados de variáveis explicativas e i ∼ N(0, σ 2 ). Tem-se
ortogonalidade entre as colunas da matriz modelo X se
n
X
xij xi` = 0, ∀j 6= ` = 1, . . . , p,
i=1
42
Tabela 7: Estimativas dos parâmetros referentes ao modelo de regressão
linear simples ponderado ajustado aos dados sobre fluxo da fala de falantes
do Português Brasileiro.
8
6
6
4
Residuo Studentizado
Residuo Studentizado
4
2
2
0
0
−2
−2
43
8
6
6
4
4
Residuo Studentizado
Residuo Studentizado
2
2
0
0
−2
−2
−4
−4
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)
gonalidade que
n
X n
X Xn n
X
> >
X X = diag{ x2i1 , . . . , x2ip } e X y=( xi1 yi , . . . , xip yi )> ,
i=1 i=1 i=1 i=1
Pn
xij yi
Logo, βbj = Pi=1
n 2 depende apenas dos valores y1 , . . . , yn e de x1j , . . . , xnj ,
i=1 xij
para j = 1, . . . , p. Ou seja, dos valores da variável resposta e da variável
explicativa Xj .
44
Além disso, a matriz de variância-covariância para β
b fica dada por
2
Pnσ 2
··· 0
i=1 xi1
b = σ 2 (X> X)−1 =
.
.. .
.. ..
Var(β) . .
σ 2
0 · · · P n x2
i=1 ip
2
Portanto, Var(βbj ) = Pnσ e Cov(βbj , βb` ) = 0, para j 6= ` e j, ` = 1, . . . , p.
i=1 x2ij
Tem-se independência mútua entre os estimadores dos coeficientes.
11 Multicolinearidade
Multicolinearidade é o oposto da ortogonalidade. Ocorre quando há uma
alta correlação linear entre variáveis explicativas e consequentemente en-
tre os estimadores dos coeficientes da regressão linear múltipla. Uma con-
sequência prática é que det(X> X) ∼ = 0. Agumas fontes de multicolineari-
dade são as seguintes:
• Especificação do modelo
No modelo são incluı́dos vários termos que estão em função de uma
mesma variável explicativa. Por exemplo, numa regressão polinomial
em que são incluı́dos termos x + x2 + x3 + · · · .
• Modelo superdimensionado
Estudos com amostras pequenas e uma grande quantidade de variáveis
explicativas. Por exemplo, na área médica em geral tem-se amostras
pequenas com uma grande quantidade de informações por paciente.
45
11.1 Efeitos da Multicoliearidade
Para ilustrar considere o seguinte modelo de regressão linear múltipla:
yi = β1 xi1 + β2 xi2 + i ,
e dependem das correlações lineares r12 , r1y e r2y . Além disso, a matriz de
variância-covariância para β
b assume a forma
σ2 σ 2 r12
2 − 2
b = σ 2 (X> X)−1 = (1−r2 12 )
Var(β) (1−r12 )
.
σ r12 σ2
− (1−r 2 ) (1−r2 )
12 12
σ2 σ 2 r12
Ou seja, Var(βb1 ) = Var(βb2 ) = 2 )
(1−r12
e Cov(βb1 , βb2 ) = − (1−r 2 ) . E tem-se as
12
seguintes consequências:
46
11.2 Procedimentos para Detectar Multicolinearidade
Fator de Inflação da Variância
É possı́vel mostrar que
em que Cj` denota o (j, `)-ésimo elemento da matriz C = (X> X)−1 e R2j
denota o coeficiente de determinação da regressão linear da variável expli-
cativa Xj contra as demais variáveis explicativas X` , em que j 6= `, para
j, ` = 1, . . . , p. O fator de inflação de variância da j-ésima variável explica-
tiva é definido por
VIFj = (1 − R2j )−1 .
Assim, se R2j → 1 então VIFj → ∞, para j = 1, . . . , p. Para ilustrar,
supor três variáveis explicativas X1 , X2 e X3 cujos valores amostrais têm
comprimento unitário. Os VIFs saem das seguintes regressões:
Número da Condição
Sejam λ1 , . . . , λp os autovalores da matrix X> X. Como é uma matriz
simétrica positiva definida todos os seus autovalores são não negativos. Con-
tudo, a existência de autovalores próximos de zero é indı́cio de multicoline-
aridade. Uma medida resumo de multicolinearidade entre as colunas da
matriz X é o número da condição definido por
λmax
k= .
λmin
Portanto, se esta razão é muito grande há indı́cios de multicolinearidade
com a matriz X> X.
Critério: (i) se k ≤ 100 não há indı́cios de multicolinearidade, (ii) se
100 < k ≤ 1000 há indı́cios moderados de multicolinearidade e (iii) se k >
1000 há indı́cios fortes de multicolinearidade.
47
Índice da Condição
Quando há indı́cios de multicolinearidade através do número da condição,
pode-se avaliar a contribuição de cada variável explicativa através do ı́ndice
da condição definido por
λmax
kj = ,
λj
para j = 1, . . . , p. Os mesmos critérios usados para o número da condição
são usados para o ı́ndice da condição.
0 ≤ det(X> X) ≤ 1.
• Regressão ridge.
Regressão ridge
O objetivo da regressão ridge é utilizar um estimador tendencioso que pro-
duza variâncias mais estáveis para os estimadores dos coeficientes da re-
gressão. Assim, seja βb ∗ um estimador tendencioso de β. Mostra-se que o
erro quadrático médio de βb ∗ pode ser expresso na forma
b ∗ ) = Var(β
EQM(β b ∗ ) + [Viés][Viés]> ,
48
em que Viés = E(β b ∗ )−β. A fim de estabilizar as estimativas dos coeficientes
da regressão linear múltipla bem com as respectivas variâncias é proposto o
seguinte estimador:
b = (X> X + kIp )−1 X> y,
β R
^
βR1
1.0
Coeficientes
0.5
^
βR2
0.0
^
βR3
^
βR4
• E(β
b ) = E(Zk β)
R
b = Zk E(β)
b = Zk β.
• Var(β
b ) = Var(Zk β) b > = σ 2 Zk (X> X)−1 Z> .
b = Zk Var(β)Z
R k k
49
estimador ridge fica mais tendencioso havendo um encolhimento com relação
ao estimador de mı́nimos quadrados. A variância diminui com o aumento
de k.
Tem-se ainda que β b ∼ Np (E(β b ), Var(β b )). Daı́ segue que βbR são
R R R j
σ2
pb
k (m+1) = ,
b > (k (m) )β
β b (k (m) )
R R
y = Zα + ,
50
com matriz de variância-covariância expressa na forma
b = σ 2 (Z> Z)−1
Var(α)
= σ 2 Λ−1 .
Daı́ segue que Var(b αj ) = σ 2 λ−1
j . Assim, λj próximo de zero inflaciona a
variância de α
bj . Similarmente, segue que a matriz de variância-covariância
de β
b pode ser expressa na forma
Var(β)
b = Var(Tα)
b
b >
= TVar(α)T
= σ 2 TΛ−1 T> .
E daı́ pode-se mostrar que Var(βbj ) = σ 2 p`=1 t2j` /λ` , em que tj` denota
P
o (j, `)-ésimo elemento da matriz T. Esse resultado confirma o efeito de
autovalores próximos de zero na inflação da variância de βbj .
A partir da relação β
b = Tα,b a proposta da regressão dos componentes
principais é considerar os coeficientes estimados
b CP = Tα
β b CP ,
em que α b CP é um vetor p × 1 que contém os coeficientes estimados cor-
respondentes aos p − s maiores autovalores da matriz X> X e os demais
s coeficientes como sendo iguais a zero. Assim, os novos coeficientes esti-
mados βb1CP , . . . , βbpCP irão depender apenas das variáveis explicativas com
menor potencial de estarem causando multicolinearidade. Esses coeficients
estimados são interpretados de forma similar aos coeficientes estimados por
mı́nimos quadrados. Pp
Da relação Z = XT segue que Zj = `=1 X` t`j , em que Z1 , . . . , Zp
e X1 , . . . , Xp denotam, respectivamente, as colunas de Z e X, enquanto
t1j , . . . , tpj denotam os componentes do autovetor correspondente ao auto-
valor λj . Assim, se λj for próximo de zero os componentes de Zj devem ser
aproximadamente constantes. Deve-se portanto escolher os p − s componen-
tes principais Z1 , . . . , Z(p−s) que correspondem aos p−s maiores autovalores.
11.4 Aplicação
Como ilustração para o tópico de multicolinearidade será analisado um con-
junto de dados proposto em Montgomery et al. (2021, Tabela B.21) em que
o calor (em calorias por grama) de n = 13 amostras de cimento é relacionado
com as seguintes variáveis explicativas referentes a ingredientes usados na
mistura do cimento:
51
• X1 : aluminato tricálcico
• X2 : silicato tricálcico
• X3 : aluminato-ferrita tetracálcico
• X4 : silicato dicálcico.
Calor X1 X2 X3 X4
Calor 1,00 0,73 0,82 -0,54 -0,82
X1 1,00 0,23 -0,82 -0,25
X2 1,00 -0,14 -0,97
X3 1,00 0,03
X4 1,00
52
110
100
Calor do Cimento
90
80
53
110
110
100
100
Calor do Cimento
Calor do Cimento
90
90
80
80
5 10 15 20 30 40 50 60 70
Aluminato Tricálcico Silicato Tricálcico
110
110
100
100
Calor do Cimento
Calor do Cimento
90
90
80
80
5 10 15 20 10 20 30 40 50 60
Aluminato−ferrita Tetracálcico Silicato Dicálcico
54
Tabela 10: Fator de inflação da variância das variáveis explicativas do mo-
delo de regressão linear ajustado aos dados sobre o calor do cimento em
amostras de cimento.
Variável VIF
cx1 38,49
cx2 254,42
cx3 46,87
cx4 282,51
2
1
1
Resíduo Studentizado
Residuo Studentizado
0
0
−1
−1
−2
−2
−3
55
T1 T2 T3 T4
-0,067800 0,646018 -0,567315 0,506180
-0,678516 0,019993 0,543969 0.493268
0,029021 -0,755310 -0,403554 0,515567
0,730874 0,108480 0,468398 0,484416
0.35
8
0.30
0.25
Distância de Cook
0.20
0.15
0.10
0.05
0.00
2 4 6 8 10 12
Índice
12 Seleção de Modelos
A seleção de modelos consiste em uma etapa importante e também complexa
na análise de regressão, principalmente quando há um grande número de
56
variáveis explicativas candidatas a entrarem no modelo. O fato das variáveis
explicativas em geral estarem correlacionadas dificulta a seleção de um sub-
conjunto de coeficientes que além de serem significativos sejam de fácil in-
terpretação. Sabe-se que a omissão de coeficientes significativos pode levar
a estimativas tendenciosas para os demais coeficientes da regressão. Assim,
a seleção de modelos pode ser considerado um procedimentos que envolve
técnica e bom senso. Nesta seção serão apresentados alguns procedimentos
tradicionais de seleção de modelos em regressão linear múltipla.
Maior R2k
Seja R2k o coeficiente de determinação de um submodelo com k coeficientes
((k − 1) variáveis explicativas + intercepto), definido por
SQReg(k)
R2k =
SQT
SQRes(k)
= 1− .
SQT
Esse critério procura um submodelo com R2k alto e k pequeno (vide Figura
2
25). Alternativamente, denote por Rk o coeficiente de determinação ajus-
tado do submodelo com k coeficientes. Tem-se que
2 (n − 1)
Rk = 1 − (1 − R2k ) .
(n − k)
2
Pode-se adotar como critério a escolha de um submodelo com Rk alto e k
2
pequeno. Contudo, Rk não necessariamente cresce com k.
57
Coeficiente de Determinação
Menor s2k
Seja s2k o erro quadrático médio de um submodelo com k, sendo denotado
por
SQRes(k)
s2k = .
n−k
Esse critério procura um submodelo com s2k pequeno e k pequeno. Conforme
descrito pela Figura 26 nem sempre o erro quadrático médio decresce com
o aumento do número de coeficientes.
Mostra-se que
2 (n − 1)
Rk = 1 − (1 − R2k )
(n − k)
(n − 1) SQReg(k)
= 1− 1−
(n − k) SQT
(n − 1) SQRes(k)
= 1−
(n − k) SQT
(n − 1) 2
= 1− s .
SQT k
58
Erro Quadrático Médio
2
Assim, minimizar s2k é equivalente a maximizar Rk .
Critério de Mallows
Um outro método, conhecido como critério de Mallows, está relacionado com
o erro quadrático médio do i-ésimo valor ajustado Ybi do submodelo com k
coeficientes
59
Pn b = kσ 2 obtém-se
Usando o resultado i=1 Var(Yi )
{Viés(k)}2
EQM(k) = + k.
σ2
Por outro lado
E{SQRes(k)}
EQM(k) = − n + 2k.
σ2
Deve-se escolher submodelos com EQM(k) pequeno.
A estatı́stica Ck de Mallows é definida por
SQRes(k)
Ck = − n + 2k,
b2
σ
b2 deve ser obtido de um modelo bem ajustado. Sob viés zero tem-se
em que σ
que
(n − k)σ 2
E(Ck |Viés = 0) = − n + 2k = k.
σ2
Portanto, deve-se escolher submodelos com Ck pequenos tais que Ck ∼ = k.
Para um mesmo k, submodelos com Ck < k têm uma SQRes menor, en-
quanto submodelos com Ck > k têm uma SQRes maior.
Na Figura 27 são ilustrados 3 submodelos hipóteticos, A, B e C. O sub-
modelo A é o pior submodelo, tem Ck alto e viés alto. O submodelo B tem
um Ck menor e viés pequeno. Já o submodelo C tem um viés um pouco
maior do que o submodelo B, porém um Ck bem menor, assim poderia ser
o submodelo escolhido.
Critério Press
Finalmente, tem-se o critério Press que consiste em escolher o submodelo
com o menor valor para a estatı́stica
n
X
Pressk = {yi − yb(i) }2 ,
i=1
60
A
Ck = k
B
Estatística de Mallows
61
Assim, a fim de selecionar um submodelo usando os critérios: R2k maior,
s2K menor, Ck ∼ = k e pequeno e menor Pressk , deve-se ajustar todas as
T = 2(p−1) regressões possı́veis e selecionar um submodelo seguindo os 4
critérios descritos.
AICk = −2L(θ)
b + 2k,
BICk = −2L(θ)
b + k log(n).
SQRes
Para a regressão linear múltipla tem-se que BICk = n log n +k log(n).
Método LASSO
O método LASSO é utilizado para a seleção de variáveis explicativas (na
forma padronizada) eliminando coeficientes da regressão cujas estimativas
estejam próximas de zero. No contexto de mı́nimos quadrados o método é
equivalente a minimizar a função abaixo
n
X p
X
S(β, λ) = (yi − x> 2
i β) + λ |βj |,
i=1 j=2
62
Critério Forward
Passo 1
Ajustar todas as regressões possı́veis com apenas 1 variável explicativa. Isto
é, ajustar as regressões
yi = β1 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 2, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =
SQReg(xj ) H0
Fj = ∼ F1,(n−2) .
s2 (xj )
Passo 2
Ajustar todas as regressões possı́veis com apenas X2 mais uma variável
explicativa. Isto é, ajustar as regressões
yi = β1 + β2 xi2 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 3, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =
SQReg(xj |x2 ) H0
Fj = ∼ F1,(n−3) .
s2 (x2 , xj )
Passo 3
Ajustar todas as regressões possı́veis com apenas X2 e X3 mais uma variável
explicativa. Isto é, ajustar as regressões
63
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 4, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =
SQReg(xj |x2 , x3 ) H0
Fj = ∼ F1,(n−4) .
s2 (x2 , x3 , xj )
Critério Backward
Passo 1
Ajustar a regressão com todas as variáveis explicativas. Isto é, ajustar o
seguinte modelo:
yi = β1 + β2 xi2 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p) .
s2 (x2 , . . . , xp )
Passo 2
Ajustar a regressão sem a variável explicativa X2 . Isto é, ajustar o seguinte
modelo:
yi = β1 + β3 xi3 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p−1) .
s2 (x3 , . . . , xp )
64
Critério Stepwise
O critério stepwise é uma combinação dos critérios forward e backward.
Passo 1
Ajustar todas as regressões com apenas uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X2 entrou no modelo.
Passo 2
Ajustar todas as regressões com X2 mais uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X3 entrou no modelo. Verificar se X2 sai do modelo dado que X3 está
no modelo.
Passo 3
O processo stepwise deve continuar até que não seja possı́vel incluir nenhuma
variável no modelo, nem retirar nenhuma variável do modelo.
Critérios de Parada
Não há um consenso na área de regressão a respeito de critérios de parada
para os processos sequenciais. Alguns critérios mais utilizados:
65
uma análise de diagnóstico e levar em conta aspectos como a importância,
custo e facilidade de interpretação das variáveis explicativas, bem como da
capacidade de predição do modelo.
Os métodos sequenciais forward, backward e stepwise são recomendados
quando há um número médio ou alto de variáveis explicativas, contudo exi-
gem os nı́veis de significância de entrada e saı́da das variáveis explicativas.
Já os métodos de Akaike e de Schwartz são mais recomendados quando há
um grande número de variáveis explicativas no sentido de se fazer uma pré-
seleção de variáveis sem a necessidade de estabelecer nı́veis de significância.
Todos os métodos sequencias podem ser combinados com o ajuste de todas
as regressões possı́veis.
A seleção de modelos pode ficar mais complexa quando há interesse em
selecionar variáveis explicativas que estejam relacionadas no sentido causa-
efeito com a resposta, como ocorre por exemplo na área médica. Nesses
casos, os algoritmos em geral são combinações de procedimentos sequenciais
com procedimentos que procuram evitar a eliminação precoce de variáveis
explicativas potenciais no sentido causa-efeito. Em Dunkler et al. (2014)
há uma proposta de algoritmo hı́brido que combina o procedimento de eli-
minação backward com procedimentos que levam em conta o efeito da eli-
minação de variáveis explicativas nos coeficientes das variáveuis mantidas
no modelo.
13 Aplicações
13.1 Venda de Telhados
Considere novamente os dados descritos em Neter et al. (1996, p.449) re-
ferentes à venda no ano anterior de um tipo de telhado de madeira em
n = 26 filiais de uma rede de lojas de construção civil, agora com as seguin-
tes variáveis:
(iii) Gastos: gastos pela loja com promoções do produto (em mil USD),
66
O interesse é explicar o número médio de telhados vendidos dadas as de-
mais variáveis. Na Tabela 12 tem-se as estimativas da correlação linear de
Pearson entre as variáveis do exemplo vendas de telhados. Nota-se uma
baixa correlação entre telhados e gastos, altas correlações entre telhados
com número de clientes e marcas e uma correlação moderada com potencial
da loja. Entre as variáveis explicativas nota-se correlações baixas, exceto
uma correlação moderada entre número de clientes e potencial da loja. As
correlações descritas na Tabela 12 estão coerentes com os diagramas de dis-
persão apresentados nas Figuras 28 e 29.
350
300
300
250
250
Telhados Vendidos
Telhados Vendidos
200
200
150
150
100
100
50
50
30 40 50 60 70 3 4 5 6 7 8 9
Clientes Cadastrados Gastos
67
350
350
300
300
250
250
Telhados Vendidos
Telhados Vendidos
200
200
150
150
100
100
50
50
4 6 8 10 12 5 10 15
Marcas Concorrentes Potencial da Loja
68
Tabela 13: Medidas resumo dos 16 submodelos para explicar o número médio
de telhados vendidos, em que T:Telhados, G:Gastos, N:Nclientes, M:Marcas,
P:Potencial e k denota o número de parâmetros.
69
Tabela 15: Estimativas referentes ao submodelo 1 + G + N + M.
70
3
3
2
2
1
1
Resíduo Studentizado
Resíduo Studentizado
0
0
−1
−1
−2
−2
−3
−4
−3
−2 −1 0 1 2 −2 −1 0 1 2
Percentil da N(0,1) Percentil da N(0,1)
2
2
1
Resíduo Studentizado
Resíduo Studentizado
1
0
0
−1
−1
−2
−2
−3
−3
50 100 150 200 250 300 350 50 100 150 200 250 300 350
Valor Ajustado Valor Ajustado
71
0.35
8 8
0.25
0.30
21
21
0.25
0.20
Distância de Cook
Distância de Cook
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
72
170
160
150
Salario
140
130
120
110
Feminino Masculino
0.025
0.025
0.020
0.020
Densidade
Densidade
0.015
0.015
0.010
0.010
0.005
0.005
0.000
0.000
Salário Anual (em mil USD) Salário Anual (em mil USD)
Figura 34: Densidade do salário anual dos executivos (esquerda) e das exe-
cutivas (direita).
73
Tabela 17: Descrição dos salários médios anuais com os respectivos erros
padrão e do teste-t de igualdede de médias.
25
8
20
6
Experiencia
15
Posicao
10
5
2
74
Feminino Masculino
170
170
160
160
150
150
Salário
Salário
140
140
130
130
120
120
2 4 6 8 110 2 3 4 5 6 7 8 9
Posição Posição
Feminino Masculino
170
170
160
160
150
150
Salário
Salário
140
140
130
130
120
120
110
5 10 15 20 5 10 15 20 25
Experiência Experiência
75
As estimativas referentes ao modelo (6) estão descritas na Tabela 18 e
pode-se notar que todos os efeitos são marginalmente significativos. Em par-
ticular, nota-se que à medida que aumenta a posição na empresa espera-se
maior salário, fixados os demais efeitos. A experiência, segundo o modelo
ajustado, à medida que aumenta tende a reduzir o salário médio e as execu-
tivas, quando comparadas com os executivos nos mesmos nı́veis de posição e
experiência, têm um salário esperado maior. Esses resultados parecem con-
tradizer parte da análise descritiva, contudo são interpretações diferentes.
A análise descritiva faz comparações marginais, enquanto a análise de re-
gressão leva em conta todas as variáveis conjuntamente. Segundo as análises
de resı́duos (omitidas aqui) o modelo está bem ajustado, porém Foster et
al.(1998) sugerem a inclusão de interações para agregar mais interpretações.
76
yi = β1 + β2 gêneroi + β3 experiênciai + β4 posiçãoi +
+γexperiênciai ∗ posiçãoi + i , (7)
iid
em que yi denota o salário do i-ésimo executivo da amostra com i ∼
N(0, σ 2 ), para i = 1, . . . , 220. Na Tabela 20 são apresentadas as estima-
tivas do ajuste do modelo (7) aos dados sobre salário de executivos. Nota-se
confirmação da inclusão da interação entre experiência e posição, contudo o
efeito principal de experiência ficou não significativo. Não houve variações
importantes nos coeficientes de determinação, indicando que a qualidade
do ajuste permanece a mesma. Confirma-se pela estimativa do coeficiente
de gênero que as executivas ganham em média mais do que os executivos,
fixando-se os nı́veis de posição e experiência.
77
4
2
2
Resíduo Studentizado
Resíduo Studentizado
0
−2
−2
−3 −2 −1 0 1 2 3
120 130 140 150 160
Percentil da N(0,1) Valor Ajustado
Figura 38: Análise de resı́duos referente ao modelo (7) ajustado aos dados
sobre salário de executivos.
30
0.05
4
0.04
144
Distância de Cook
0.03
0.02
0.01
0.00
78
180
160
9
Salário Predito
8
7
6
140
5
4
3
2
1
120
0 5 10 15 20 25
Esperiência no Cargo
9
Salário Predito
8
7
140
6
5
4
3
2
120
0 5 10 15 20 25
Esperiência no Cargo
79
cutivas e executivos, conforme variam a experiência e a posição. Nota-se
que o salário predito para as executivas é sempre maior do que o salário
predito para os executivos, fixados os nı́veis de experiência e posição. Para
ambos os grupos o salário tende a crescer com o aumento do tempo no cargo
nas posições iniciais 1 e 2. Contudo, nas demais posições o salário tende a
decrescer com o aumento do tempo no cargo. Fixando-se a experiência o
salário aumenta à medida que aumenta a posição. Todavia, a diferença sa-
larial entre duas posições quaisquer tende a diminuir à medida que aumenta
a experiência. Portanto, uma conclusão que pode-se extrair da interação
entre posição e experiência é que não vale a pena do ponto de vista salarial
ficar muito tempo no mesmo cargo.
yi = f (xi ) + i ,
80
14
12
Voltagem
10
8
0 5 10 15 20
Tempo
(x − t)r se x > t
r
(x − t)+ =
0 se x ≤ t,
81
modelo de regressão linear seria dado por
yi = β0 + β1 xi + γ(xi − t)+ + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 , a matriz modelo fica dada por
1 x1 0
.. .. ..
. . .
1 xs 0
X= .
1 x s+1 (x s+1 − t)
.. .. ..
. . .
1 xn (xn − t)
f (x) = β0 + β1 x + β2 x2 + β3 x3 + γ3 (x − t)3+ .
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 a matriz modelo fica dada por
x21 x23
1 x1 0
.. .. .. .. ..
. . . . .
2 3
1 x s x s x s 0
X= 1 xs+1 x2 3
.
s+1 x s+1 (xs+1 − t)3
.. .. .. .. ..
. . . . .
1 xn x2n x3n (xn − t)3
82
Generalizando, para h pontos de mudança t1 < t2 < · · · < th a função
cúbica fica dado por
h
X
2 3
f (x) = β0 + β1 x + β2 x + β3 x + γ` (x − t` )3+ .
`=1
x21 x31
1 x1 0 0
.. .. .. .. .. ..
. . . . . .
x2r x3r
1 xr 0 0
1
xr+1 x2r+1 x3r+1 (xr+1 − t1 )3 0
X = ... .. .. .. .. ..
,
. . . . .
1
xs x2s x3s (xs − t1 )3 0
1
xs+1 x2s+1 x3s+1 (xs+1 − t1 )3 3
(xs+1 − t2 )
.. .. .. .. .. ..
. . . . . .
1 xn x2n x3n (xn − t1 )3 (xn − t2 )3
83
14
12
Voltagem
10
8
0 5 10 15 20
Tempo
15 Métodos Robustos
Quando aparecem observações suspeitas de serem atı́picas (alavanca, aber-
rante ou influente) num ajuste de regressão, deve-se através de algum pro-
cedimento de análise confirmatória verificar se de fato essas observações são
mesmo atı́picas. O procedimento mais utilizado é avaliar o impacto dessas
observações nos coeficientes estimados da regressão através, por exemplo, de
comparações com observações não destacadas como atı́picas. Se for confir-
mado que as observações suspeitas de serem atı́picas apresentam variações
desproporcionais nos coeficientes estimados da regressão ou causam mu-
danças inferencias, deve-se inicialmente tentar amenizar ou mesmo eliminar
esses impactos sem mudar o procedimento de estimação. Contudo, quando
84
3
3
2
2
Resíduo Studentizado
Resíduo Studentizado
1
1
0
0
−1
−1
−2
−3
−2
−2 −1 0 1 2 8 10 12 14
Quantil da N(0,1) Valor Ajustado
85
16
14
12
Voltagem
10
8
6
0 5 10 15 20
Tempo
Figura 45: Curva ajustada pela regressão por partes (8) aos dados sobre a
queda de tensão da bateria de um motor de mı́ssil.
15.1 Estimadores-M
Considere o modelo de regressão linear
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que i , para i = 1, . . . , n, são variáveis aleatórias independentes de média
zero e variância σ 2 . Note que está sendo relaxada a suposição de erros
normais. Os estimadores-M são obtidos através da minimização de funções
do tipo
Xn
Sρ (β) = ρ(i ), (9)
i=1
em que i = yi − x>
i β,
para i = 1, . . . , n e ρ() é uma função diferenciável
em β. Dependendo da escolha da função ρ() e da distribuição dos erros, a
86
minimização de (9) pode levar ao estimador de máxima verossimilhança. Por
2
exemplo, se ρ() = 2 (erros normais), tem-se em (9) o estimador de máxima
verossimilhança (mı́nimos quadrados). Esse estimador é conhecido como
estimador L2 . Quando ρ() = || 2 a minimização de (9) leva ao estimador de
máxima verossimilhança da distribuição exponencial dupla ou distribuição
de Laplace. O estimador obtido nesse caso é conhecido como estimador L1 .
Um dos estimadores mais conhecidos em métodos robustos é o estimador
de Huber que é uma mistura entre os estimadores L1 e L2 , sendo definido
por
1 2
2 para || ≤ c
ρ() =
c{|| − 2c } para || > c,
em que c > 0 é uma consante apropriada. Quando c → ∞ tem-se o estimador
L2 e quando c → 0 tem-se o estimador L1 . Outros estimadores robustos,
tais como estimadores de Ramsay, de Andrews ou de Hampel são descritos
em Montgomery et al. (2021, Cap. 15).
15.2 Estimação
Um problema com a minimização de (9) é que a solução pode não ser inva-
riante com mudanças de escala dos regressores. Ou seja, se os regressores
forem multiplicados por constantes a solução pode não continuar sendo a
mesma. Assim, uma solução proposta é considerar no lugar de (9) a se-
guinte função objetivo:
Xn
Sρ (β) = ρ(zi ), (10)
i=1
i
em que zi = s, com s sendo uma estimativa robusta de escala de modo que
a solução em (10) seja invariante com mudanças de escala nos regressores.
Uma escolha bastante conhecida para s é o desvio absoluto da mediana (vide
Montogomery et al., 2021, Cap. 15) defindo por
87
Definindo ψ(z) = ρ0 (z) = dρ(z)/dz, então para cada componente βj tem-se
o seguinte:
∂Sρ (β)
Uβj =
∂βj
n
X dρ(zi ) ∂zi
=
dzi ∂βj
i=1
n
X
= − xij ψ(zi )/s
i=1
Xn
= − xij ωi (yi − x>
i β),
i=1
88
em que ŝ é a estimativa robusta de escala. As estimativas assintóticas das
variâncias e covariâncias de β
b devem ser extraı́das de (11).
0
−1
89
ψ(z)
0
−c
−c 0 c
15.4 Pesos
Os pesos ωi0 s, que são estimados através do processo iterativo de mı́nimos
qudrados reponderados, indicam a importância de cada observação no pro-
cesso de estimação. Esses pesos agora são estimados ao invés de serem
prédeterminados como no caso da regressão linear ponderada (Seção 9).
90
Por exemplo, na regressão L2 os pesos ficam dados por
(yi − x>
i β)/s
ωi = >
= 1, ∀i.
(yi − xi β)/s
Logo, todas as observações recebem o mesmo peso. Na regressão L1 os pesos
assumem a forma
sinal(yi − x>i β)/s
ωi = >
(yi − xi β)/s
= 1/|yi − x>
i β|,
para i = 1, . . . , n. Nesse caso os pesos são uma mistura entre os pesos das
regressões L1 e L2 . Portanto, tem-se que os estimadores L1 e de Huber são
resistentes a observações aberrantes.
15.5 Aplicação
Como ilustração neste tópico considere o exemplo descrito em Montgomery
et al. (2021, Cap.2) em que uma engarrafadora de refrigerantes está anali-
sando o serviço de abastecimento das máquinas de refrigerantes atendidas
pela empresa. O serviço de abastecimento inclui o estoque das garrafas nas
máquinas e pequenas manutenções feitas pelo próprio motorista do veı́culo
com os carregamentos. O engenheiro industrial responsável pela logı́stica da
distribuição dos refrigerantes acredita que o tempo gasto (em minutos) pelo
motorista para o abastecimento das máquinas pode estar relacionado com
a distância percorrida pelo motorista do veı́culo até as máquinas (em pés)
e pelo número de caixas de produtos estocados. Uma amostra aleatória de
25 abastecimentos foi considerada para análise.
Na Figura 49 tem-se os diagramas de dispersão entre o tempo gasto
pelo motorista e o número de caixas estocadas e a distância percorrida pelo
motorista, respectivamente. Nota-se tendências aproximadamente lineares,
sugerindo o seguinte modelo:
91
para i = 1, . . . , 25, em que yi denota o tempo gasto pelo i-ésimo motorista
iid
com i ∼ N(0, σ 2 ). Na Tabela 22 tem-se as estimativas do ajuste e nota-se
que todos os efeitos são altamente significtivos.
80
80
70
70
60
60
50
50
Tempo Gasto
Tempo Gasto
40
40
30
30
20
20
10
10
Figura 49: Diagramas de dispersão (com tendência) entre o tempo gasto pelo
motorista e o número de caixas estocadas (esquerdo) e a distância percorrida
pelo motorista (direito).
92
Tabela 22: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de mı́nimos quadrados aos dados sobre abastecimento de refri-
gerantes.
3.5
9
4
3.0
2.5
2
Resíduo Studentizado
Distância de Cook
2.0
1.5
0
1.0
−2
0.5
0.0
−2 −1 0 1 2 5 10 15 20 25
Quantil da N(0,1) Índice
93
Tabela 23: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de Huber aos dados sobre abastecimento de refrigerantes.
94
9
4
3
Resíduo Studentizado
2
1
0
−1
−2
y = f (θ; x) + , (13)
95
• Essas funções podem ter formas equivalentes obtidas através de re-
parametrizações de θ. Essas reparametrizações são utilizadas para
reduzir o viés dos estimadores de θ.
y = θ1 [1 − exp{−θ2 (x − θ3 )}] + ,
1. f1 (θ; x) = θ1 − θ3 θ2x
2. f2 (θ; x) = θ1 − θ3 exp(−θ2 x)
96
250
Comprimento Espeado (em cm)
200
150
100
0 1 2 3 4 5 6 7
Idade do Peixe (em anos)
97
16.2 Modelo de Crescimento Logı́stico
Esse modelo sigmoidal é frequentemente aplicado para estudar o crescimento
populacional. Sua forma mais conhecida é dada por
θ1
y= + ,
1 + exp{−(θ2 + θ3 x)}
−4 −2 0 2 4
x
(0)
Para valores iniciais a sugestão é considerar θ1 ∼ = ymax com os parâmetros
θ2 e θ3 sendo definidos tais que
!
(0)
y/θ1 ∼ θ2 + θ3 x.
log (0)
=
1 − y/θ1
98
(0) (0)
Logo, os valores iniciais θ2 e θ3 podem ser obtidos do ajuste de mı́nimos
(0) (0)
quadrados de z = log{(y/θ1 )/(1 − y/θ1 )} contra θ2 + θ3 x.
16.5 Estimação
Considere agora o modelo de regressão não linear
yi = f (θ; xi ) + i , (14)
99
150
Reação Enzimática
100
50
0
100
Portanto, como J(θ) depende de θ o estimador de mı́nimos quadrados
(máxima verossimilhança) deve ser obtido iterativamente. O processo itera-
tivo de Newton-Raphson fica dado por
θ (m+1) = θ (m) + {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> {y − f (θ (m) )}
= {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> z(θ (m) ), (15)
16.6 Inferência
Mostra-se para n grande que θb segue aproximadamente distribuição normal
p-variada de média θ e matriz de variância-covariância dada por
b = σ 2 {J(θ)> J(θ)}−1 ,
Var(θ)
101
Ou seja, H(θ) b é um projetor linear da pseudo resposta z(θ)
b no plano ex-
plicado pelas colunas da matriz J(θ), conhecido como plano tangente à
b
superfı́cie f (θ) em θ. b Os elementos da diagonal principal da matriz H, b
h11 , . . . , hnn , podem ser considerados como medidas de ponto de alavanca.
b b
O resı́duo padronizado
{yi − f (θ;
b xi )}
ti = q
b 1−b
σ hii
seria uma extensão natural do resı́duo Studentizado da regressão linear para
a regressão não linear, contudo esse resı́duo não tem distribuição conhe-
cida sendo necessário no gráfico normal de probabilidades a inclusão de
bandas empı́ricas de confiança. Para detectar observações influentes, uma
aproximação da distância de Cook para a regressão não linear é dada por
Di = t2i b
hii /p(1 − b
hii ), para i = 1, . . . , n.
16.8 Aplicação
Como ilustração considere o arquivo lakemary da biblioteca alr4 do R, em
que são descritos o comprimento em mm e a idade em anos de uma amostra
de n = 78 peixes de uma espécie de água doce. Ajustar aos dados o modelo
não linear de von Bertalanffy
yi = θ1 [1 − exp{−θ2 (xi − θ3 )}] + i ,
em que yi e xi denotam, respectivamente, o comprimento (em mm) e a idade
iid
(anos) do i-ésimo peixe, enquanto i ∼ N(0, σ 2 ), para i = 1, . . . , 78.
Os dados estão descritos na Figura 55 e o ajuste da curva de von Berta-
lanffy é apresentado na Figura 56. Nota-se pelas estimativas que o parâmetro
θ3 não é significativo, sugerindo que os dados podem ser ajustados com um
modelo mais simples envolvendo apenas os parâmetros θ1 e θ2 . Para ilustrar,
uma estimativa intervalar de 95% para o comprimento máximo esperado
para a espécie fica (em mm) dada por [191, 809 ± 1, 96 × 13, 079]. Análise
de resı́duos descrita na Figura 57 sugere adequação da suposição de nor-
malidade e homocedasticidade dos erros. As variações dos resı́duos dentro
da banda de confiança é muito provavelmene devido ao fato de termos para
uma mesma idade do peixe várias réplicas.
102
180
160
Comprimento do Peixe
140
120
100
80
60
1 2 3 4 5 6
Idade do Peixe
103
200
150
Comprimento do Peixe
100
50
1 2 3 4 5 6
Idade do Peixe
Figura 56: Curva ajustada de von Bertalanffy aos dados do arquivo lake-
mary da biblioteca alr4.
yt = x >
t β + t , (16)
iid
em que t = φt−1 + et com |φ| < 1 e et ∼ N(0, σ 2 ), para t = 1, . . . , T .
Substituindo t , t−1 , t−2 na expressão t = φt−1 + et obtém-se
104
2
3
2
1
Resíduo Padronizado
Residuo Padronizado
1
0
0
−1
−1
−2
−3
−2
−2 −1 0 1 2
60 80 100 120 140 160 180
Quantil da N(0,1)
Valor Ajustado
= φ.
Pode-se mostrar de forma similar que a autocorrelação entre os erros t e t+k
fica dada por ρk = φk . Em particular, quando φ é positivo a magnitude da
autocorrelação entre dois erros decresce à medida que a distância temporal
entre os erros aumenta.
105
17.1 Teste de Durbin-Watson
Em geral, na prática, tem-se autocorrelação positiva entre os erros e um teste
bastante conhecido para avaliar a necessidade de inclusão de uma estrutura
de correlação AR(1) é o teste de Durbin-Watson (DW). Mais especificamente
o teste de DW considera as hipóteses H0 : φ = 0 contra H1 : φ > 0, sendo a
estatı́stica do teste definida por
PT
(rt − rt−1 )2
d = t=2PT ,
2
t=1 rt
• Se d < dL rejeitar H0
• Se dL ≤ d ≤ dU inconclusivo.
yt−1 = x>
t−1 β + t−1 .
yt = x>
t + φt−1 + et
= x> >
t β + φyt−1 − φxt−1 β + et
yt − φyt−1 = {xt − φxt−1 }> β + et .
ut = z>
t β + et ,
106
iid
em que ut = yt − φyt−1 e zt = xt − φxt−1 com et ∼ N(0, σ 2 ), para t =
1, . . . , T . Portanto, para φ fixo, pode-se estimar β através do procedimento
de mı́nimos quadrados
b = (U> U)−1 U> z,
β (17)
em que U é uma matriz n × p de linhas u> >
t e z = (z1 , . . . , zT ) . Porém,
na prática φ não é fixo, podendo ser estimado através de um estimador de
momentos dado por φb = Tt=2 rt rt+1 / Tt=1 rt2 com rt = yt − ybt . Assim, um
P P
procedimento iterativo para obter uma estimativa de mı́nimos quadrados
para β fica dado por
2. Obter β
b de (17).
O processo iterativo acima pode ser aplicado através, por exemplo, da bi-
blioteca orcutt do R.
107
para i = 1, . . . , n. Assim, o logaritmo da função de verossimilhança fica
dado por
Uβ = 0 ⇒ X> (y − Xβ)
b = 0.
108
e fazendo Uφ = 0 obtém-se
Pn
i=1 (yi − ybi )2
b2 =
φb = σ ,
n
∂ 2 L(θ)
Kββ = E −
∂β∂β >
1 >
= (X X) e
φ
2
∂ L(θ)
Kβφ = E −
∂β∂φ
1
= E{X> (Y − Xβ)|X}
φ
= X> E{(Y − Xβ)|X} = 0.
109
e pelas propriedades de estimação por máxima verosimilhança, tem-se para
n grande que β b ∼ Np (β, K−1 ) e σb2 ∼ N(σ 2 , K−1 b b2 são
ββ φφ ). Além disso, β e σ
independentes. No caso de β b o resultado vale para todo n. Similarmente,
segue que (n − p)s2 /σ 2 ∼ χ2(n−p) .
Exercı́cios
1. Seja T um estimador do parâmetro θ e supor a existência dos dois
primeiros momentos de T. Mostre que
yi = β1 + β2 xi + i ,
iid
em P que i ∼ N(0, σ 2 ), P
i = 1, . . . , n. Mostre
Pnque: (i) Cov(ȲP
, β̂2 ) = 0,
(ii) i=1 ri ŷi = 0, (iii) i=1 ri xi = 0, (iv) i=1 ri = 0 e (v) ni=1 yi =
n n
P n
i=1 ŷi , em que ri = yi − ŷi .
y = β1 + β2 x2 + β3 x3 + ,
110
5. Supor uma amostra aleatória de tamanho n e o seguinte modelo de
regressão:
yi = β1 + β2 xi + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo β1 conhecido ob-
tenha o estimador de mı́nimos quadrados de β2 e o respectivo erro
padrão. Compare esse estimador com o estimador de mı́nimos qua-
drados de β2 quando β1 é desconhecido. Comente.
(n − p)s2 (n − p)s2
; ,
a b
em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distri-
buição χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento
do intervalo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados
Rb
(em b) a equação a g(n−p) (t)dt = (1 − α) com a = a(b).
111
y x y x y x y x
18,90 350,0 17,00 350,0 20,00 250,0 18,25 351,0
20,07 225,0 11,20 440,0 22,12 231,0 21,47 262,0
34,70 89,7 30,40 96,9 16,50 350,0 36,50 85,3
21,50 171,0 19,70 258,0 20,30 140,0 17,80 302,0
14,39 500,0 14,89 440,0 17,80 350,0 16,41 318,0
23,54 231,0 21,47 360,0 16,59 400,0 31,90 96,9
29,40 140,0 13,27 460,0 23,90 133,6 19,73 318,0
13,90 351,0 13,27 351,0 13,77 360,0 16,50 350.0
yt = α + βxt + t ,
iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é maior
112
do que o excesso de retorno do mercado (ação mais volátil do que o
mercado), e se β < 1 o excesso de retorno é menor do que o excesso
de retorno do mercado (ação menos volátil do que o mercado). O
intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.
Para ler o arquivo no R use os comandos
capm = read.table("capm.txt", header=TRUE).
Para deixar o arquivo disponı́vel use o comando
attach(capm).
Por exemplo, para ajustar o excesso de retorno da Microsoft use os
comandos
ymsf = rmsf - tbill
xmerc = sp500 - tbill
ajuste.msf = lm(ymsf ∼ xmerc)
summary(ajuste.msf).
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado
o excesso de retorno do mercado.
10. Suponha o modelo de comparação de médias
yij = µi + ij ,
iid
em que ij ∼ N(0, σ 2 ), i = 1, . . . , k e j = 1, . . . , ni . Mostre que µ̂i = ȳi
e Var(rij ) = σ 2 (1 − 1/ni ), em que rij = yij − ȳi .
11. Considere o modelo de regressão linear múltipla
yi = x>
i β + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que o critério de Akaike é
equivalente a minimizar a quantidade
SQRes
AIC = n log + 2p,
n
com SQRes = ni=1 (yi − ŷi )2 .
P
113
12. Na tabela abaixo (Lawless, 1992, Seção 6.8) são apresentados os re-
sultados de um experimento em que a resistência (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nı́veis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus).
Voltagem(kV)
Temperatura (o C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588
yijk = α + βi + γj + ijk ,
114
iid
β1 = 0, γ1 = 0 e ijk ∼ N(0, σ 2 ), para i = 1, 2, 3, 4 e j = 1, 2. Testar
a inclusão de interação entre temperatura e voltagem. Construir a
tabela ANOVA. Para ajustar os modelos sem interação e com interação
e gerar a tabela ANOVA use os comandos
fit1 = lm(resistencia ∼ voltagem + temperatura)
fit2 = lm(resistencia ∼ voltagem + temperatura +
temperatura*voltagem)
anova(fit1,fit2).
Fazer análises de resı́duos e de sensibilidade. Construir o gráfico dos
perfis ajustados. Comente.
115
O objetivo principal do estudo é relacionar a variável BigMac com
as demais variáveis explicativas. A fim de obter uma melhor apro-
ximação para a normalidade considere log(BigMac) como variável res-
posta. Apresente os diagramas de dispersão (com tendência) entre
a variável resposta e cada uma das variáveis explicativas e comente.
Padronize as variáveis explicativas. Por exemplo, para padronizar a
variável explicativa Bread use o comando
sBread = scale(Bread, center = TRUE, scale = TRUE).
Através do procedimento stepAIC fazer uma seleção das variáveis ex-
plicativas. Para o modelo selecionado aplicar análises de resı́duos e de
sensibilidade. Comente. Classifique as variáveis explicativas segundo
o impacto na explicação da média da variável resposta.
116
15. No arquivo fuel2001.txt da biblioteca alr4 do R, estão descritas as
seguintes variáveis referentes aos 50 estados norte-americanos mais o
Distrito de Columbia no ano de 2001:
16. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)
117
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos
wine = read.table("wine.txt", header=TRUE).
A variável região é categórica com três nı́veis. Assim é possı́vel através
do comando factor do R transformá-la em duas variáveis binárias:
regiao2 = 1 para região 2 e 0 caso contrário e regiao3 = 1 para
região 3 e 0 em caso contrário. A casela de referência será a região 1.
Para acionar o procedimento use o comando
regiao = factor(regiao).
Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão (com tendência)
entre a variável resposta e variáveis explicativas. Calcule também
as correlações lineares de Peasorn entre as variáveis (exceto região).
Selecione incialmente um submodelo através dos métodos de maior
R2k , menor sk , menor Ck e menor Pressk . Em seguida selecione outro
submodelo através do procedimento stepwise usando PE=PS=0,15.
Compare os submodelos escolhidos e para o submodelo selecionado
aplicar análise de resı́duos e sensibilidade. Interpretar os coeficientes
estimados.
17. Considere o modelo linear simples
yi = β1 + β2 (xi − x̄) + i ,
iid
para i = 1, . . . , n com i ∼ N(0, σ 2 ). Encontrar os estimadores ridge
β̂R1 e β̂R2 como também suas variâncias e covariância assintóticas
Var(β̂R1 ), Var(β̂R2 ) e Cov(β̂R1 , β̂R2 ). Expresse os estimadores ridge
em função dos estimadores de mı́nimos quadrados e mostre que são
estimadores tendenciosos.
18. Para avaliar a relação entre a energia necessária diária e a produção
de carne, uma amostra aleatória de 64 ovelhas em fase de crescimento
foi considerada, sendo observado para cada animal o consumo médio
diário de energia (mcal) e o peso (em kg). Esses dados estão descritos
no arquivo sheep.txt (vide Lindsey, 1997, Seção 9.4). Para ler o
arquivo no R use os comandos
sheep = read.table("sheep.txt", header=TRUE).
Fazer inicialmente uma análise descritivia dos dados, boxplot robusto
da variável resposta (peso) e diagrama de dispersão entre o peso do ani-
mal e o consumo diário de energia (variável explicativa). Ajustar um
118
modelo linear normal aos dados e verificar que há indı́cios de variância
não constante dos erros. Ajustar um modelo normal ponderado com
pesos apropriados. Fazer uma análise de diagnóstico e interpretar as
estimativas.
yi = x>
i β + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que SQRes(k) ≥ SQRes,
em que SQRes(k) = (y −Xβ̂ R )> (y −Xβ̂ R ) e SQRes = (y −Xβ̂)> (y −
Xβ̂) denotam, respectivamente, as somas de quadrados de resı́duos da
regressão ridge e da regressão de mı́nimos quadrados.
ind
20. Supor o modelo linear ponderado yi = α + βxi + i , em que i ∼
N(0, di σ 2 ), di > 0, para i = 1, . . . , n. Obter β̂ e ASQ(β = 0).
119
apenas o 1o componente. Qual a explicação desse componente? Ex-
presse esse componente em função das 4 variáveis explicativas cen-
tralizadas. Fazer um ajuste da regressão linear da variável resposta
centralizada contra esse componente e passando pela origem. Inter-
prete o coeficiente estimado e apresente análises de diagnóstico.
120
o procedimento de Huber para tentar acomodar a UF discrepante.
Compare os 4 ajustes e comente.
Referências
Atkinson AC (1981) Two graphical display for outlying and influential
observations in regression. Biometrika 68:13-20.
121
Belsley DA, Kuh E, Welsch RE (1980) Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity. John Wiley, New York.
Cook RD (1977) Detection of influential observations in linear regressions.
Technometrics 19:15-18.
Cook RD, Weisberg S (1982) Residuals and Influence in Regression. Chap-
man and Hall/CRC.
Dunkler D, Plischke M, Leffondré K, Heinze G (2014) Augmented backward
elimination: a pragmatic and purposeful way to develop statistical
models. Plos One 9(11):e113677.
Faraway JJ (2016) Extending the Linear Model with R. Generalized Li-
near, Mixed Effects and Nonparametric Regression Models, 2nd Edi-
tion. Chapman and Hall/CRC.
Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Re-
gression. Springer.
Fox J, Weisberg S (2019) An R Companion to Applied Regression, 3nd
Edition. Sage, Thousand Oaks, CA.
Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.
Lawless JF (1982) Statistical Models and Methods for Lifetime Data. Wiley.
Lindsey JK (1997) Applying Generalized Linear Models. Springer, New
York.
Hubert M, Vandervierin E (2008) An adjusted boxplot for skewed distri-
butions. Computational Statistics and Data Analysis 32:5186-5201.
Montgomery DC, Peck EA, Vining GG (2021) Introduction to Linear Re-
gression Analysis, 6th Edition. Wiley.
Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied Linear
Statistical Models, 4th Edition. WCB McGraw-Hill.
Rao CR (1973) Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ruppert D (2004) Statistical and Finance. Springer, New York.
Weisberg S (2014) Applied Linear Regression, Fourth Edition. Wiley.
122