0% acharam este documento útil (0 voto)

20 visualizações122 páginas

Texto Regressão Linear Múltipla

O documento apresenta uma síntese sobre regressão linear múltipla, abordando tópicos como estimativa por mínimos quadrados, inferência, diagnósticos e multicolinearidade. Exemplos e exercícios são incluídos para ilustrar os conceitos, e o texto enfatiza a importância da normalidade dos erros em amostras pequenas. O autor sugere uma leitura complementar no livro de Montgomery, Peck e Vining (2021).

Enviado por

Jesus Cristo

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

20 visualizações122 páginas

Texto Regressão Linear Múltipla

Enviado por

Jesus Cristo

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 122

Regressão Linear Múltipla

Gilberto A. Paula
Instituto de Matemática e Estatı́stica - Universidade de São Paulo
e-mail: giapaula@ime.usp.br

Setembro 2023

Resumo
O principal objetivo deste texto é apresentar uma sı́ntese dos principais
tópicos relacionados com regressão linear múltipla, tais como estimação por
mı́nimos quadrados e máxima verossimilhança, procedimentos inferenciais
e de teste de hipóteses, além de métodos de diagnóstico, conceito de in-
teração, comparação de médias, regressão ponderada, multicolinearidade,
seleção de modelos, regressão por partes e métodos robustos com extensões
para regressão não linear. Exemplos ilustrativos são apresentados ao longo
do texto e vários exercı́cios teóricos e aplicados são propostos no final do
texto. Uma abordagem mais completa pode ser encontrada, por exemplo,
no livro de Montgomery, Peck e Vining (2021).

1 Introdução
Denote por (y1 , x1 ), . . . , (yn , xn ) uma amostra aleatória de tamanho n de
uma determinada população, em que y1 , . . . , yn representam os valores obser-
vados da variável resposta (assumida contı́nua), enquanto xi = (xi1 , . . . , xip )>
denotam valores observados de variáveis explicativas, para i = 1, . . . , n. O
principal objetivo da regressão linear múltipla é tentar explicar o valor es-
perado da variável resposta dados os valores das variáveis explicativas. A
formulação mais usual é a seguinte:

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (1)

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Muitas vezes tem-se um intercepto
em (1), sendo nesse caso assumido que xi1 = 1 ∀i.
A suposição de normalidade para os erros pode ser relaxada para amos-
tras grandes, contudo para amostras pequenas e moderadas essa suposição

1
ind
é crucial para fazer inferência. De (1) segue que Yi |xi ∼ N(µi , σ 2 ) com
µi = x> >
i β e β = (β1 , . . . , βp ) , para i = 1, . . . , n.
Em forma matricial o modelo (1) fica expresso na forma

y = Xβ + , (2)

em que y = (y1 , . . . , yn )> , X é a matriz modelo de dimensão n × p dada por

 
xi1 x12 ... x1p
 .. .. .. ..
X= . ,

. . .
xn1 xn2 ... xnp

= (1 , . . . , n )> com ∼ Nn (0, σ 2 In ) e In a matriz identidade de ordem n.

2 Solução de Mı́nimos Quadrados

A estimativa de mı́nimos quadrados de β é obtida minimizando a função
objetivo S(β) que corresponde a minimizar a soma dos quadrados dos erros
n
X n
X
S(β) = 2i = (yi − x> 2 >
i β) = (y − Xβ) (y − Xβ).
i=1 i=1

A derivada parcial de S(β) com relação a βj fica dada por

n
∂S(β) X
= −2 xij (yi − x>
i β),
∂βj
i=1

para j = 1, . . . , p. Assim, a derivada de S(β) com relação a β é um vetor

de dimensão p × 1 expresso na forma

∂S(β)
= −2X> (y − Xβ).
∂β

A estimativa de mı́nimos quadrados β

b é obtida igualando-se a primeira de-
rivada a zero
∂S(β)
= 0 ⇒ −2X> (y − Xβ) b = 0.
∂β
Se X é uma matriz de posto coluna completo então tem-se uma solução
única
b = (X> X)−1 X> y.
β

2
Na Figura 1 é apresentada uma representação geométrica da solução de
mı́nimos quadrados, em que y b = Xβ b = Hy corresponde à projeção orto-
gonal de y através do projetor linear H = X(X> X)−1 X> , no subespaço
gerado pelas colunas da matriz X, denotado por C(X). Por outro lado,
r = y−y b = (In − H)y definido como vetor de resı́duos ordinários, cor-
responde à projeção ortogonal de y através do projetor linear (In − H), no
subespaço complementar Cc (X), denominado ortocomplemento de C(X).

Cc(X)

r y

^
y^ = Xβ

C(X)

Figura 1: Representação geométrica da solução de mı́nimos quadrados re-

ferente ao modelo de regressão linear múltipla (2), em que r = y − y b é o
resı́duo ordinário e C(X) denota o subespaço gerado pelas colunas da matriz
X e Cc (X) o ortocomplemento.

3
É preciso verificar se a raiz da primeira derivada é de fato um ponto de
mı́nimo da superfı́cie formada por (S(β), β > )> . Deriva-se então novamente
S(β) com relação a β` , obtendo-se
n
∂ 2 S(β) X
=2 xij xi` ,
∂βj ∂β`
i=1

para j, ` = 1, . . . , p. Assim, a matriz de segundas derivadas de S(β) com

relação a β tem dimensão p × p e fica expressa na forma

∂ 2 S(β)
= 2X> X.
∂β∂β >

Como é assumido que X tem posto coluna completo então X> X é uma
matriz positiva definida, logo S(β) é uma superfı́cie convexa e β
b é ponto de
mı́nimo.
Resumindo, tem-se que Y|X ∼ Nn (Xβ, σ 2 In ) e como consequências
E(Y|X) = Xβ e Var(Y|X) = σ 2 In , em que Y = (Y1 , . . . , Yn )> . Seguem as
seguintes propriedades do estimador de mı́nimos quadrados:
b = E{(X> X)−1 X> Y} = (X> X)−1 X> E(Y|X) = (X> X)−1 X> Xβ = β.
E(β)

Ou seja, βb é um estimador não tendencioso de β. A matriz de variância-

covariância de β
b fica dada por

b = Var{(X> X)−1 X> Y} = (X> X)−1 X> Var(Y|X)X(X> X)−1

Var(β)
= σ 2 (X> X)−1 X> X(X> X)−1 = σ 2 (X> X)−1 .

Logo, βb ∼ Np (β, σ 2 (X> X)−1 ) e conforme mostrado em Montgomery et al.

(2021, Apêndice C.4) β b tem a menor variância entre todos os estimadores
lineares não viesados de β.
Pelo Teorema de Pitágoras aplicado ao triângulo retângulo da Figura 1,
tem-se que

|| y ||2 = || ŷ ||2 + || y − ŷ ||2

Xn X n Xn
2 2
yi = ybi + (yi − ybi )2 ,
i=1 i=1 i=1
p
em que || v ||= v12 + · · · + vn2 denota norma ou comprimento do vetor
>
v = (v1 , . . . , vn ) . Se o modelo tem intercepto segue da solução de mı́nimos

4
quadrados X> (y − Xβ) b = 0 que Pn ri = 0. Logo, obtém-se a decom-
i=1
posição de somas de quadrados

SQT = SQReg + SQRes,

Pn 2
em
Pn que SQT = i=1 (yi − ȳ) é a soma de quadrados total, SQReg =
Pi=1 (yi − ȳ)2 é a soma de quadrados devido à regressão, enquanto SQRes =
n
i=1 (yi − ybi )2 é a soma de quadrados de resı́duos. Uma maneira de avaliar
a qualidade do ajuste é comparar SQReg com SQT através do coeficiente
de determinação
SQReg SQRes
R2 = =1− ,
SQT SQT
em que 0 ≤ R2 ≤ 1. Quanto mais próximo R2 está de 1 melhor a qualidade
do ajuste. Contudo, como o coeficiente de determinação cresce à medida que
o número p de parâmetros aumenta, recomenda-se a utilização do coeficiente
de determinação ajustado

2 QMRes
R =1− ,
QMT
2
em que QMRes = SQRes n−p e QMT =
SQT
p−1 e 0 ≤ R ≤ 1. É possı́vel estabelecer
a seguinte relação:
2 (n − 1)
R = 1 − (1 − R2 ) .
(n − p)
2
Portanto, segue que R ≤ R2 .

2.1 Regressão Linear Simples

Considere agora o modelo de regressão linear simples definido por

yi = β1 + β2 xi + i ,

em que y1 , . . . , yn são valores observados da variável resposta, x1 , . . . , xn

iid
são valores observados da variável explicativa X e i ∼ N(0, σ 2 ), para i =
1, . . . , n. A matriz modelo de dimensão n × 2 fica dada por
 
1 x1
X =  ... ..  .

. 
1 xn

5
Assim, obtém-se

> n nx̄ X
X X= e X> y = (nȳ, xi yi )> .
x2i
P
nx̄
P P
xi yi
em que x̄ = n e ȳ = n . Logo,

x2i
P
> −1 1 −nx̄
(X X) = ,
nSxx −nx̄ n
Pn
em que Sxx = i=1 (xi − x̄)2 . O estimador de mı́nimos quadrados fica dado
por " # " #
b = (X> X)−1 X> y = βb1 ȳ − βb2 x̄
β = Sxy
βb2 Sxx
Pn
com Sxy = − x̄)(yi − ȳ). A matriz de variância-covariância assume
i=1 (xi
a forma
σ2
P 2
2 > −1 xi −nx̄
Var(β) = σ (X X) =
b .
nSxx −nx̄ n
2 2
P
σ x 2 2
Daı́ segue que Var(βb1 ) = nSxx i , Var(βb2 ) = Sσxx e Cov(βb1 , βb2 ) = − σSxxx̄ .
Supondo que X é uma variável quantitativa contı́nua, o coeficiente de
correlação linear amostral de Pearson entre X e Y é expresso na forma
Pn
i=1 (xi − x̄)(yi − ȳ)
rxy = Pn 1 ,
{ i=1 (xi − x̄)2 ni=1 (yi − ȳ)2 } 2
P

em que −1 ≤ r ≤ 1. Aternativamente, tem-se que

s s
Sxy Sxy Sxx Sxx
rxy = 1 = = βb2 .
{Sxx SQT} 2 Sxx SQT SQT

Por outro lado, obtém-se

ybi = βb1 + βb2 xi = (ȳ − x̄βb2 ) + βb2 xi = ȳ + (xi − x̄)βb2 .

yi − ȳ) = (xi − x̄)βb2 e portanto ni=1 (b yi − ȳ)2 = βb22 ni=1 (xi − x̄)2 .
P P
Logo (b
Sxy
Então, segue que SQReg = βb22 Sxx . E desde que βb2 = Sxx obtém-se

SQReg
SQReg = βb2 Sxy → βb2 = .
Sxy

6
Finalmente, segue a relação
2 Sxx Sxy SQReg Sxx SQReg
rxy = βb22 = = = R2 .
SQT Sxx Sxy SQT SQT
Ou seja, o coeficiente de determinação R2 coincide com o quadrado do coe-
ficiente de correlação linear amostral de Pearson entre X e Y na regressão
linear simples.

3 Teste de Hipóteses
Inicialmente, supor que o interesse é avaliar se os coeficientes da regressão
são nulos, que corresponde a testar as hipóteses
H0 : β2 = · · · = βp = 0 contra H1 : βj 6= 0,
para pelo menos algum j = 2, . . . , p. A estatı́stica F fica expressa na forma
SQReg/(p − 1) QMReg H0
F= = ∼ F(p−1),(n−p) .
SQRes/(n − p) QMRes
Para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F > F(1−α),(p−1),(n−p) ,
em que F(1−α),(p−1),(n−p) denota o quantil (1 − α) da distribuição F com
(p − 1) e (n − p) graus de liberdade. É usual construir a tabela de análise
de variância (ANOVA), conforme descrito na Tabela 1.

Tabela 1: Descrição da tabela de Análise de Variância (ANOVA).

F. Variação S.Quadrados G.L. Q. Médio F

QMReg
Regressão SQReg p−1 QMReg QMRes
Resı́duos SQRes n−p QMRes
Total SQT n−1

Denote Var(β) b = σ 2 C, em que C = (X> X)−1 . Então, pode-se expressar

as variâncias e covariâncias dos estimadores βb1 , . . . , βbp nas formas Var(βbj ) =
σ 2 Cjj e Cov(βbj , βb` ) = σ 2 Cj` , em que Cj` denota o elemento (j, `) da matriz
C, para j, ` = 1, . . . , p. Supor então que o interesse é testar as hipóteses
H0 : βj = 0 contra H1 : βj 6= 0, para algum j = 1, . . . , p. A estatı́stica
t-Student fica expressa na forma
βbj H0
t= ∼ t(n−p) ,
EP(
c βbj )

7
p
em que EP(
c βbj ) = s Cjj . Para um nı́vel de significância 0 < α < 1, rejeita-
se H0 se |t| > t(1−α/2),(n−p) , em que t(1−α/2),(n−p) denota o quantil (1 − α/2)
de uma distribuição t-Student com (n−p) graus de liberdade. Em particular,
pode-se mostrar que t2 segue sob H0 distribuição F1,(n−p) .
Generalizando, supor que o interesse agora é testar H0 : Rβ = 0 contra
contra H1 : Rβ 6= 0, com pelo menos uma desigualdade estrita em H1 , em
que R é uma matriz r × p com posto linha r ≤ p. O acréscimo na soma de
quadrados de resı́duos devido à restrição Rβ = 0 (vide Montgomery et al.,
2021, Cap. 3) é dado por
b > {R(X> X)−1 R> }−1 Rβ.
ASQ(Rβ = 0) = (Rβ) b

Portanto, tem-se que

ASQ(Rβ = 0)/r H0
F= ∼ Fr,(n−p) .
SQRes/(n − p)
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),r,(n−p) .
Um caso particular é considerar a regressão linear múltipla (2) com efei-
tos particionados
y = X1 β 1 + X2 β 2 + , (3)
em que X1 e X2 são matrizes de dimensões n × p1 e n × p2 , respecti-
vamente, enquanto β 1 tem dimensão p1 × 1 e β 2 tem dimensão p2 × 1.
Logo, X = [X1 , X2 ] e β = (β > > >
1 , β 2 ) . Supor que o interesse seja testar
H0 : β 2 = 0 contra H1 : β 2 6= 0, com pelo menos uma desigualdade es-
trita em H1 . A soma de quadrados de resı́duos correspondente ao modelo
(3) com p parâmetros será denotada por SQRes(β) = y> (In − H)y, en-
quanto que a soma de quadrados de resı́duos sob o modelo em H0 com p1
parâmetros será denotada por SQRes(β|β 2 = 0) = y> (In − H1 )y, em que
H1 = X1 (X> −1 >
1 X1 ) X1 . Note que SQRes(β|β 2 = 0) ≥ SQRes(β). Assim,
o acréscimo na soma de quadrados de resı́duos devido à restrição β 2 = 0
pode ser expresso na forma
ASQ(β 2 = 0) = SQRes(β|β 2 = 0) − SQRes(β) = y> (H1 − H)y,
e consequentemente a estatı́stica F para testar H0 : β 2 = 0 contra H1 : β 2 6=
0 fica dada por
y> (H1 − H)y/p2 H0
F= ∼ Fp2 ,(n−p) .
y> (In − H)y/(n − p)
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),p2 ,(n−p) .

8
4 Estimativa Intervalar
Um estimativa intervalar de coeficiente de confiança (1 − α) para βj fica
dada por
[βbj ± t(1−α/2),(n−p) EP(
c βbj )],
em que j = 1, . . . , p. Como para n grande a t-Student se aproxima da
normal, pode-se usar o quantil (1−α/2) da N(0, 1) no lugar de t(1−α/2),(n−p) .
É possı́vel mostrar que
SQRes modelo
∼ χ2(n−p) .
σ2

SQRes SQRes
Logo, segue que E σ2
= (n − p) e portanto s2 = (n−p) é um estimador
não tendencioso de σ 2 . Após algumas manipulações com a distribuição
χ2(n−p) tem-se que
( )
(n − p)s2 (n − p)s2
P ≤ σ2 ≤ 2 = (1 − α),
χ2(1−α/2),(n−p) χ(α/2),(n−p)

em que χ2(α/2),(n−p) e χ2(1−α/2),(n−p) denotam, respectivamente, os quantis

α/2 e (1 − α/2) da distribuição χ2(n−p) . Assim, uma estimativa intervalar de
coeficiente de confiança (1 − α) para σ 2 fica dada por
" #
(n − p)s2 (n − p)s2
; .
χ2(1−α/2),(n−p) χ2(α/2),(n−p)
Alternativamente, é possı́vel encontrar uma estimativa intervalar de menor
comprimento para σ 2 dada por
(n − p)s2 (n − p)s2

; ,
a b
Rb
em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) e a g(n−p) (t)dt =
(1 − α), com g(n−p) (t) denotando a função densidade de probabilidade da
distribuição χ2(n−p) (vide Exercı́cio 6).

5 Bandas de Confiança
Supor uma nova observação que não pertence à amostra com valores para
as variáveis explicativas representados por z = (z1 , z2 , . . . , zp )> . Portanto,
tem-se que
y(z) = z> β + (z)

9
b(z) = z> β
e valor esperado E{Y (z)} = µ(z). Logo µ b e

µ(z)} = Var(z> β)
Var{b b = z> Var(β)z
b = σ 2 z> (X> X)−1 z.

d µ(z)} = s2 z> (X> X)−1 z, uma estimativa intervalar de coe-

Desde que Var{b
ficiente de confiança (1 − α) para µ(z) fica dada por
1
[z> β
b ± t(1−α/2),(n−p) s{z> (X> X)−1 z} 2 ],

em que t(1−α/2),(n−p) denota o quantil (1 − α/2) de uma distribuição t-

Student com (n − p) graus de liberdade. A banda de coeficiente de confiança
(1 − α) para µ(z) assume a forma
√ 1
[z> β
b± cα σ{z> (X> X)−1 z} 2 , ∀z ∈ IRp ],

em que cα é tal que P{χ2p ≤ cα } = 1 − α (vide, por exemplo, Rao, 1973).

Por outro lado, o valor predito de Y (z) pode ser representado por yb(z) =
>
z β + (z) e portanto
b

Var{Yb (z)} = Var{z> β

b + (z)} = Var{z> β}
b + Var{(z)}
= z> Var(β)z
b + Var{(z)} = σ 2 z> (X> X)−1 z + σ 2
= σ 2 {1 + z> (X> X)−1 z}.

d Yb (z)} = s2 {1 + z> (X> X)−1 z}.

Tem-se que Var{
Assim, estimativa intervalar e banda de confiança de coeficiente de con-
fiança (1 − α) para y(z) ficam, respectivamente, dadas por
1
[z> β
b ± t(1−α/2),(n−p) s{1 + z> (X> X)−1 z} 2 ]

e
√ 1
[z> β
b± cα σ{1 + z> (X> X)−1 z} 2 , ∀z ∈ IRp ].
Na prática deve-se substituir σ 2 por s2 e cα é obtido tal que P{Fp,(n−p) ≤
cα } = 1 − α. Em particular, para regressão linear simples é possı́vel mostrar
que z> (X> X)−1 z = 1/n + (z − x̄)2 /Sxx .

6 Métodos de Diagnóstico
Procedimentos de diagnóstico devem ser aplicados após o ajuste do modelo
linear normal e têm como principais objetivos:

10
(i) avaliar se há afastamentos importantes das suposições feitas para o mo-
delo, tais como independência, normalidade, homocedasticidade dos
erros e linearidade da média com relação aos valores das variáveis ex-
plicativas;

(ii) avaliar se há presença de observações atı́picas ou discrepantes. Essas

observações podem ser classificadas como pontos de alavanca, pontos
aberrantes ou pontos influentes.

Abaixo segue descrição dos três tipos de observações atı́picas.

Pontos de alavanca: observações em que o vetor xi = (xi1 , xi2 , . . . , xip )>

está remoto no subespaço C(X) gerado pelas colunas da matriz X. Es-
sas observações têm influência desproporcional no próprio valor ajus-
tado.

Pontos aberrantes: observações com resı́duo alto, posicionadas fora da

banda de confiança. Ou seja, observações mal ajustadas pelo modelo.
Em geral essas observações têm influência desproporcional na predição
das respostas.

Pontos influentes: observações com peso desproporcional nas estimativas

dos coeficientes do componente sistemático do modelo. Em geral são
pontos de alavanca mas a recı́proca nem sempre é verdadeira.

Na Figura 2 há uma descrição gráfica de observações atı́picas. No pri-

meiro gráfico (acima à esquerda) tem-se uma regressão hipotética com a reta
ajustada passando pelas 5 observações, no segundo gráfico (acima à direita)
a 3a observação é deslocada verticalmente de forma a tornar- se aberrante,
enquanto no terceiro e quarto gráficos (abaixo à esquerda e à direita) a
5a observação é deslocada em direções diferentes de modo a tornar-se de
alavanca e influente, respectivamente.

6.1 Pontos de Alavanca

Uma observação é definida como ponto de alavanca se tem uma alta in-
fluência no próprio valor ajustado. Essa influência é medida através da
derivada ∂b y /∂y. Ou seja, mede o impacto que uma variação infinitesi-
mal na respostaP causa no valor ajustado. Da relação y = Hy obtém-se
b
ybi = hii yi + j6=i hij yj , em que hij denota o elemento (i, j) da matriz H que
é simétrica de dimensão n × n. Daı́ segue que ∂b yi /∂yi = hii e ainda pode-se
> >
mostrar que hii = xi (X X) xi . −1

11
aberrante

alavanca influente + alavanca

Figura 2: Representação gráfica para um conjunto de dados hipotéticos de

pontos de alavanca, aberrantes e influentes. Reta ajustada com todos as
observações ( ) e sem a observação deslocada ( ).

Como a matriz H é idempotente (H = HH) segue que

n
X X
h2ij = hii → h2ij = hii − h2ii = hii (1 − hii ),
j=1 j6=i

então hii ≥ 0 e hii (1 − hii ) ≥ 0 e portanto 0 ≤ hii ≤ 1. Note que se

hii = 1 então hij = 0 ∀j 6= i e logo ybi = yi . Hoaglin e Welsch (1978)
Pn classificar pontos de alavanca segundo o critério hii ≥ 2h̄, em que
propõem
hii
h̄ = i=1n . Assim, desde que
n
X
hii = tr(H) = tr{X(X> X)−1 X> } = tr{(X> X)−1 X> X} = tr(Ip ) = p,
i=1

2p 3p
o critério fica dado por hii ≥ n. Para amostras grandes sugere-se hii ≥ n.

12
6.2 Limites para a Predição
Supor uma nova observação com valores para as variáveis explicativas re-
presentados por z = (z1 , z2 , . . . , zp )> . Qual a condição para obter yb(z)? Se-
gundo Montgomery et al.(2021, p.110) pode-se fazer predição (interpolação)
no modelo de regressão linear múltipla com segurança se a seguinte condição
for satisfeita:
x> (X> X)−1 x ≤ hmax ∀x ∈ IRp ,
em que hmax = max{h11 , . . . , hnn }. Logo, uma condição para predição de
y(z) é que z> (X> X)−1 z ≤ hmax .
d

Região Conjunta dos Dados

x2
c

a b
x1

Figura 3: Representação geométrica para os limites de predição de um mo-

delo de regressão (sem intercepto) com duas variáveis explicativas, com va-
lores tais que a ≤ x1 ≤ b e c ≤ x2 ≤ d.

Na Figura 3 tem-se a representação geométrica da “região conjunta dos

dados”para a qual recomenda-se fazer as predições do modelo linear y =
β1 x1 + β2 x2 + , em que a ≤ x1 ≤ b e c ≤ x2 ≤ d. Nota-se que há vários
pares de valores (x1 , x2 ) para os quais não é recomendado fazer interpolação.

13
6.3 Análise de Resı́duos
Como visto anteriormente, o vetor de resı́duos ordinários é definido por
r = (In − H)y, em que r = (r1 , . . . , rn )> com ri = yi − ybi , para i = 1, . . . , n.
Tem-se que

E(r) = E(Y|X) − HE(Y|X)

= Xβ − X(X> X)−1 X> Xβ
= Xβ − Xβ = 0.

A matriz de variância-covariância de r fica dada por

Var(r) = Var{(In − H)Y|X)

= (In − H)Var(Y|X)(In − H)
= σ 2 (In − H)(In − H)
= σ 2 (In − H).

Portanto, segue que r ∼ Nn (0, σ 2 (In − H)), e consequentemente

(i) ri ∼ N(0, σ 2 (1 − hii ));

(ii) Cov(ri , rj ) = −σ 2 hij , i 6= j e

−hij
(iii) Corr(ri , rj ) = √ , i 6= j,
(1−hii )(1−hjj )

para i, j = 1, . . . , n. Ou seja, os resı́duos têm distribuição marginal normal

de média zero, variâncias não constantes e são correlacionados.
Para que os resı́duos sejam comparáveis é preciso padronizá-los. Uma
padronização natural seria o resı́duo normalizado
ri
tri = √ ∼ N(0, 1), i = 1, . . . , n.
σ 1 − hii
Porém, é preciso estimar σ 2 . Sabe-se que a estatı́stica t-Student é construı́da
da seguinte forma:
Z
t= p ∼ tν ,
U/ν
em que Z ∼ N(0, 1), U ∼ χ2ν e Z e U são variáveis aleatórias independentes.
Tem-se que tri ∼ N(0, 1) e é possı́vel mostrar que (n − p)s2 /σ 2 ∼ χ2(n−p) ,
porém tri e s2 não são independentes. Logo, o resı́duo
ri
ti = √ t(n−p) .
s 1 − hii

14
t2
Cook e Weisberg (1982) mostram que (n−p) i
∼ Beta( 12 , (n−p−1)
2 ). A sugestão
2 2
é substituir s por s(i) , o erro quadrático médio do modelo sem a i-ésima
observação. Agora, tem-se que tri ∼ N(0, 1), (n − p − 1)s2(i) /σ 2 ∼ χ2(n−p−1)
e ainda tri e s2(i) são independentes. Então, tem-se o resı́duo Studentizado
r
t∗i = √i ∼ t(n−p−1) ,
s(i) 1 − hii

para i = 1, . . . , n. É possı́vel mostrar que

2

2 2 n − p − ti
s(i) = s .
n−p−1

Ou seja, s2(i) pode ser obtido sem a necessidade de fazer o ajuste sem a
i-ésima observação.
Abaixo são descritos alguns gráficos sugeridos com o resı́duo t∗i .
(i) Gráfico entre os quantis observados t∗1) < · · · < t∗(n) do resı́duo t∗i
contra os quantis da distribuição N(0, 1). Esse gráfico é equivalente
ao gráfico normal de probabilidades sugerido em Montgomery et al.
(2021, Cap.4). Sugere-se a inclusão de banda de confiança empı́rica,
denominada envelope (Atkinson, 1981). Essa banda é recomendada
em virtude dos resı́duos serem correlacionados. Espera-se os pontos
distribuı́dos de forma aleatória dentro da banda de confiança. Dis-
torções no gráfico podem ser causadas por observações aberrantes e
outras formas para o gráfico são indı́cios de afastamentos da normali-
dade dos erros.

(ii) Gráfico de t∗i contra valores ajustados ybi . Desde que Cov(r, y b ) = 0,
espera-se distribuição uniforme dos pontos conforma varia o valor ajus-
tado. Afastamentos dessa tendência são indı́cios de que a variância dos
erros não deve ser constante.

(iii) Gráfico de t∗i contra a ordem das observações para detectar (quando
fizer sentido) correlação temporal dos dados. Pode-se também aplicar
o teste de Durbin-Watson para avaliar se há correlação autoregressiva
positiva nos erros. Esse teste será discutido na Seção 17.

(iv) Gráfico de t∗i contra valores de variáveis explicativas contı́nuas para

avaliar se há algum termo que não foi incluı́do no componente sis-
temático do modelo. Alternativamente, tem-se o gráfico da variável
adicionada (Seção 6.6).

15
A suposição de normalidade dos erros é crucial para fazer inferências
quando o tamanho amostral n é pequeno ou moderado, contudo para n
grande tem-se pelo Teorema Central do Limite (TCL) a normalidade as-
sintótica de β
b desde que os erros tenham média zero e variância constante.
Assim, quando há indı́cios de afastamentos importantes da suposição de
normalidade dos erros pode-se tentar aplicar alguma transformaçao apro-
priada g(Y ) a fim de alcançar a normalidade mesmo que aproximadamente
(vide Exercı́cios 12 e 13). O incoveniente desse procedimento é que o novo
modelo estará explicando E{g(Y )} ao invés de E(Y ). Outra opção seria
aplicar modelos lineares generalizados, em que procura-se uma distribuição
apropriada para Y , porém tem-se em contrapartida a modelagem de E(Y ).
No caso da violação da suposição de variância constante para os erros, uma
primeira opção seria aplicar regressão linear ponderada (Seção 9) que fle-
xibiliza a variãncia dos erros sem comprometer os resultados da regressão
linear. Alternativamente, pode-se aplicar a modelagem dupla em que E(Y )
e Var(Y ) são modelados conjuntamente.
Para amostras pequenas e moderadas, quando há violação da suposição
de erros normais, pode-se aplicar procedimentos de reamostragem para es-
timação e inferência dos coeficientes da regressão (vide, por exemplo, Fox e
Weisberg, 2019).

6.4 Outra Interpretação para t∗i

Supor que o i-ésimo ponto é suspeito de ser aberrante. Essa hipótese pode
ser testada através do modelo
yj = x>
j β + ωj γ + j , (4)
iid
em que xj = (xj1 , . . . , xjp )> e j ∼ N(0, σ 2 ) para j = 1, . . . , n, com ωj = 1
para j = i e ωj = 0 em caso contrário. Usando resultados da Seção 3 pode-se
mostrar que sob a hipótese H0 : γ = 0 o acréscimo na soma de quadrados
de resı́duos fica dado por
b2 (1 − hii ),
ASQ(γ = 0) = γ
em que γb = ri (1 − hii )−1 com ri = yi − xTi β
b e hii = x> (X> X)−1 xi . Logo,
i
a soma de quadrados de resı́duos correspondente ao modelo (4) fica dada
r2
por (n − p)s2 − γb2 (1 − hii ) = (n − p)s2 − 1−hi ii e a estatı́stica F para testar
H0 : γ = 0 contra H1 : γ 6= 0 assume a forma
b2 (1 − hii )
γ H0
F= n r 2
o ∼ F1,(n−p−1) .
(n − p)s2 − (1−hi ii ) /(n − p − 1)

16
Trabalhando um pouco a expressão acima chega-se ao seguinte resultado:
ri2 (n − p − 1)
F= = t∗2
i .
s2 (1 − hii )(n − p − t2i )
Portanto, para um nı́vel de significância α, rejeita-se H0 se |t∗i | > t(1−α/2),(n−p−1) .

6.5 Análise de Influência

O objetivo principal da análise de influência em regressão é avaliar o impacto
de perturbações no modelo e/ou dados nos coeficientes da regressão, sendo
esse impacto avaliado através de alguma medida de influência. A medida
de influência mais conhecida, denominada distância de Cook (Cook, 1977),
procura avaliar o impacto da retirada de cada observação nas estimativas
dos coeficientes. Uma vez detectadas as observações com maior variação
para essa medida, deve-se proceder algum tipo de análise confirmatória a
fim de avaliar a influência das observações destacadas e também o tipo de
influência. Variações numéricas nas estimativas dos coeficientes são espe-
radas quando elimina-se observações, contudo quando essas variações são
desproporcionais, muito acima n1 × 100%, as observações podem ser consi-
deradas influentes. O mais grave é quando a eliminação individual de uma
observação leva a mudanças inferenciais, ou seja, determinados coeficientes
deixam ou passam a ser significativos. No primeiro caso a observação induz
o efeito do coeficiente enquanto que no segundo caso há mascaramento do
efeito pela observação.
Transformações dos valores das variáveis explicativas, inclusão de in-
teração ou mesmo ponderação na regressão, dentre outros procedimentos,
são comumente aplicados para reduzir a influência de observações na re-
gressão. Contudo, quando esses procedimentos não levam a soluções satis-
fatórias recomenda-se a aplicação de procedimentos de estimação robusta.
Na Seção 15 são apresentados alguns procedimentos usuais de estimação ro-
busta para regressão linear múltipla. Uma discussão mais abrangente pode
ser encontrada em Montogomery et al. (2021, Cap.15).
Nesta seção será discutida a distância de Cook aplicada ao modelo de
regressão linear múltipla (2). Essa medida pode ser motivada através da
região de confiança de coeficiente (1 − α) para β, dada por
b − β)> (X> X)(β
(β b − β)
≤ F(1−α),p,(n−p) ,
ps2
em que F(1−α),p,(n−p) , como definido anteriormente, denota o quantil (1 − α)
de uma distribuição F com p e (n − p) graus de liberdade. Essa região de

17
confiança é construı́da usando o resultado abaixo
( )
b − β)> (X> X)(β
(β b − β)
P ≤ F(1−α),p,(n−p) = 1 − α.
ps2

Na Figura 4 tem-se a representação gráfica da superfı́cie correspondente à

região de confiança para os coeficientes de uma regressão hipotética com
p = 2.
β2

β1

Figura 4: Representação geométrica para a região de confiança de 95% para

os coeficientes de um modelo de regressão hipotético com p = 2.

A distância de Cook é definida por

(β b )> (X> X)(β

b −β b −β
b )
(i) (i)
Di = ,
ps2

em que β b denota a estimativa de mı́nimos quadrados quando a i-ésima

(i)
observação não é considerada no modelo. Após manipulações algébricas

18
obtém-se
> −1 >
β (i) = {X(i) X(i) } X(i) y(i)
b

= {X> X − xi x> −1 >

i } {X y − xi yi }
(X> X)−1 xi x> > −1

> −1 i (X X)
= (X X) + {X> y − xi yi }
1 − hii
ri
b−
= β (X> X)−1 xi ,
(1 − hii )

para i = 1, . . . , n. Portanto, tem-se que

ri
b −β
β b =
(i) (X> X)−1 xi .
(1 − hii )

Assim, a distância de Cook fica dada

1 2 hii
Di = t .
p i (1 − hii )

Como hii /(1−hii ) é uma função crescente de hii , então Di será grande se |ti |
e/ou hii forem (for) grande(s). Uma proposta de pontos suspeitos de serem
influentes, baseada na região de confiança para β, é destacar as observações
tais que Di ≥ F(1−α),p,(n−p) . Outras sugestões se baseiam em obter limites
superiores para a distância de Cook com base nas variações dos valores
amostrais da distância e que levem em conta o tamanho amostral. Sugere-
se destacar as observações tais que Di ≥ D̄ + kDP(Di ), para k = 2, 3, 4.
Deve-se aumentar o valor k à medida que aumenta o tamanho amostral.
Outra medida de influência proposta por Belsley et al. (1980), que é
derivada da distância de Cook com s2 substuı́do por s2(i) , é definida por

1
|ri | hii 2
DFFITSi = √
s(i) 1 − hii 1 − hii
1
∗ hii 2
= |ti | .
1 − hii
1
Sugere-se destacar as observações tais que DFFITSi ≥ 2{p/(n − p)} 2 . Essa
medida leva também em conta a influência das observações na estimativa de
σ 2 . Contudo, quando o interesse está apenas nos coeficientes da regressão
sugere-se utilizar apenas a distância de Cook.

19
Finalmente, pode haver interesse em estudar a influência das observações
em coeficientes especı́ficos da regressão. Por exemplo, se há interesse em ava-
liar a influência da eliminação da i-ésima observação no j-ésimo coeficiente
estimado da regressão, utiliza-se a seguinte medida de influência:

(βbj − βbj(i) )
DFBETASji = p
s(i) Cjj
C>j xi ri
= p
s(i) (1 − hii ) Cjj
pji t∗
= q √ i ,
p> pj 1 − hii
j

em que C = (X> X)−1 , Cj denota a j-ésima coluna de C, pji e p> j de-

notam, respectivamente, o (j, i)-ésimo elemento e a j-ésima linha de P =
(X> X)−1 X> , i = 1, . . . , n e j = 1, . . . , p. Recomenda-se dar atenção àquelas
observações tais que DFBETASji > √2n (vide Montgomery et al., 2021,
Cap.6).

6.6 Análise Confirmatória

O procedimento mais tradicional de verificação das observações suspeitas de
serem discrepantes é através da deleção individual de cada observação sus-
peita, computando-se a variação percentual de cada coeficiente da regressão
e o respectivo valor-P. Para ilustrar alguns procedimentos, denote o conjunto
das m observações supeitas por S = {S1 , . . . , Sm }.

Variação Percentual
A variação percentual do j-ésimo coeficiente da regressão quando a i-ésima
observação não é considerada no ajuste é definido por

β̂(i)j − β̂j
∆ij = × 100%,
β̂j

para j = 1, . . . , p e i ∈ S. Deve-se associar a cada observação deletada o novo

valor-P de cada coeficiente. Variações percentuais desproporcionais (muito
acima de (1/n) × 100%) são esperadas, porém deve-se dar atenção quando
ocorrerem mudanças inferenciais.

20
Comparação com Observações não Destacadas
Um outro procedimento usual é comparar alguma medida resumo das ob-
servações suspeitas com a mesma medida resumo obtida de r amostras
aleatórias de tamanho m das observações não suspeitas. Por exemplo, pode-
se computar a medida

β̂(S)j − β̂j
MRCS = max .
1≤j≤p β̂j
Comparar MRCS com as r medidas, MRCN S 1 , . . . , MRCN S r , das r amostras
aleatórias de tamanho m extraı́das do grupo de observações não suspeitas.
Se MRCS for muito maior que max1≤j≤r MRCN S j é um indı́cio de que as
observações em S são discrepantes. Sugere-se utilizar que r ≥ 10.

Tratamentos de Observações Discrepantes

Os procedimentos descritos abaixo são usuais para acomodar observações
discrepantes.
• Aplicar transformações nas variáveis explicativas, por exemplo padro-
nização, raiz quadrada e logarı́tmica.
• Incluir termos não lineares em variáveis explicativas contı́nuas.
• Incluir (ou retirar) interações.
• Aplicar regressão linear ponderada.
• Aplicar métodos robustos.
• Mudar a distribuição dos erros. Por exemplo, erros com caudas mais
leves ou mais pesadas do que as caudas da distribuição normal padrão
ou erros assimétricos.

6.7 Gráfico da Variável Adicionada

Supor que uma variável explicativa é adicionada no modelo (2) obtendo-se
o seguinte modelo de regressão linear:
y = Xβ + wγ +
em que X denota a matriz modelo n×p do modelo reduzido, w denota vetor
n × 1 dos valores observados da variável adicionada, y é o vetor n × 1 dos va-
lores observados da variável resposta, β = (β1 , . . . , βp )> e ∼ Nn (0, σ 2 In ).

21
Definindo Z = (X, ω) como matriz do modelo ampliado, mostra-se facil-
mente que a estimativa de mı́nimos quadrados de θ = (β > , γ)> fica expressa
na forma θ̂ = (ZT Z)−1 ZT y. Após algumas manipulações algébricas a es-
timativa de mı́nimos quadrados do coeficiente da variável adicionada fica
dada por
ω > (In − H)y
γ̂ =
ω > (In − H)ω
ω>r
= .
ω > (In − H)ω
Ou seja, γ̂ pode ser expresso como sendo o coeficiente da regressão linear
passando pela origem do vetor de resı́duos r = (In − H)y sobre o novo
resı́duo υ = (In − H)ω, dado por
γ̂ = (υ > v)−1 υ > r
= {ω > (In − H)(In − H)ω}−1 ω > (In − H)(In − H)y
ω > (In − H)y
= .
ω T (In − H)ω
Portanto, o gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação linear e quais observações que estão se desviando da mesma. Esse
gráfico, conhecido como gráfico da variável adicionada (ver, por exemplo,
Atkinson, 1985) pode revelar quais observações que estão influenciando (e
de que maneira) a inclusão da nova variável explicativa no modelo.
A sugestão é que seja construı́do para cada variável explicativa contı́nua
incluı́da de forma linear no modelo um gráfico da variável adicionada.

6.8 Aplicação
Para ilustrar um exemplo de regressão linear simples considere parte dos
dados descritos em Neter et al. (1996, p.449) referentes à venda no ano
anterior de um tipo de telhado de madeira em n = 26 filiais de uma rede de
lojas de construção civil. Apenas duas variáveis serão consideradas:
(i) Telhados: total de telhados vendidos (em mil metros quadrados) e
(ii) Nclientes: número de clientes cadastrados na loja (em milhares).
O interesse é explicar o número médio de telhados vendidos dado o número
de clientes cadastrados. Na Tabela 2 são apresentadas algumas medidas
resumo referentes às duas variáveis observadas.

22
Tabela 2: Medidas resumo referentes ao exemplo sobre venda de telhados.

Medida Telhados Nclientes

Média 170,20 51,85
D.Padrão 84,55 14,21
CV(em %) 49,68 27,41

Mı́nimo 30,90 26,00

1o Quartil 102,00 49,50
Mediana 159,80 51,50
3o Quartil 217,50 61,50
Máximo 339,40 75,00

Na Figura 5 tem-se o boxplot robusto (Hubert e Vandervierin, 2008) e

a densidade estimada do total de telhados vendidos. Nota-se ausência de
observações aberrantes e uma ligeira assimetria à direita. O diagrama de
dispersão entre o total de telhados vendidos e o número de clientes cadas-
trados na loja (Figura 6) apresenta uma tendência aproximadamente linear
e positiva. À medida que aumenta o número de clientes aumenta o total de
telhados vendidos.
350

0.004
300
250

0.003
Telhados Vendidos

Densidade
200

0.002
150

0.001
100
50

0.000

−100 0 100 200 300 400

Telhados Vendidos

Figura 5: Boxplot robusto e densidade estimada do total de telhados vendi-

dos.

23
350
300
250
Telhados Vendidos
200
150
100
50

30 40 50 60 70
Clientes Cadastrados

Figura 6: Diagrama de dispersão (com tendência) entre o total de telhados

vendidos e o número de clientes cadastrados na loja.

Tabela 3: Estimativas dos parâmetros referentes ao modelo de regressão

linear simples ajustado aos dados sobre venda de telhados.

Efeito Estimativa E.Padrão valor-t valor-P

Constante -71,208 40,558 -1,76 0,092
Nclientes 4,656 0,756 6,16 0,000
s 53,69
R2 0,61
2
R 0,60

Portanto, sugere-se o seguinte modelo de regressão linear simples:

yi = β1 + β2 Nclientesi + i ,
iid
em que yi denota o total de telhados vendidos na i-ésima filial e i ∼ N(0, σ 2 ),
para i = 1, . . . , 26. Nota-se pela Tabela 3 que o coeficiente estimado do
número de clientes é altamente significativo e o intercepto é significativo ao
nı́vel de 10%. Assim, para um aumento de 1000 clientes em qualquer filial
espera-se aumento de 4656 mil m2 de telhados vendidos.

24
3
2

2
1
1
Resíduo Studentizado

Resíduo Studentizado
0
0

−1
−1

−2
−2

−3
50 100 150 200 250 −2 −1 0 1 2
Valor Ajustado Quantil da N(0,1)

Figura 7: Gráficos de resı́duos referentes ao modelo de regressão linear sim-

ples ajustado aos dados sobre venda de telhados.

Pela Figura 7, em que são apresentados o gráfico do resı́duo t∗i contra o

valor ajustado ybi e o gráfico normal de probabilidades para t∗i com banda
empı́rica de confiança (envelope) de 95%, não há indı́cios de variância não
constante nem de afastamentos da normalidade dos erros. Nota-se também
ausência de observações aberrantes. O gráfico da distância de Cook com
k = 2 (Figura 8) contra a ordem das observações destaca como possivelmente
influentes as observações #6 e #10. O ajuste sem cada uma das observações
traz variações nas estimativas dos coeficientes, como pode ser notado pela
Figura 9, porém não há mudanças inferencias. Finalmente, tem-se na Figura
10 as bandas de confiança de 95% para o número esperado de telhados
vendidos e para o número de telhados vendidos de uma filial qualquer, dado
o número de clientes cadastrados.

7 Variável Binária e Interação

Supor o seguinte modelo de regressão linear múltipla:

yi = β1 + β2 xi2 + β3 xi3 + i ,

25
6

0.15
10

0.10
Distância de Cook
0.05
0.00

0 5 10 15 20 25
Índice

Figura 8: Distância de Cook contra a ordem das observações referente ao

modelo de regressão linear simples ajustado aos dados sobre venda de telha-
dos.
350

350

10
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200

6
150

150
100

100
50

30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados

Figura 9: Retas ajustadas com todos os pontos ( ) e sem as observações

destacatadas pela distância de Cook ( ).

em que y1 , . . . , yn são valores observados da variável resposta, xi2 representa

os valores de uma variável aleatória binária tal que

1 grupo A
xi2 =
0 26grupo B,
300

400
250

300
200
Telhados Vendidos

Telhados Vendidos
200
150

100
100
50

0
0

−100
30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados

Figura 10: Bandas de confiança de 95% para o número esperado de telhados

vendidos (esquerda) e para o número de telhados vendidos de uma filial
qualquer (direita), dado o número de clientes cadastrados.

iid
enquanto xi3 representa valores observados de uma variável contı́nua e i ∼
N(0, σ 2 ), para i = 1, . . . , n.
Portanto, tem-se dois submodelos de regressão

• (Grupo A) yi = β1 + β2 + β3 xi3 + i

• (Grupo B) yi = β1 + β3 xi3 + i

com valores esperados

• EA (Yi |xi3 ) = β1 + β2 + β3 xi3

• EB (Yi |xi3 ) = β1 + β3 xi3 ,

para i = 1, . . . , n. Assim, EA (Yi |xi3 ) − EB (Yi |xi3 ) = β2 , que indica ausência

de interação (paralelismo) entre as variáveis explicativas X2 e X3 (vide ilus-
tração na Figura 11).
Supor agora a inclusão de interação entre as variáveis explicativas X2 e
X3 , resultando no seguinte modelo de regressão linear múltipla:

yi = β1 + β2 xi2 + β3 xi3 + β4 xi2 xi3 + i ,

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Tem-se os seguintes submodelos:

27
EA(Y|x3)

β2 EB(Y|x3)

Figura 11: Descrição gráfica de ausência de interação (paralelismo) entre as

variáveis explicativas X2 e X3 .

• (Grupo A) yi = β1 + β2 + β3 xi3 + β4 xi3 + i

• (Grupo B) yi = β1 + β3 xi3 + i

com valores esperados expressos por

• EA (Yi |xi3 ) = β1 + β2 + β3 xi3 + β4 xi3

• EB (Yi |xi3 ) = β1 + β3 xi3 ,

para i = 1, . . . , n. Assim, a diferença entre os valores esperados, EA (Yi |xi3 )−

EB (Yi |xi3 ) = β2 + β4 xi3 , não é mais constante dependendo dos valores da
variável explicativa X3 . Isso indica presença de interação (ausência de pa-
ralelismo) entre as variáveis explicativas X2 e X3 (vide Figura 12).
Supor agora variável explicativa categórica com três nı́veis

 1 grupo A
X= 2 grupo B
3 grupo C.


28
Um maneira de representar essa variável explicativa num modelo de re-
gressão é atribuindo a cada grupo uma variável binária da seguinte forma:

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + i ,

em que y1 , . . . , yn denotam os valores observados da variável resposta, xi1 , xi2

e xi3 são os valores observados das variáveis binárias representando os grupos
iid
e i ∼ N(0, σ 2 ), para j = 1, . . . , n.
Supondo que os grupos A, B e C têm n1 , n2 e n3 elementos, respec-
tivamente, o modelo pode ser expresso na forma matricial y = Xβ + ,
em que y = (y1> , y2> , y3> )> com yi = (yi1 , . . . , yini )> , para i = 1, 2, 3,
β = (β0 , β1 , β2 , β3 )> e matriz X de dimensão (n1 + n2 + n3 ) × 4 dada por
 
1 1 0 0
 .. .. .. .. 
 . . . . 
 
 1 1 0 0 
 
 1 0 1 0 
 
X =  ... ... ... ...  .
 
 
 1 0 1 0 
 
 1 0 0 1 
 
 .. .. .. .. 
 . . . . 
1 0 0 1

Note que a matriz X não tem posto coluna completo, a 1a coluna é a

soma das outras três colunas. Uma solução é reduzir o número de colunas
da matriz modelo impondo alguma restrição nos parâmetros.
Os seguintes procedimentos são mais utilizados:

• Restrição nos parâmetros: β1 + β2 + β3 = 0, que implica em β1 =

−β2 − β3 .

• Casela de referência: um dos coeficientes é fixado como sendo zero.

Por exemplo, fazendo β1 = 0 o grupo A será denominado casela de
referência.

Nesses dois casos β = (β0 , β2 , β3 )> e a matriz modelo terá dimensão n × 3

com posto coluna completo.
Como exemplo, o modelo com casela de referência no grupo A pode ser
expresso na forma
yi = β0 + β2 xi2 + β3 xi3 + i ,

29
em que y1 , . . . , yn denotam os valores observados da variável resposta, xi2 e
xi3 são valores de variáveis binárias representando os grupos B e C, respec-
iid
tivamente, e i ∼ N(0, σ 2 ), para i = 1, . . . , n. Quando xi2 = xi3 = 0 tem-se
o grupo A. A matriz modelo nesse caso fica dada por
 
1 0 0
 .. .. .. 
 . . . 
 
 1 0 0 
 
 1 1 0 
 
X =  ... ... ...  .
 
 
 1 1 0 
 
 1 0 1 
 
 .. .. .. 
 . . . 
1 0 1

EA(Y|x3)

EB(Y|x3)
β2 + β4x3

Figura 12: Descrição gráfica de presença de interação (ausência de parale-

lismo) entre as variáveis explicativas X2 e X3 .

30
EC(Y|x4)

EB(Y|x4)
(β3 − β2)
EA(Y|x4)

β2

Figura 13: Descrição gráfica de ausência de interação (paralelismo) entre a

variável categórica X e a variável contı́nua X4 .

Supor agora a inclusão de uma variável explicativa contı́nua na parte

sistemática do modelo

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + i ,

em que xi4 , para i = 1, . . . , n, representa os valores observados da variável

explicativa contı́nua. Portanto, tem-se três submodelos

• (Grupo A) yi = β0 + β4 xi4 + i

• (Grupo B) yi = β0 + β2 + β4 xi4 + i

• (Grupo C) yi = β0 + β3 + β4 xi4 + i

com diferenças de valores esperados

• EB (Yi |xi4 ) − EA (Yi |xi4 ) = β2

• EC (Yi |xi4 ) − EA (Yi |xi4 ) = β3 ,

31
EC(Y|x4)

EB(Y|x4)

(β3 − β2) + (β6 − β5)x4

β2 + β5x4
EA(Y|x4)

Figura 14: Descrição gráfica de interação entre a variável categórica X e a

variável contı́nua X4 .

para i = 1, . . . , n. Assim, os efeitos β2 e β3 são incrementos nos valores

esperados dos grupos B e C, respectivamente, com relação ao grupo A (vide
ilustração na Figura 13).
Em forma matricial o modelo com ausência de interação fica dado por
y = Xβ + , em que y = (y1> , y2> , y3> )> com yi = (yi1 , . . . , yini )> , para
i = 1, 2, 3, β = (β0 , β2 , β3 , β4 )> e a matriz modelo X terá adicionada a
coluna (x1 , . . . , xn1 , xn1 +1 , . . . , xn1 +n2 , xn1 +n2 +1 , . . . , xn )> .
O modelo com interação entre a variável categórica X e a variável contı́nua
X4 pode ser expresso na seguinte forma:

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + β5 xi2 xi4 + β6 xi3 xi4 + i ,

em que y1 , . . . , yn denotam os valores observados da variável resposta, xi2 e

xi3 são valores de variáveis binárias representando os grupos B e C, respec-
tivamente, enquanto xi4 representa os valores observados de uma variável
iid
contı́nua e i ∼ N(0, σ 2 ), para i = 1, . . . , n.
Portanto, tem-se três submodelos
• (Grupo A) yi = β0 + β4 xi4 + i

32
• (Grupo B) yi = β0 + β2 + β4 xi4 + β5 xi4 + i

• (Grupo C) yi = β0 + β3 + β4 xi4 + β6 xi4 + i ,

com diferenças de valores esperados
• EB (Yi |xi4 ) − EA (Yi |xi4 ) = β2 + β5 xi4

• EC (Yi |xi4 ) − EA (Yi |xi4 ) = β3 + β6 xi4 ,

para i = 1, . . . , n. Assim, nota-se que as diferenças entre os valores esperados
dependem dos valores da variável explicativa X4 (vide Figura 14). A matriz
modelo X terá duas colunas adicionais com relação à matriz modelo sob
ausência de interação.
O conceito de interação pode ser estendido para quaisquer tipos de
variáveis explicativas e para mais do que duas variáveis explicativas. Con-
tudo, devido a dificuldades na interpretação, em geral considera-se apenas
interações de 1a ordem (entre duas variáveis eplicativas).

8 Comparação de Médias
Uma aplicação de modelos de regressão linear com variáveis binárias é na
comparação das médias de k grupos. O modelo pode ser expresso na forma

yij = α + βi + ij ,
iid
em que ij ∼ N(0, σ 2 ), para i = 1, . . . , k e j = 1, . . . , ni , com a restrição
β1 = 0. O Grupo 1 é denominado casela de referência. Assim, tem-se os
valores esperados
• E(Y1j ) = α para j = 1, . . . , n1

• E(Yij ) = α + βi , para i = 2, . . . , k e j = 1, . . . , ni ,
e daı́ segue que βi é o incremento no valor médio do i-ésimo grupo com
relação ao valor médio do grupo 1, para i = 2, . . . , k. Testar a igualdade de
médias equivale a testar H0 : β2 = · · · = βk contra H1 : βj 6= 0 para pelo
menos algum j = 2, . . . , k.
Em forma matricial o modelo fica dado por

y = Xβ + ,

em que y = (y1> , . . . , yk> )> com yi = (yi1 , . . . , yini )> , para i = 1, . . . , k,

β = (α, β2 , . . . , βk )> e matriz X de dimensão ( ki=1 ni ) × k dada abaixo.
P

33
 
1 0 ... 0
 .. .. .. .. 
 . . . . 
 
 1 0 ... 0 
 
 1 1 ... 0 
 
 .. .. .. .. 
 . . . . 
X=
 1
.
 1 ... 0  
 .. .. .. .. 
 . . . . 
 
 1 0 ... 1 
 
 .. .. .. .. 
 . . . . 
1 0 ... 1

A solução de mı́nimos quadrados leva às estimativas α b = ȳ1 e βbi = ȳi − ȳ1
para i = 1, . . . , k, com variâncias e covariâncias

σ2 σ2 σ2

2 1 1
Var(b
α) = , Var(βj ) = σ
b + , Cov(b α, βbj ) = − e Cov(βbj , βb` ) = ,
n1 nj n1 n1 n1
para j 6= ` = 2, . . . , k.
Tem-se a seguinte decomposição das somas de quadrados:
ni
k X
X
SQT = (yij − ȳ)2 ,
i=1 j=1

X ni
k X k
X
2
SQReg = yij − ȳ) =
(b ni (ȳi − ȳ)2 e
i=1 j=1 i=1

X ni
k X ni
k X
X
2
SQRes = (yij − ybij ) = (yij − ȳi )2 .
i=1 j=1 i=1 j=1

Daı́ segue que a estatı́stica F para testar a homogeneidade de médias H0 :

β2 = · · · = βk = 0 contra H1 : pelo menos duas médias diferentes fica
expressa na forma
Pk
(n − k + 1) ni (ȳi − ȳ)2 H0
F = Pk i=1 Pni ∼ F(k−1),(n−k+1) .
(k − 1) i=1 j=1 (yij − ȳi )
2

Rejeita-se H0 se F > F(1−α),(k−1),(n−k+1) , em que F(1−α),(k−1),(n−k+1) denota

o quantil (1−α) da distribuição F com (k−1) e (n−k+1) graus de liberdade
e n = n 1 + · · · + nk .

34
8.1 Comparações Múltiplas
Quando rejeita-se a hipótese nula deseja-se saber onde estão as diferenças
entre as médias dos
k grupos. As propostas mais conhecidas consistem em
k
construir m = 2 estimativas intervalares para as diferenças de médias, de
modo que cada estimativa intervalar tenha coeficiente de confiança (1 − α∗ )
sendo o coeficiente de confiança global (1 − α).
Pelo método de Bonferroni (recomendado para m pequeno) cada esti-
mativa intervalar deve ter coeficiente de confiança (1 − α∗ ), sendo dadas
por s
1 1
(ȳi − ȳj ) ± t(1−α∗ /2),(n−k) s2 + ,
ni nj
para i 6= j, em que α∗ = m α
, de modo que o coeficiente global de confiança
seja de pelo menos (1 − α).
O método de Tukey é o mais utilizado na prática por ter um nı́vel de
significância global mais próximo de (1 − α). As estimativas intervalares são
expressas na forma
s
s2 1

1
(ȳi − ȳj ) ± q(k, n − k) + ,
2 ni nj

para i 6= j, em que q(k, n − k) é o quantil de uma distribuição denominada

amplitude Studentizada.

8.2 Aplicação
Como ilustração serão considerados os dados referentes ao tempo de desloca-
mento (em minutos) antes de decolar de 184 aeronaves de 8 Cias Aéreas no
aeroporto EWR (Newark) no perı́odo 1999-2001 (Venzani, 2004, Exemplo
11.7), descritas abaixo

• AA, American Airlines

• CO, Continental Airlines

• DL, Delta Airlines

• HP, American West Airlines

• NW, North West Airlines

• TW, Trans World Airlines

35
• UA, United Airlines

• US, US Airways.

Na Figura 15 tem-se os boxplots robustos dos tempos para a decola-

gem das Cias Aéreas. Nota-se tempos medianos distintos, porém em geral
variabilidades similares. As Cias Aéreas NW e US apresentam os menores
tempos medianos enquanto CO apresenta o maior tempo mediano. A fim de
comparar os tempos médios supondo variabilidades homogêneas considere
iid
o modelo yij = α + βi + ij , em que ij ∼ N(0, σ 2 ), para i = 1, . . . , 8 e
j = 1, . . . , 23, com a restrição β1 = 0. AA como casela de referência.
É bastante razoável esperar pelo TCL que α b e βbi estejam bem aproxi-
madas pela distribuição normal levando-se em conta o número de réplicas
para cada Cia Aérea. Assim, como não há indı́cios pela Figura 15 de afas-
tamentos importantes da suposição de variâncias contantes para os erros,
pode-se esperar uma boa aprocimação da distribuiçao nula da estatı́stica F
para testar a homogeneidade de médias.
40
35
Tempo para Decolagem
30
25
20

AA CO DL HP NW TW UA US
Cia Aérea

Figura 15: Boxplot do tempo de deslocamento segundo a Cia Aérea.

Pela Tabela 4 nota-se que o tempo de deslocamento médio de algumas

Cias Aéreas é significativamente diferente do tempo médio da Cia AA. Por

36
Tabela 4: Estimativas dos parâmetros referentes ao modelo de comparação
dos tempos médios de deslocamento das Cias Aéreas.

Efeito Estimativa valor-t valor-P

AA 27,056 37,56 0,000
CO 3,835 3,76 0,000
DL -2,052 -2,01 0,045
HP 1,526 1,50 0,136
NW -4,061 -3,99 0,000
TW -1,652 -1,62 0,107
UA -0,039 -0,04 0,969
US -3,830 -3.76 0,000
s 3,455
R2 0,355
2
R 0,329

exemplo, o tempo médio de NW é significativamente menor enquanto o

tempo médio de CO é significativamente maior. Porém, para algumas Cias
Aéreas não foi possı́vel detectar diferença significativa com AA. Isso é con-
firmado pelo teste F de homogeneidade de médias (vide Tabela 5), em que
a hipótese nula é fortemente rejeitada. Logo, há tempos médios de desloca-
mento diferentes e resta saber entre quais Cias Aéreas.

Tabela 5: Tabela ANOVA referente à comparação dos tempos médios de

deslocamento das Cias Aéreas.

F.Variação S.Q. G.L. Q.M. F valor-P

Cia Aérea 1155,0 7 165,01 13,82 0,000
Resı́duos 2100,9 176 11,94
Total 3255,9 183

Como há m = 82 = 28 pares de Cias Aéreas o método de Tukey é o

mais adequado para construir as estimativas intervalares para as diferenças

das médias. Na Figura 16 tem-se um resumo das 28 estimativas intervalares
com coeficiente global de confiança de 95%, construı́da através da biblioteca
UsingR do R. Nota-se que 15 dessas estimativas intervalares cobrem o valor
zero indicando que não foi possı́vel detectar diferença significativa entre os

37
deslocamentos médios das Cias Aéreas correspondentes. Por outro lado, há
13 estimativas intervalares que não cobrem o valor zero. Observando essas
estimativas intervalares nota-se que as Cias Aéreas NW e US são aqueleas
que mais diferem das demais no sentido de terem um tempo médio de des-
locamento menor do que as demais. Isso vai ao encontro dos resultados da
Tabela 4.

CO−AA
DL−AA
HP−AA
NW−AA
TW−AA
UA−AA
US−AA
DL−CO
HP−CO
NW−CO
TW−CO
UA−CO
US−CO
HP−DL
NW−DL
TW−DL
UA−DL
US−DL
NW−HP
TW−HP
UA−HP
US−HP
TW−NW
UA−NW
US−NW
UA−TW
US−TW
US−UA
−10

−5

Figura 16: Estimativas intervalares para as diferenças entre os deslocamen-

tos médios das Cias Aérea pelo método de Tukey com coeficiente global de
confiança de 95%.

9 Regressão Linear Ponderada

Quando há indı́cios fortes de afastamentos da suposição de variâncias cons-
tantes dos erros (homocedasticidade), uma maneira de correção é através da
regressão linear ponderada em que a variância de cada erro é flexibilizada.
A forma mais usual de regressão linear ponderada é a seguinte:

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (5)

38
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip são
ind
valores observados de variáveis explicativas e i ∼ N(0, σi2 ), com σi2 = σ 2 ωi
e ωi > 0 (conhecido), para i = 1, . . . , n. A soma dos quadrados dos erros
(função objetivo) fica nesse caso expressa na forma
n
X
S(β) = ωi−1 (yi − x> 2
i β) ,
i=1

em que em que xi = (xi1 , . . . , xip )> e β = (β1 , . . . , βp )> . Matricialmente

tem-se que
S(β) = (y − Xβ)> V−1 (y − Xβ),
em que y = (y1 , . . . , yn )> , V = diag{ω1 , . . . , ωn } e X é a matriz modelo.
Derivando a função objetivo S(β) em relação a β obtém-se

∂S(β)
= X> V−1 (y − Xβ),
∂β
que igualando a zero leva à seguinte solução de de mı́nimos quadrados pon-
derados:
b = (X> V−1 X)−1 X> V−1 y.
β
Denotando βb = AY, em que A = (X> V−1 X)−1 X> V−1 , tem-se a seguinte
propriedade:

E(β)
b = E(AY|X) = AE(Y|X)
= (X> V−1 X)−1 X> V−1 Xβ
= β.
b é um estimador não tendencioso de β. Desde que Var(Y|X) = σ 2 V,
Logo, β
segue a propriedade
b = Var(AY|X) = AVar(Y|X)A>
Var(β)
= σ 2 (X> V−1 X)−1 X> V−1 VV−1 X(X> V−1 X)−1
= σ 2 (X> V−1 X)−1 ,
b ∼ Np (β, σ 2 (X> V−1 X)−1 ).
e portanto β
As somas de quadrados ponderadas ficam expressas nas formas
n
X n
X n
X
SQT = ωi−1 (yi −ȳ)2 , SQReg = ωi−1 (b
yi −ȳ)2 e SQRes = ωi−1 (yi −b
yi )2 .
i=1 i=1 i=1

39
Similarmente ao caso homocedástico é possı́vel mostrar que s2 = SQRes
(n−p) é
2
um estimador não tendencioso de σ . Continuam valendo a decomposição
2
das somas de quadrados e as interpretações do R2 e R .
É possı́vel mostrar que o acréscimo na soma de quadrados de resı́duos
no modelo linear ponderado (5), devido às restrições lineares Rβ = 0, pode
ser expresso na forma
b > {R(X> V−1 X)−1 R> }−1 Rβ,
ASQ(Rβ = 0) = (Rβ) b

b = (X> V−1 X)−1 X> V−1 y. Assim, se o interesse é testar H0 :

em que β
Rβ = 0 contra H1 : Rβ 6= 0, a estatı́stica F fica dada por

ASQ(Rβ = 0)/r H0
F= ∼ Fr,(n−p) .
SQRes/(n − p)

Rejeita-se H0 se F > F(1−α),r,(n−p) , em que F(1−α),r,(n−p) denota o quantil

(1 − α) da distribuição F com r e (n − p) graus de liberdade.

9.1 Forma Equivalente

Os resultados da regressão linear ponderada (5) podem ser obtidos de forma
equivalente através de uma regressão linear homocedástica aplicando as se-
guintes transformações:
√
• zi = yi / ωi ,
√
• uij = xij / ωi ,

para i = 1, . . . , n e j = 1, . . . , p. Então, considere o modelo

zi = β1 ui1 + β2 ui2 + · · · + βp uip + ei ,

iid
com ei ∼ N(0, σ 2 ), para i = 1, . . . , n. Esse modelo em forma matricial fica
dado por
z = Uβ + e,
1 1
em que z = V− 2 y, U = V− 2 X é a matriz modelo, β = (β1 , . . . , βp )> ,
1
enquanto e = V− 2 . Note que e ∼ Nn (0, σ 2 In ). Mostra-se facilmente que
b = (X> V−1 X)−1 X> V−1 y. Assim, todos os resultados descritos nas seções
β
anteriores podem ser estendidos facilmente para o modelo (5) através das
transformações acima.

40
9.2 Aplicação
Como ilustração considere parte dos dados de um experimento desenvolvi-
mento em 2006 nas Faculdades de Medicina e de Filosofia, Letras e Ciências
Humanas da USP e analisado no Centro de Estatı́stica Aplicada do IME-
USP (CEA0P16) para avaliar o fluxo da fala de falantes do Português Brasi-
leiro segundo o gênero, idade e escolaridade. Uma amostra de 595 indivı́duos
residentes na cidade de São Paulo com idade entre 2 e 99 anos foi avaliada
segundo a fala auto-expressiva. O indivı́duo era apresentado a uma figura e
orientado a discorrer sobre a mesma durante um tempo mı́nimo de 3 minu-
tos e máximo de 6 minutos. Para crianças de 2 e 3 anos, as amostras foram
obtidas com a colaboração dos pais. As variáveis consideradas no estudo fo-
ram as seguintes: (i) idade (em anos), (ii) gênero (1:feminino, 2:masculino),
(iii) interj (número de interjeições durante o discurso), (iv) fpm (fluxo de
palavras por minuto) e (v) fsm (fluxo de sı́labas por minuto).
200
150
Fluxo de Palavras
100
50

50 100 150 200 250 300 350

Fluxo de Sílabas

Figura 17: Diagrama de dispersão entre o fluxo de palavras por minuto e o

fluxo de sı́labas por minuto.

Como aplicação de regressão linear ponderada considere apenas duas

variáveis, fpm e fsm. Na Figura 17 tem-se o diagrama de dispersão entre
fpm e fsm e nota-se uma forte relação linear positiva e variabilidade não

41
constante da resposta fpm à medida que aumenta fsm. Isso sugere um mo-
delo linear simples entre fpm e fsm. Nas Tabelas 6 e 7 tem-se as estimativas
dos parâmetros do modelo
fpmi = β1 + β2 fsmi + i ,
iid ind
em que i ∼ N(0, σ 2 ) ou i ∼ N(0, ωi σ 2 ) com ωi = fsmi , respectivamente,
para i = 1, . . . , 594. Nota-se uma redução na estimativa do intercepto e
aumento do coeficiente de determinação sob o modelo linear ponderado.
Há também um controle melhor da variabilidade sob esse modelo (Figura
18) e melhora na qualidade do ajuste (Figura 19). As três observações que
aparecem destacadas como pontos aberrantes afetam muito pouco as esti-
mativas quando são excluı́das. Outros procedimentos para aprimoramento
do controle da variabilidade poderiam ser aplicados, como por exemplo a
modelagem dupla da média e variância.

Tabela 6: Estimativas dos parâmetros referentes ao modelo de regressão

linear simples ajustado aos dados sobre fluxo da fala de falantes do Português
Brasileiro.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 4,198 1,172 3,74 0,00
fsm 0,527 0,006 88,10 0,00
s 7,98
R2 0,93
2
R 0,93

10 Ortogonalidade
Supor novamente o modelo de regressão linear múltipla
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip
iid
são valores observados de variáveis explicativas e i ∼ N(0, σ 2 ). Tem-se
ortogonalidade entre as colunas da matriz modelo X se
n
X
xij xi` = 0, ∀j 6= ` = 1, . . . , p,
i=1

42
Tabela 7: Estimativas dos parâmetros referentes ao modelo de regressão
linear simples ponderado ajustado aos dados sobre fluxo da fala de falantes
do Português Brasileiro.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 3,663 0,974 3,76 0,00
fsm 0,530 0,006 92,57 0,00
s 0,59
R2 0,99
2
R 0,99

8
6

6
4
Residuo Studentizado

Residuo Studentizado
4
2

2
0

0
−2

−2

50 100 150 200 5 6 7 8 9 10

Valor Ajustado Valor Ajustado

Figura 18: Gráficos entre o resı́duo Studentizado e o valor ajustado referentes

aos modelos homocedástico (esquerdo) e ponderado (direito) ajustados aos
dados spbre fluxo da fala de falantes do Português Brasileiro.

ou seja, a matriz X> X é bloco diagonal.

Quando a matriz modelo X tem posto coluna completo tem-se sob orto-

43
8
6

6
4

4
Residuo Studentizado

Residuo Studentizado
2

2
0

0
−2
−2

−4
−4

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)

Figura 19: Gráficos normais de probabilidade com banda empı́rica de 95%

referentes aos modelos homocedástico (esquerdo) e ponderado (direito) ajus-
tados aos dados spbre fluxo da fala de falantes do Português Brasileiro.

gonalidade que
n
X n
X Xn n
X
> >
X X = diag{ x2i1 , . . . , x2ip } e X y=( xi1 yi , . . . , xip yi )> ,
i=1 i=1 i=1 i=1

em que y = (y1 , . . . , yn )> , e consequentemente

 Pn 
xi1 yi
  Pi=1
β1
b n 2
i=1 xi1
..
 
 .. 
β =  .  = (X> X)−1 X> y =  .
 
b
Pn
.
xip yi
 
βbp Pi=1
n 2
i=1 xip

Pn
xij yi
Logo, βbj = Pi=1
n 2 depende apenas dos valores y1 , . . . , yn e de x1j , . . . , xnj ,
i=1 xij
para j = 1, . . . , p. Ou seja, dos valores da variável resposta e da variável
explicativa Xj .

44
Além disso, a matriz de variância-covariância para β
b fica dada por
2
Pnσ 2
 
··· 0
i=1 xi1
b = σ 2 (X> X)−1 = 
 .
.. .
.. .. 
Var(β)  . .

σ 2
0 · · · P n x2
i=1 ip

2
Portanto, Var(βbj ) = Pnσ e Cov(βbj , βb` ) = 0, para j 6= ` e j, ` = 1, . . . , p.
i=1 x2ij
Tem-se independência mútua entre os estimadores dos coeficientes.

11 Multicolinearidade
Multicolinearidade é o oposto da ortogonalidade. Ocorre quando há uma
alta correlação linear entre variáveis explicativas e consequentemente en-
tre os estimadores dos coeficientes da regressão linear múltipla. Uma con-
sequência prática é que det(X> X) ∼ = 0. Agumas fontes de multicolineari-
dade são as seguintes:

• Método empregado na coleta de dados

Os dados são coletados de um estrato da população onde há uma
alta correlação linear entre duas variáveis explicativas. Por exemplo,
num estudo de regressão em que tem-se como variáveis explicativas o
consumo de um produto alimentı́cio e o preço do produto alimentı́cio.
É razoável esperar nos estratos de renda mais baixa uma correlação
mais alta entre as duas variáveis explicativas.

• Restrições no modelo ou na população

Duas variáveis explicativas que têm uma correlação linear alta são
incluı́das no modelo. Por exemplo, consumo de energia elétrica e renda
percapita. Notas referentes às avaliações sobre qualidade e clareza das
aulas de um instrutor.

• Especificação do modelo
No modelo são incluı́dos vários termos que estão em função de uma
mesma variável explicativa. Por exemplo, numa regressão polinomial
em que são incluı́dos termos x + x2 + x3 + · · · .

• Modelo superdimensionado
Estudos com amostras pequenas e uma grande quantidade de variáveis
explicativas. Por exemplo, na área médica em geral tem-se amostras
pequenas com uma grande quantidade de informações por paciente.

45
11.1 Efeitos da Multicoliearidade
Para ilustrar considere o seguinte modelo de regressão linear múltipla:

yi = β1 xi1 + β2 xi2 + i ,

em que y1 , . . . , yn são valores observados da variável resposta com compri-

mento unitário, xi1 e xi2 são valores
Pn observados Pde variáveis explicativas com
comprimento unitário, em que i=1 xij = 0 e ni=1 x2ij = 1 para j = 1, 2, e
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n.
Para esse exemplo tem-se que
Pn Pn
x2

X> X = Pn i=1 i1 i=1 xi1 xi2 =
1 r12
,
P n 2
i=1 xi2 xi1 i=1 xi2 r12 1

em que r12 denota a correlação linear amostral entre X1 e X2 . Além disso

Pn
> i=1 xi1 yi r1y
X y= P n = ,
i=1 xi2 yi r2y

em que r1y e r2y denotam, respectivamente, as correlações lineares amostrais

entre X1 e Y e X2 e Y . Portanto, as estimativas de mı́nimos quadrados ficam
dadas por
" # " r1y −r12 r2y #
β 2
= (X X) X y = r2y(1−r 12 )
b1 > −1 >
β
b= −r12 r1y ,
β2
b
(1−r2 ) 12

e dependem das correlações lineares r12 , r1y e r2y . Além disso, a matriz de
variância-covariância para β
b assume a forma
 
σ2 σ 2 r12
2 − 2
b = σ 2 (X> X)−1 =  (1−r2 12 )
Var(β) (1−r12 ) 
.
σ r12 σ2
− (1−r 2 ) (1−r2 )
12 12

σ2 σ 2 r12
Ou seja, Var(βb1 ) = Var(βb2 ) = 2 )
(1−r12
e Cov(βb1 , βb2 ) = − (1−r 2 ) . E tem-se as
12
seguintes consequências:

• Se |r12 | → 1 então Var(βb1 ) e Var(βb2 ) ficam grandes.

• Se r12 → 1 então Cov(βb1 , βb2 ) → −∞.

• Se r12 → −1 então Cov(βb1 , βb2 ) → ∞.

46
11.2 Procedimentos para Detectar Multicolinearidade
Fator de Inflação da Variância
É possı́vel mostrar que

Var(βbj ) = σ 2 Cjj = σ 2 (1 − R2j )−1 ,

em que Cj` denota o (j, `)-ésimo elemento da matriz C = (X> X)−1 e R2j
denota o coeficiente de determinação da regressão linear da variável expli-
cativa Xj contra as demais variáveis explicativas X` , em que j 6= `, para
j, ` = 1, . . . , p. O fator de inflação de variância da j-ésima variável explica-
tiva é definido por
VIFj = (1 − R2j )−1 .
Assim, se R2j → 1 então VIFj → ∞, para j = 1, . . . , p. Para ilustrar,
supor três variáveis explicativas X1 , X2 e X3 cujos valores amostrais têm
comprimento unitário. Os VIFs saem das seguintes regressões:

• VIF1 : da regressão xi1 = β2 xi2 + β3 xi3 + i

• VIF2 : da regressão xi2 = β1 xi1 + β3 xi3 + i

• VIF3 : da regressão xi3 = β1 xi1 + β2 xi2 + i , para i = 1, . . . , n.

Critério: VIFj ≥ 10 indica que βbj está com variância inflacionada.

Número da Condição
Sejam λ1 , . . . , λp os autovalores da matrix X> X. Como é uma matriz
simétrica positiva definida todos os seus autovalores são não negativos. Con-
tudo, a existência de autovalores próximos de zero é indı́cio de multicoline-
aridade. Uma medida resumo de multicolinearidade entre as colunas da
matriz X é o número da condição definido por
λmax
k= .
λmin
Portanto, se esta razão é muito grande há indı́cios de multicolinearidade
com a matriz X> X.
Critério: (i) se k ≤ 100 não há indı́cios de multicolinearidade, (ii) se
100 < k ≤ 1000 há indı́cios moderados de multicolinearidade e (iii) se k >
1000 há indı́cios fortes de multicolinearidade.

47
Índice da Condição
Quando há indı́cios de multicolinearidade através do número da condição,
pode-se avaliar a contribuição de cada variável explicativa através do ı́ndice
da condição definido por
λmax
kj = ,
λj
para j = 1, . . . , p. Os mesmos critérios usados para o número da condição
são usados para o ı́ndice da condição.

Determinante da Matrix X> X

Se as variáveis explicativas têm comprimento unitário, mostra-se que

0 ≤ det(X> X) ≤ 1.

Logo, det(X> X) = 1 indica ortogonalidade entre as colunas da matriz X,

enquanto det(X> X) = 0 indica dependência linear entre as colunas da ma-
trix X. Valores próximos de zero são indı́cios de multicolinearidade.

11.3 Tratamentos da Multicolineridade

Alguns tratamentos para a multicolinearidade

• Coletar mais dados.

• Eliminação de variáveis explicativas.

• Transformação de variáveis explicativas.

• Regressão ridge.

• Regressão através de componentes principais.

Regressão ridge
O objetivo da regressão ridge é utilizar um estimador tendencioso que pro-
duza variâncias mais estáveis para os estimadores dos coeficientes da re-
gressão. Assim, seja βb ∗ um estimador tendencioso de β. Mostra-se que o
erro quadrático médio de βb ∗ pode ser expresso na forma

b ∗ ) = Var(β
EQM(β b ∗ ) + [Viés][Viés]> ,

48
em que Viés = E(β b ∗ )−β. A fim de estabilizar as estimativas dos coeficientes
da regressão linear múltipla bem com as respectivas variâncias é proposto o
seguinte estimador:
b = (X> X + kIp )−1 X> y,
β R

em que k > 0 é uma constante desconhecida que é estimada separadamente.

Em particular quando k = 0 recupera-se o estimador de mı́nimos quadrados.
Estima-se k até estabilizar as estimativas dos coeficientes. Na Figura 20 tem-
se um exemplo ilustrativo em que quatro coeficientes estão sendo ajustados
e nota-se uma estabilidade das estimativas a partir de k = 0, 10.
1.5

^
βR1
1.0
Coeficientes
0.5

^
βR2
0.0

^
βR3
^
βR4

0.00 0.05 0.10 0.15 0.20

Figura 20: Ilustração dos coeficientes estimados através da regressão ridge

variando-se o valor de k.

Denotando β b = Zk β,b em que Zk = (X> X + kIp )−1 (X> X), tem-se as

R
seguintes propriedades:

• E(β
b ) = E(Zk β)
R
b = Zk E(β)
b = Zk β.

• Var(β
b ) = Var(Zk β) b > = σ 2 Zk (X> X)−1 Z> .
b = Zk Var(β)Z
R k k

Em particular, se X> X = Ip tem-se que Zk = (1 + k)−1 Ip . Logo, E(β

b )=
R
−1
(1 + k) β e Var(β 2 −2
b ) = σ (1 + k) Ip . Ou seja, à medida que k cresce o
R

49
estimador ridge fica mais tendencioso havendo um encolhimento com relação
ao estimador de mı́nimos quadrados. A variância diminui com o aumento
de k.
Tem-se ainda que β b ∼ Np (E(β b ), Var(β b )). Daı́ segue que βbR são
R R R j

normais de média E(βbRj ) e variância Var(βbRj ), para j = 1, . . . , p. É possı́vel

mostrar que
b )> (y − Xβ
SQRes(k) = (y − Xβ b )
R R
= SQRes + (β b (X> X)(β
b − β) > b − β),
b
R R

em que SQRes denota a soma de quadrados de resı́duos da regressão de

mı́nimos quadrados. Portanto, na regressão ridge há um aumento na soma
de quadrados de resı́duos, logo uma redução no valor de R2 .
A constante k pode ser estimada através do processo iterativo

σ2
pb
k (m+1) = ,
b > (k (m) )β
β b (k (m) )
R R

b2 é obtido através do estimador de mı́nimos

para m = 0, 1, . . ., em que σ
quadrados β.b Para valor inicial utiliza-se o estimador de HKB (Montgomery
et al., 2021, Cap.9) dado por k (0) = pb b > β.
σ 2 /β b

Regressão dos Componentes Principais

A forma canônica da regressão linear múltipla y = Xβ + é definida por

y = Zα + ,

em que ∼ Nn (0, σ 2 In ), Z = XT, α = T> β e Z> Z = T> X> XT = Λ, com

Λ = diag{λ1 , . . . , λp } sendo a matriz diagonal p × p com os autovalores da
matriz X> X e T a matriz p × p cujas colunas são os autovetores ortonor-
mais (ortogonais com comprimento unitário) correspondentes aos autovalo-
res λ1 , . . . , λp . Como T é uma matriz ortonormal tem-se que T> = T−1 , e
daı́ segue que β = Tα. Sugere-se que y e a matriz X sejam centralizadas,
assim não precisa de intercepto.
Portanto, a estimativa de mı́nimos quadrados de α fica dada por

b = (Z> Z)−1 Z> y

α
= Λ−1 Z> y,

50
com matriz de variância-covariância expressa na forma
b = σ 2 (Z> Z)−1
Var(α)
= σ 2 Λ−1 .
Daı́ segue que Var(b αj ) = σ 2 λ−1
j . Assim, λj próximo de zero inflaciona a
variância de α
bj . Similarmente, segue que a matriz de variância-covariância
de β
b pode ser expressa na forma

Var(β)
b = Var(Tα)
b
b >
= TVar(α)T
= σ 2 TΛ−1 T> .
E daı́ pode-se mostrar que Var(βbj ) = σ 2 p`=1 t2j` /λ` , em que tj` denota
P
o (j, `)-ésimo elemento da matriz T. Esse resultado confirma o efeito de
autovalores próximos de zero na inflação da variância de βbj .
A partir da relação β
b = Tα,b a proposta da regressão dos componentes
principais é considerar os coeficientes estimados
b CP = Tα
β b CP ,
em que α b CP é um vetor p × 1 que contém os coeficientes estimados cor-
respondentes aos p − s maiores autovalores da matriz X> X e os demais
s coeficientes como sendo iguais a zero. Assim, os novos coeficientes esti-
mados βb1CP , . . . , βbpCP irão depender apenas das variáveis explicativas com
menor potencial de estarem causando multicolinearidade. Esses coeficients
estimados são interpretados de forma similar aos coeficientes estimados por
mı́nimos quadrados. Pp
Da relação Z = XT segue que Zj = `=1 X` t`j , em que Z1 , . . . , Zp
e X1 , . . . , Xp denotam, respectivamente, as colunas de Z e X, enquanto
t1j , . . . , tpj denotam os componentes do autovetor correspondente ao auto-
valor λj . Assim, se λj for próximo de zero os componentes de Zj devem ser
aproximadamente constantes. Deve-se portanto escolher os p − s componen-
tes principais Z1 , . . . , Z(p−s) que correspondem aos p−s maiores autovalores.

11.4 Aplicação
Como ilustração para o tópico de multicolinearidade será analisado um con-
junto de dados proposto em Montgomery et al. (2021, Tabela B.21) em que
o calor (em calorias por grama) de n = 13 amostras de cimento é relacionado
com as seguintes variáveis explicativas referentes a ingredientes usados na
mistura do cimento:

51
• X1 : aluminato tricálcico

• X2 : silicato tricálcico

• X3 : aluminato-ferrita tetracálcico

• X4 : silicato dicálcico.

Tabela 8: Matriz de correlações lineares amostrais de Pearson entre as

variáveis do exemplo sobre o calor do cimento em amostras de cimento.

Calor X1 X2 X3 X4
Calor 1,00 0,73 0,82 -0,54 -0,82
X1 1,00 0,23 -0,82 -0,25
X2 1,00 -0,14 -0,97
X3 1,00 0,03
X4 1,00

Nota-se pela Tabela 8 correlações lineares altas entre a resposta calor do

cimento e as variáveis explicativas X2 e X4 , enquanto entre as variáveis expli-
cativas nota-se correlação liner muito alta entre X2 e X4 , indicando possı́vel
multicolineridade nos dados. Nota-se pelo boxplot robusto da Figura 21 que
a distribuição da variável resposta é aproximadamente simétrica, enquanto
os diagramas de dispersão da Figura 22 confirmam as correlações lineares
descritas na Tabela 8.
Com base nos diagramas de dispersão o seguinte modelo é proposto:

cyi = β1 cxi1 + β2 cxi2 + β3 cxi3 + β4 cxi4 + i ,

em que cyi denota o calor da i-ésima amostra de cimento centralizada (sub-

traı́do da média amostral), bem como os valores das variáveis explicativas
iid
e i ∼ N(0, σ 2 ), para i = 1, . . . , 13. Dessa forma, não é necessário incluir o
intercepto.
Pela Tabela 9 apenas a variável X1 é marginalmente significativa. Os
gráficos de resı́duos são apresentados na Figura 23, não havendo indı́cios de
afastamentos da normalidade, de presença de observações aberrantes e de
variância não constante dos erros. Como a amostra é pequena a suposição
de normalidade dos erros é crucial para fazer inferência. A observação #8
aparece como possivelmente influente no gráfico da distância de Cook com

52
110
100
Calor do Cimento
90
80

Figura 21: Boxplot robusto da variável resposta calor do cimento.

k = 2 (Figura 24). Quando essa observação não é considerada na regressão

o valor-P correspondente à estimativa do coeficiente da variável X1 reduz
para 0,02, porém os demais coeficientes continuam não significativos e todos
com sinal positivo.

Tabela 9: Estimativas dos parâmetros referentes ao modelo de regressão

linear ajustado aos dados sobre o calor do cimento em amostras de cimento.

Efeito Estimativa E.Padrão valor-t valor-P

cx1 1,551 0,702 2,21 0,06
cx2 0,510 0,602 0,75 0,47
cx3 0,102 0,716 0,14 0,89
cx4 -0,144 0,669 -0,22 0,83
s 2,31
R2 0,98
2
R 0,97

Na Tabela 10 tem-se os VIFs corresponentes às 4 variáveis explicativos,

confirmando os indı́cios de multicolinearidade. As estimativas da regressão
ridge com k = 0, 076 (vide comportamento dos coeficientes etimados na
Figura 20) apresenta estimativas mais coerentes com a análise descritiva,
porém apenas a variável explicativa X1 é marginalmente significativa. Os

53
110

110
100

100
Calor do Cimento

Calor do Cimento
90

90
80

80
5 10 15 20 30 40 50 60 70
Aluminato Tricálcico Silicato Tricálcico
110

110
100

100
Calor do Cimento

Calor do Cimento
90

90
80

5 10 15 20 10 20 30 40 50 60
Aluminato−ferrita Tetracálcico Silicato Dicálcico

Figura 22: Diagramas de dispersão (com tendência) entre a variável resposta

calor do cimento e as demais variáveis explicativas.

autovalores da matriz X> X são respectivamente dados por λ1 = 6213, 56,

λ2 = 809, 96, λ3 = 148, 86 e λ4 = 2, 84 com autovalores ortonormais dados
abaixo.
Considerando apenas o primeiro componente principal, que explica 86,60%,
tem-se a seguinte relação:

z1 = −0, 067800cx1 − 0, 678516cx2 + 0, 029021cx3 + 0, 730874cx4 .

Com base nos diagramas de dispersão da Figura 22, o componente z1 au-

menta à medida que os valores das variáveis explicativas diminuem. O mo-

54
Tabela 10: Fator de inflação da variância das variáveis explicativas do mo-
delo de regressão linear ajustado aos dados sobre o calor do cimento em
amostras de cimento.

Variável VIF
cx1 38,49
cx2 254,42
cx3 46,87
cx4 282,51

Tabela 11: Estimativas dos parâmetros referentes ao modelo de regressão

ridge ajustado aos dados sobre o calor do cimento em amostras de cimento.

Efeito Estimativa Erro padrão valor-z

cx1 1,3460 0,6844 1,967
cx2 0,3236 0,6651 0,486
cx3 -0,1018 0,6934 -0,147
cx4 -0,3263 0,6514 -0,501
3
2

2
1

1
Resíduo Studentizado
Residuo Studentizado

0
0

−1
−1

−2
−2

−3

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−20 −10 0 10 20
Quantil da N(0,1)
Valor Ajustado

Figura 23: Gráficos de resı́duos referentes ao ajuste do modelo de regressão

linear aos dados sobre o calor do cimento em amostras de cimento.

55
T1 T2 T3 T4
-0,067800 0,646018 -0,567315 0,506180
-0,678516 0,019993 0,543969 0.493268
0,029021 -0,755310 -0,403554 0,515567
0,730874 0,108480 0,468398 0,484416

0.35

8
0.30
0.25
Distância de Cook
0.20
0.15
0.10
0.05
0.00

2 4 6 8 10 12
Índice

Figura 24: Gráfico da distância de Cook contra a ordem das observações

referente ao ajuste do modelo de regressão linear aos dados sobre o calor do
cimento em amostras de cimento.

delo na forma canônica fica dado por

cyi = zi1 α + i ,
iid
em que cyi denota o calor da i-ésima amostra de cimento centralizado e i ∼
N(0, σ 2 ), para i = 1, . . . , 13. Desse ajuste obtém-se α
b = −0, 5537(0, 1043),
que é altamente significativo. Assim, espera-se aumento do calor do cimento
à medida que aumenta z1 .

12 Seleção de Modelos
A seleção de modelos consiste em uma etapa importante e também complexa
na análise de regressão, principalmente quando há um grande número de

56
variáveis explicativas candidatas a entrarem no modelo. O fato das variáveis
explicativas em geral estarem correlacionadas dificulta a seleção de um sub-
conjunto de coeficientes que além de serem significativos sejam de fácil in-
terpretação. Sabe-se que a omissão de coeficientes significativos pode levar
a estimativas tendenciosas para os demais coeficientes da regressão. Assim,
a seleção de modelos pode ser considerado um procedimentos que envolve
técnica e bom senso. Nesta seção serão apresentados alguns procedimentos
tradicionais de seleção de modelos em regressão linear múltipla.

12.1 Todas Regressões Possı́veis

Supor um total de (p − 1) variáveis explicativas a serem selecionadas num
modelo de regressão e seja T o total de regressões possı́veis. Tem-se que

p−1 p−1 p−1
T =1+ + + ··· + = 2(p−1) .
1 2 p−1

Por exemplo, se p = 4 (3 variáveis explicativas), haverá um total de T =

1 + 3 + 3 + 1 = 8 regressões possı́veis.

Maior R2k
Seja R2k o coeficiente de determinação de um submodelo com k coeficientes
((k − 1) variáveis explicativas + intercepto), definido por

SQReg(k)
R2k =
SQT
SQRes(k)
= 1− .
SQT

Esse critério procura um submodelo com R2k alto e k pequeno (vide Figura
2
25). Alternativamente, denote por Rk o coeficiente de determinação ajus-
tado do submodelo com k coeficientes. Tem-se que

2 (n − 1)
Rk = 1 − (1 − R2k ) .
(n − k)
2
Pode-se adotar como critério a escolha de um submodelo com Rk alto e k
2
pequeno. Contudo, Rk não necessariamente cresce com k.

57
Coeficiente de Determinação

Figura 25: Comportamento do coeficiente de determinação R2k com o número

k de coeficientes.

Menor s2k
Seja s2k o erro quadrático médio de um submodelo com k, sendo denotado
por
SQRes(k)
s2k = .
n−k
Esse critério procura um submodelo com s2k pequeno e k pequeno. Conforme
descrito pela Figura 26 nem sempre o erro quadrático médio decresce com
o aumento do número de coeficientes.
Mostra-se que

2 (n − 1)
Rk = 1 − (1 − R2k )
(n − k)

(n − 1) SQReg(k)
= 1− 1−
(n − k) SQT
(n − 1) SQRes(k)
= 1−
(n − k) SQT
(n − 1) 2
= 1− s .
SQT k

58
Erro Quadrático Médio

Figura 26: Comportamento do erro quadrático médio s2k com o número k

de coeficientes.

2
Assim, minimizar s2k é equivalente a maximizar Rk .

Critério de Mallows
Um outro método, conhecido como critério de Mallows, está relacionado com
o erro quadrático médio do i-ésimo valor ajustado Ybi do submodelo com k
coeficientes

E{Ybi − E(Yi )}2 = Var(Ybi ) + {E(Ybi ) − E(Yi )}2 .

A soma dos vieses ao quadrado do submodelo com k coeficientes fica dada

por
n
X
2
{Viés(k)} = {E(Ybi ) − E(Yi )}2 ,
i=1
em que E(Yi ) denota o valor esperado do modelo correto. Uma forma pa-
dronizada para o erro quadrático médio do submodelo com k coeficientes é
expressa na forma
" n n
#
1 X 2
X
EQM(k) = 2 {E(Ybi ) − E(Yi )} + Var(Ybi ) .
σ
i=1 i=1

59
Pn b = kσ 2 obtém-se
Usando o resultado i=1 Var(Yi )

{Viés(k)}2
EQM(k) = + k.
σ2
Por outro lado

E{SQRes(k)} = {Viés(k)}2 + (n − k)σ 2 .

Portanto, o erro quadrático médio padronizado assume a forma

E{SQRes(k)}
EQM(k) = − n + 2k.
σ2
Deve-se escolher submodelos com EQM(k) pequeno.
A estatı́stica Ck de Mallows é definida por

SQRes(k)
Ck = − n + 2k,
b2
σ
b2 deve ser obtido de um modelo bem ajustado. Sob viés zero tem-se
em que σ
que
(n − k)σ 2
E(Ck |Viés = 0) = − n + 2k = k.
σ2
Portanto, deve-se escolher submodelos com Ck pequenos tais que Ck ∼ = k.
Para um mesmo k, submodelos com Ck < k têm uma SQRes menor, en-
quanto submodelos com Ck > k têm uma SQRes maior.
Na Figura 27 são ilustrados 3 submodelos hipóteticos, A, B e C. O sub-
modelo A é o pior submodelo, tem Ck alto e viés alto. O submodelo B tem
um Ck menor e viés pequeno. Já o submodelo C tem um viés um pouco
maior do que o submodelo B, porém um Ck bem menor, assim poderia ser
o submodelo escolhido.

Critério Press
Finalmente, tem-se o critério Press que consiste em escolher o submodelo
com o menor valor para a estatı́stica
n
X
Pressk = {yi − yb(i) }2 ,
i=1

em que yb(i) denota o valor predito para yi do ajuste do submodelo com k

coeficientes sem a i-ésima observação. Desde que yb(i) = x>
i β (i) , usando a
b

60
A

Ck = k

B
Estatística de Mallows

Figura 27: Descrição da reta Ck = k e da estatı́stica de Mallows para três

submodelos hipotéticos A, B e C.

expressão para βb descrita na Seção 6.5 obtém-se

(i)

> b ri > −1
yi − yb(i) = yi − xi β − (X X) xi
(1 − hii )
ri
= (yi − x>i β) +
b x> (X> X)−1 xi
(1 − hii ) i
ri hii
= ri +
(1 − hii )
ri
= .
(1 − hii )
Logo, segue que
n 2
X ri
Pressk = ,
1 − hii
i=1
em que ri e hii denotam, respectivamente, o i-ésimo resı́duo ordinário e
i-ésima medida de alavanca do submodelo com k coeficientes. Como a es-
tatı́stica Pressk cresce com o tamanho amostral n, uma proposta alternativa
é considerar a estatı́stica Pressk = Pressk /n.

61
Assim, a fim de selecionar um submodelo usando os critérios: R2k maior,
s2K menor, Ck ∼ = k e pequeno e menor Pressk , deve-se ajustar todas as
T = 2(p−1) regressões possı́veis e selecionar um submodelo seguindo os 4
critérios descritos.

12.2 Métodos Sequenciais

Critérios de Akaike e de Schwartz
Seja L(θ) o logaritmo da função de verossimilhança de um modelo de re-
gressão com p coeficientes a serem estimados. O método de Akaike consiste
em escolher um submodelo que maximize L(θ) minimizando o número de
coeficientes. Isso é equivalente a minimizar a função penalizada abaixo

AICk = −2L(θ)
b + 2k,

em que 1 ≤ k ≤ p denota o número de coeficientes do submodelo.

No caso
SQRes
de regressão linear múltipla mostra-se que AICk = n log n + 2k (vide
Exercı́cio 10). Similarmente ao método de Akaike o método de Schwartz
consiste em maximizar L(θ) também minimizando o número de coeficientes
da regressão, porém com uma penalização diferente. O método é equivalente
a minimizar a função abaixo

BICk = −2L(θ)
b + k log(n).

SQRes
Para a regressão linear múltipla tem-se que BICk = n log n +k log(n).

Método LASSO
O método LASSO é utilizado para a seleção de variáveis explicativas (na
forma padronizada) eliminando coeficientes da regressão cujas estimativas
estejam próximas de zero. No contexto de mı́nimos quadrados o método é
equivalente a minimizar a função abaixo
n
X p
X
S(β, λ) = (yi − x> 2
i β) + λ |βj |,
i=1 j=2

em que β = (β1 , . . . , βp )> , xi = (xi1 , . . . , xip )> e λ ≥ 0 é o parâmetro

de penalização. Quando λ = 0 tem-se o método de mı́nimos quadrados e
quando λ → ∞ todos os coeficientes tendem a zero.

62
Critério Forward
Passo 1
Ajustar todas as regressões possı́veis com apenas 1 variável explicativa. Isto
é, ajustar as regressões
yi = β1 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 2, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj ) H0
Fj = ∼ F1,(n−2) .
s2 (xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P2 , . . . , Pp }. Se Pmin ≤ PE

então a variável explicativa correspondente entra no modelo. Supor que X2
entra no modelo.

Passo 2
Ajustar todas as regressões possı́veis com apenas X2 mais uma variável
explicativa. Isto é, ajustar as regressões

yi = β1 + β2 xi2 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 3, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj |x2 ) H0
Fj = ∼ F1,(n−3) .
s2 (x2 , xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P3 , . . . , Pp }. Se Pmin ≤ PE

então a variável explicativa correspondente entra no modelo. Supor que X3
entra no modelo.

Passo 3
Ajustar todas as regressões possı́veis com apenas X2 e X3 mais uma variável
explicativa. Isto é, ajustar as regressões

yi = β1 + β2 xi2 + β3 xi3 + βj xij + i ,

63
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 4, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj |x2 , x3 ) H0
Fj = ∼ F1,(n−4) .
s2 (x2 , x3 , xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P4 , . . . , Pp }. Se Pmin ≤ PE

então a variável explicativa correspondente entra no modelo. Se Pmin > PE
parar o processo, nenhuma variável entra no modelo.

Critério Backward
Passo 1
Ajustar a regressão com todas as variáveis explicativas. Isto é, ajustar o
seguinte modelo:

yi = β1 + β2 xi2 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p) .
s2 (x2 , . . . , xp )

Denote Pj o valor-P do teste, para j = 2, . . . , p. Seja Pmax = max{P2 , . . . , Pp }.

Se Pmax ≥ PS então a variável explicativa correspondente sai do modelo. Su-
por que X2 sai do modelo.

Passo 2
Ajustar a regressão sem a variável explicativa X2 . Isto é, ajustar o seguinte
modelo:
yi = β1 + β3 xi3 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p−1) .
s2 (x3 , . . . , xp )

Denote Pj o valor-P do teste, para j = 3, . . . , p. Seja Pmax = max{P3 , . . . , Pp }.

Se Pmax < PS o processo é terminado, nenhuma variável sai do modelo.

64
Critério Stepwise
O critério stepwise é uma combinação dos critérios forward e backward.

Passo 1
Ajustar todas as regressões com apenas uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X2 entrou no modelo.

Passo 2
Ajustar todas as regressões com X2 mais uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X3 entrou no modelo. Verificar se X2 sai do modelo dado que X3 está
no modelo.

Passo 3
O processo stepwise deve continuar até que não seja possı́vel incluir nenhuma
variável no modelo, nem retirar nenhuma variável do modelo.

Critérios de Parada
Não há um consenso na área de regressão a respeito de critérios de parada
para os processos sequenciais. Alguns critérios mais utilizados:

(i) usar FE = FS = 4 que equivale aproximadamente a usar PE = PS =

0, 05;

(ii) ser mais flexı́vel na entrada do que na saı́da PE = 0, 25 e PS = 0, 10,

ou com os mesmos critérios na entrada e na saı́da PE = PS = 0, 15.

12.3 Estratégias para a Seleção de Modelos

Portanto, não há uma receita pronta para a seleção de modelos a partir de
um conjunto de variáveis explicativas. Em Montgomery et al. (2021, Seção
10.3) há uma longa discussão a respeito de possı́veis estratégias para seleção
de modelos através dos critérios propostos nesta seção.
Segundo os autores, quando o número de variáveis explicativas é relativa-
mente pequeno pode ser factı́vel ajustar todas as regressões possı́ves e sele-
cionar algumas candidatas segundo os critérios R2k maior, s2K menor, Ck ∼ =k
e pequeno e menor Pressk . Para as regressões selecionadas sugere-se fazer

65
uma análise de diagnóstico e levar em conta aspectos como a importância,
custo e facilidade de interpretação das variáveis explicativas, bem como da
capacidade de predição do modelo.
Os métodos sequenciais forward, backward e stepwise são recomendados
quando há um número médio ou alto de variáveis explicativas, contudo exi-
gem os nı́veis de significância de entrada e saı́da das variáveis explicativas.
Já os métodos de Akaike e de Schwartz são mais recomendados quando há
um grande número de variáveis explicativas no sentido de se fazer uma pré-
seleção de variáveis sem a necessidade de estabelecer nı́veis de significância.
Todos os métodos sequencias podem ser combinados com o ajuste de todas
as regressões possı́veis.
A seleção de modelos pode ficar mais complexa quando há interesse em
selecionar variáveis explicativas que estejam relacionadas no sentido causa-
efeito com a resposta, como ocorre por exemplo na área médica. Nesses
casos, os algoritmos em geral são combinações de procedimentos sequenciais
com procedimentos que procuram evitar a eliminação precoce de variáveis
explicativas potenciais no sentido causa-efeito. Em Dunkler et al. (2014)
há uma proposta de algoritmo hı́brido que combina o procedimento de eli-
minação backward com procedimentos que levam em conta o efeito da eli-
minação de variáveis explicativas nos coeficientes das variáveuis mantidas
no modelo.

13 Aplicações
13.1 Venda de Telhados
Considere novamente os dados descritos em Neter et al. (1996, p.449) re-
ferentes à venda no ano anterior de um tipo de telhado de madeira em
n = 26 filiais de uma rede de lojas de construção civil, agora com as seguin-
tes variáveis:

(i) Telhados: total de telhados vendidos (em mil metros quadrados),

(ii) Nclientes: número de clientes cadastrados na loja (em milhares),

(iii) Gastos: gastos pela loja com promoções do produto (em mil USD),

(iv) Marcas: número de marcas concorrentes do produto e

(v) Potencial: potencial da loja (quanto maior o valor maior o potencial).

66
O interesse é explicar o número médio de telhados vendidos dadas as de-
mais variáveis. Na Tabela 12 tem-se as estimativas da correlação linear de
Pearson entre as variáveis do exemplo vendas de telhados. Nota-se uma
baixa correlação entre telhados e gastos, altas correlações entre telhados
com número de clientes e marcas e uma correlação moderada com potencial
da loja. Entre as variáveis explicativas nota-se correlações baixas, exceto
uma correlação moderada entre número de clientes e potencial da loja. As
correlações descritas na Tabela 12 estão coerentes com os diagramas de dis-
persão apresentados nas Figuras 28 e 29.

Tabela 12: Matriz de correlações lineares amostrais de Pearson entre as

variáveis do exemplo vendas de telhados.

Telhados Gastos Nclientes Marcas Potencial

Telhados 1,0 0,159 0,783 -0,833 0.407
Gastos 1,0 0,173 -0,038 -0,070
Nclientes 1,0 -0,324 0,468
Marcas 1,0 -0,202
Potencial 1,0
350

350
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200
150

150
100

100
50

30 40 50 60 70 3 4 5 6 7 8 9
Clientes Cadastrados Gastos

Figura 28: Diagramas de dispersão (com tendência) entre o total de telhados

vendidos e o número de clientes cadastrados (esquerda) e gastos pela loja
com promoções (direita).

67
350

350
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200
150

150
100

100
50

50
4 6 8 10 12 5 10 15
Marcas Concorrentes Potencial da Loja

Figura 29: Diagramas de dispersão (com tendência) entre o total de telhados

vendidos e o número de marcas concorrentes do produto (esquerda) e o
potencial da loja (direita).

O primeiro critério a ser aplicado para selecionar um submodelo linear

normal é com todas as regressões possı́veis, cujos resultados das medidas
resumo são apresentados na Tabela 13. Dois submodelos se destacam se-
gundo os 4 critérios utilizados: 1 + Nclientes + Marcas e 1 + Gastos +
Ncientes + Marcas. Levando-se em conta o número de variáveis explicativas
o submodelo 1 + Nclientes + Marcas poderia ser escolhido, contudo deve-se
fazer antes uma análise de diagnóstico com cada submodelo.
Os dois submodelos selecionados 1 + Nclientes + Marcas e 1 + Gas-
tos + Ncientes + Marcas apresentaram excelentes ajustes, conforme pode
ser observado pelas Tabelas 14 e 15 e pelos gráficos de resı́duos descritos
nas Figuras 30 e 31. Porém, a variável explicativa gastos aparece marginal-
mente não significativa no 2o submodelo. Ambos os submodelos destacam
os mesmos pontos potencialmente influentes pela distância de Cook com
k = 2 (Figura 32). A eliminação da observação #21 deixa a variável expli-
cativa gastos significativa ao nı́vel de 5% no 2o submodelo. Portanto, essa
observação está mascarando o efeito de gastos. Assim, deve-se escolher o
submodelo 1 + Gastos + Nclientes + Marcas.
O segundo critério a ser aplicado é o método sequencial stepwise com
PE = PS = 0, 15. Na Tabela 16 tem-se um resumo dos 6 passos necessários
para selecionar um submodelo. No 1o passo entra a variável marcas e no 2o
passo entra a variável número de clientes. No 3o passo a variável marcas

68
Tabela 13: Medidas resumo dos 16 submodelos para explicar o número médio
de telhados vendidos, em que T:Telhados, G:Gastos, N:Nclientes, M:Marcas,
P:Potencial e k denota o número de parâmetros.

Submodelo1 k−1 k R2k sk Ck Pressk

1 0 1 0,00 84,6 1960,2 7434,5
1+G 1 2 0,025 85,2 1912,1 7829,8
1+N 1 2 0,613 53,7 746,2 3115,0
1+M 1 2 0,694 47,8 585,4 2428,8
1+P 1 2 0,166 78.8 1633,1 6522,2
1+G+N 2 3 0,613 54,8 747,0 3508,8
1+G+M 2 3 0,710 47,5 555,4 2543,8
1+G+P 2 3 0,201 78,8 1564,9 6770,1
1+N+M 2 3 0,988 9,8 4,5 113,6
1+N+P 2 3 0,615 54,7 744,0 3330,4
1+M+P 2 3 0,753 43,8 469,3 2166,2
1+G+N+M 3 4 0,989 9,5 4,0 115,4
1+G+N+P 3 4 0,616 55,9 743,9 3726,5
1+G+P+M 3 4 0,775 42,6 428,4 2222,4
1+N+P+M 3 4 0,988 10,0 6,4 120,8
1+G+N+P+M 4 5 0,989 9,6 5,5 119,5

Tabela 14: Estimativas referentes ao submodelo 1 + N + M.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 186,694 12,259 15,23 0,00
Nclientes 3,408 0,146 23,37 0,00
Marcas -21,193 0,803 -26,40 0,00
s 9,803
R2 0,988
2
R 0,987

não sai do modelo. Já no 4o passo entra no modelo a variável gastos e no

5o passo nenhuma variável sai do modelo e finalmente no 6o passo a última
variável potencial não entra no modelo. Assim, o submodelo selecionado pelo

69
Tabela 15: Estimativas referentes ao submodelo 1 + G + N + M.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 179,844 12,621 14,25 0,00
Gastos 1,677 1,052 1,59 0,12
Nclientes 3,369 0,143 23,52 0,00
Marcas -21,217 0,773 -27,30 0,00
s 9,491
R2 0,989
2
R 0,987

Tabela 16: Resumo dos passos do procedimento stepwise com PE = PS =

0, 15 e valores-P em cada passo para selecionar as variáveis explicativas do
exemplo venda de telhados.

Passo Gastos Nclientes Marcas Potencial

Passo 1 0,4382 0,0000 0,0000 0,0389
Passo 2 0,2693 0,0000 - 0,0274
Passo 3 - - 0,0000 -
Passo 4 0,1252 - - 0,6968
Passo 5 - 0,0000 0,0000 -
Passo 6 - - - 0,4854

procedimento stepwise coincide com o submodelo selecionado pelo critério

com todas as regrossões possı́veis.
Finalmente, aplicando o critério de Akaike obtém-se como menor valor
AIC = 120, 67, que corresponde ao mesmo submodelo obtido com os dois
procedimentos anteriores. Portanto, o submodelo selecionado contém as
variáveis explicativas gastos, número de clientes e marcas, além da cons-
tante, cujas estimativas são apresentadas na Tabela 15. Interpretando as
estimativas tem-se que a cada aumento de USD 1000 nos gastos da loja com
promoções e de 100 clientes cadastrados, espera-se aumento de 1677 mil m2
e 337 mil m2 de telhados vendidos, respectivamente. Por outro lado, um
aumento de 10 marcas concorrentes leva a uma redução média de 212 mil
m2 de telhados vendidos.

70
3
3
2

2
1

1
Resíduo Studentizado

Resíduo Studentizado
0

0
−1

−1
−2

−2
−3
−4

−3
−2 −1 0 1 2 −2 −1 0 1 2
Percentil da N(0,1) Percentil da N(0,1)

Figura 30: Gráficos normais de probabilidades referentes aos submodelos 1

+ N + M (esquerda) e 1 + G + N + M (direita).
3
3

2
2

1
Resíduo Studentizado

Resíduo Studentizado
1

0
0

−1
−1

−2
−2

−3
−3

50 100 150 200 250 300 350 50 100 150 200 250 300 350
Valor Ajustado Valor Ajustado

Figura 31: Gráficos do resı́duo Studentizado contra o valor ajustado refe-

rentes aos submodelo 1 + N + M (esquerda) e 1 + G + N + M (direita).

71
0.35
8 8
0.25

0.30
21
21

0.25
0.20
Distância de Cook

Distância de Cook
0.20
0.15

0.15
0.10

0.10
0.05

0.05
0.00

0.00
0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice

Figura 32: Gráficos da distância de Cook referentes aos submodelos 1 + N

+ M (esquerda) e 1 + G + N + M (direita).

13.2 Salário de Executivos

Considere os dados de uma pesquisa realizada por uma revista de negócios
sobre o salário anual de executivos (em mil USD) descrita em Foster et
al. (1998, pp. 180-188), em que uma amostra aleatória de 220 executivos
(145 homens e 75 mulheres) foi coletada. Além do salário anual foram
consideradas as seguintes variáveis explicativas:

(i) Gênero (1: masculino; 0: feminino),

(ii) Posição: posição na empresa (varia de 1 a 9), quanto maior o valor

mais alta a posição e

(iii) Experiência: anos de experiência no cargo ou tempo no cargo.

O objetivo principal do estudo é explicar o salário médio anual segundo as

três variáveis explicativas. As Figuras 33 e 34 descrevem, respectivamente,
os bloxplots robustos do salário anual segundo o gênero e as respectivas
densidades empı́ricas. Nota-se uma ligeira superioridade dos salários anuais
dos executivos. Isso é confirmado pela Tabela 17 onde são descritas as
médias salariais com os respectivos erros padrão e o test-t para comparação
de médias. A hipótese de igualdade de médias entre os dois grupos é rejeitada

72
170
160
150
Salario

140
130
120
110

Feminino Masculino

Figura 33: Boxplot robusto do salário anual segundo o gênero. 0.030

0.030

0.025
0.025

0.020
0.020
Densidade

Densidade

0.015
0.015

0.010
0.010

0.005
0.005
0.000

0.000

100 120 140 160 180 120 140 160 180

Salário Anual (em mil USD) Salário Anual (em mil USD)

Figura 34: Densidade do salário anual dos executivos (esquerda) e das exe-
cutivas (direita).

ao nı́vel de significância de 5%. Há, portanto, indı́cios que os executivos em

média ganham mais do que as executivas.
Com relação à posição na empresa e experiência no cargo, nota-se pela
Figura 35 que os executivos ecupam em geral posições mais altas e têm
mais experiência do que as executivas. Os diagramas de dispersão entre

73
Tabela 17: Descrição dos salários médios anuais com os respectivos erros
padrão e do teste-t de igualdede de médias.

Gênero Amostra Média E.Padrão

Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferença Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padrão 1,77

25
8

20
6

Experiencia

15
Posicao

10
5
2

Feminino Masculino Feminino Masculino

Figura 35: Boxplots robustos da posição e da experiência segundo o gênero.

o salário anual e a posição para ambos os gêneros (Figura 36) descrevem

tendências crescentes, enquanto os diagramas de dispersão entre salário e
experiência indicam também tendências crescentes (Figura 37), porém com
menor intensidade.
Essas análises descritivas sugerem, em princı́pio, o seguinte modelo li-
near:
yi = β1 + β2 gêneroi + β3 experiênciai + β4 posiçãoi + i , (6)
iid
em que yi denota o salário do i-ésimo executivo da amostra com i ∼
N(0, σ 2 ), para i = 1, . . . , 220.

74
Feminino Masculino

170
170

160
160

150
150
Salário

Salário
140
140

130
130

120
120

2 4 6 8 110 2 3 4 5 6 7 8 9
Posição Posição

Figura 36: Diagrama de dispersão (com tendência) entre salário e posição

segundo o gênero.

Feminino Masculino
170
170

160
160

150
150
Salário

Salário
140
140

130
130

120
120

110

5 10 15 20 5 10 15 20 25
Experiência Experiência

Figura 37: Diagrama de dispersão (com tendência) entre salário e ex-

periência segundo o gênero.

75
As estimativas referentes ao modelo (6) estão descritas na Tabela 18 e
pode-se notar que todos os efeitos são marginalmente significativos. Em par-
ticular, nota-se que à medida que aumenta a posição na empresa espera-se
maior salário, fixados os demais efeitos. A experiência, segundo o modelo
ajustado, à medida que aumenta tende a reduzir o salário médio e as execu-
tivas, quando comparadas com os executivos nos mesmos nı́veis de posição e
experiência, têm um salário esperado maior. Esses resultados parecem con-
tradizer parte da análise descritiva, contudo são interpretações diferentes.
A análise descritiva faz comparações marginais, enquanto a análise de re-
gressão leva em conta todas as variáveis conjuntamente. Segundo as análises
de resı́duos (omitidas aqui) o modelo está bem ajustado, porém Foster et
al.(1998) sugerem a inclusão de interações para agregar mais interpretações.

Tabela 18: Estimativas dos parâmetros referentes ao modelo de regressão

linear múltipla (6) ajustado aos dados sobre salário de executivos.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 115,262 1,491 82,25 0,00
Experiência -0,472 0,113 -4,17 0,00
GêneroM -2,201 1,080 -2,04 0,04
Posição 6,710 0,313 21,46 0,00
s 6,77
R2 0,71
2
R 0,71

Tabela 19: Teste F para a inclusão de interação no modelo (6).

Interação valor-F valor-P

gênero*experiência 1,615 0,20
gênero*posicão 0,001 0,97
experiência*posição 7,594 0,00

A Tabela 19 apresenta os valores da estatı́stica F com os respectivos

valores-P para a inclusão de cada interação no modelo (6). Nota-se que ape-
nas a interação entre experiência e posição será incluı́da no modelo. Assim,
o seguinte modelo será considerado:

76
yi = β1 + β2 gêneroi + β3 experiênciai + β4 posiçãoi +
+γexperiênciai ∗ posiçãoi + i , (7)
iid
em que yi denota o salário do i-ésimo executivo da amostra com i ∼
N(0, σ 2 ), para i = 1, . . . , 220. Na Tabela 20 são apresentadas as estima-
tivas do ajuste do modelo (7) aos dados sobre salário de executivos. Nota-se
confirmação da inclusão da interação entre experiência e posição, contudo o
efeito principal de experiência ficou não significativo. Não houve variações
importantes nos coeficientes de determinação, indicando que a qualidade
do ajuste permanece a mesma. Confirma-se pela estimativa do coeficiente
de gênero que as executivas ganham em média mais do que os executivos,
fixando-se os nı́veis de posição e experiência.

Tabela 20: Estimativas dos parâmetros referentes ao modelo de regressão

linear múltipla (7) ajustado aos dados sobre salário de executivos.

Efeito Estimativa E.Padrão valor-t valor-P

Constante 108,042 2,961 36,48 0,00
Experiência 0,336 0,314 1,07 0,28
GêneroM -2,811 1,087 -2,59 0,01
Posição 8,096 0,590 13,73 0,00
Exper*Posição -0,135 0,049 -2,76 0,00
s 6,67
R2 0,72
2
R 0,72

Pela Figura 38 não há indı́cios de afastamentos da normalidade e da

constância de variância dos erros, bem como ausência de observações aber-
rantes. Contudo, pelo gráfico da distância de Cook com k = 4 (Figura 39)
três observações são destacadas como possivelmente influentes. Apenas as
observações #4 e #30 causam variações desproporcionais, respectivamente,
de -14% e 11% na estimativa do coeficiente de gênero, embora não ocorram
mudanças inferencias. A observação #4 é de uma executiva com salário
anual de USD 139 mil (média USD 140,5 mil), posição 7 (média 4,3) e 13,9
anos de experiência (média 7,3 anos), enquanto a observação #30 é de um
executivo com salário anual de USD 110 mil (média USD 144,1 mil), posição
2 (média 5,3) e 2,4 anos de experiência (média 12,2 anos).

77
4
2

2
Resíduo Studentizado
Resíduo Studentizado

0
−2

−2
−3 −2 −1 0 1 2 3
120 130 140 150 160
Percentil da N(0,1) Valor Ajustado

Figura 38: Análise de resı́duos referente ao modelo (7) ajustado aos dados
sobre salário de executivos.

30
0.05

4
0.04

144
Distância de Cook
0.03
0.02
0.01
0.00

0 50 100 150 200

Índice

Figura 39: Distância de Cook contra a ordem das observações referente ao

modelo (6) ajustado aos dados sobre salário de executivos.

O modelo ajustado fica então dado por

yb(x) = 108, 042 + 0, 336experiência − 2, 811gênero +
+8, 096posição − 0, 135posição ∗ experiência,

78
180
160

9
Salário Predito

8
7
6
140

5
4
3
2
1
120

0 5 10 15 20 25
Esperiência no Cargo

Figura 40: Salário médio estimado das executivas segundo a experiência e a

posição.
180
160

9
Salário Predito

8
7
140

6
5
4
3
2
120

0 5 10 15 20 25
Esperiência no Cargo

Figura 41: Salário médio estimado dos executivos segundo a experiência e a

posição.

em que x = (1, experiência, gênero, posição)> .

Finalmente, nas Figuras 40 e 41 tem-se os salários preditos para exe-

79
cutivas e executivos, conforme variam a experiência e a posição. Nota-se
que o salário predito para as executivas é sempre maior do que o salário
predito para os executivos, fixados os nı́veis de experiência e posição. Para
ambos os grupos o salário tende a crescer com o aumento do tempo no cargo
nas posições iniciais 1 e 2. Contudo, nas demais posições o salário tende a
decrescer com o aumento do tempo no cargo. Fixando-se a experiência o
salário aumenta à medida que aumenta a posição. Todavia, a diferença sa-
larial entre duas posições quaisquer tende a diminuir à medida que aumenta
a experiência. Portanto, uma conclusão que pode-se extrair da interação
entre posição e experiência é que não vale a pena do ponto de vista salarial
ficar muito tempo no mesmo cargo.

14 Regressão por Partes

Quando a relação entre a variável resposta e alguma variável explicativa
contı́nua é não linear, pode-se pensar em ajustar um polinômio a fim de ob-
ter um ajuste adequado, ou aplicar algum tipo de transformação na variável
explicativa de modo que a relação entre as duas variáveis fique aproximada-
mente linear. Nesse segundo caso, muda-se a escala da variável explicativa
dificultando a interpretação do coeficiente correspondente da regressão, con-
tudo implicando num modelo mais simples. No caso polinomial, à medida
que o grau do polinômio aumenta tem-se um modelo mais complexo com
possibilidade de multicolinearidade. Uma forma de amenizar a complexidade
desses polinômios, sem comprometer a aplicação do método de mı́nimos qua-
drados, é através da regressão por partes. Nesse procedimento, o domı́nio
da variável explicativa é dividido em partes através de nós (pontos de mu-
dança) escolhidos pelo analista, sendo ajustada uma regressão polinomial
de grau cúbico em cada uma das partes que são segmentadas formando um
único ajuste. Esse procedimento é intermediário entre a regressão tradicio-
nal paramétrica e a regressão não paramétrica ou aditiva, em que métodos
mais sofisticados são utilizados.
Como motivação, considere os dados do experimento em que a queda de
tensão da bateria (em voltagem) de um motor de mı́ssil guiado é observada
ao longo do tempo (em segundos), em 41 instantes (Montgomery et al., 2012,
Seção 7.2.2). Esses dados são descritos na Figura 42, e nota-se um compor-
tamente não linear, aumento da tensão da voltagem até aproximadamente
12 segundos seguido de uma queda até aproximadamente 20 segundos.
Pode-se propor para ajustar os dados o seguinte modelo:

yi = f (xi ) + i ,

80
14
12
Voltagem

10
8

0 5 10 15 20

Tempo

Figura 42: Diagrama de dispersão entre a queda da tensão da bateria (em

voltagem) e o tempo (em segundos).

em que yi denota a tensão da voltagem no i-ésimo instante, i ’s são erros

aleatórios, i = 1, . . . , 41, e f (x) uma função suave do tempo. Como men-
cionado anteriormente, pode-se dividir o domı́nio da variável explicativa X
em partes separadas por nós, sendo em cada parte ajustada uma curva de
regressão. Depois junta-se as curvas.
Para um único ponto de mudança t, define-se o seguinte tipo de função:

(x − t)r se x > t

r
(x − t)+ =
0 se x ≤ t,

para r = 0, 1, 2, . . .. Como ilustração de um exemplo com um único ponto de

mudança t, supor o ajuste de duas retas com inclinações diferentes através
do modelo
y = f (x) + ,
em que f (x) = β0 +β1 x+γ(x−t)+ . Logo, para x ≤ t tem-se f1 (x) = β0 +β1 x
e para x > t tem-se f2 (x) = (β0 − γt) + (β1 + γ)x. Note que quando x = t
tem-se f1 (x) = f2 (x), portanto há continuidade das duas retas. Assim, um

81
modelo de regressão linear seria dado por

yi = β0 + β1 xi + γ(xi − t)+ + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 , a matriz modelo fica dada por
 
1 x1 0
 .. .. .. 
 . . . 
 
 1 xs 0 
X=  .
 1 x s+1 (x s+1 − t) 

 .. .. .. 
 . . . 
1 xn (xn − t)

Uma proposta mais flexı́vel, para um único ponto de mudança t, é con-

siderar a seguinte função cúbica:

f (x) = β0 + β1 x + β2 x2 + β3 x3 + γ0 (x − t)0+ + γ1 (x − t)1+ +

+γ2 (x − t)2+ + γ3 (x − t)3+ .

Contudo, é necessário impor condições de continuidade para f (x), f 0 (x) e

f 00 (x) em x = t, que implica nas restrições γ0 = 0, γ1 = 0 e γ2 = 0. Assim,
tem-se uma função cúbica mais simples

f (x) = β0 + β1 x + β2 x2 + β3 x3 + γ3 (x − t)3+ .

O modelo correspondente de regressão linear fica dado por

yi = β0 + β1 xi + β2 x2i + β3 x3i + γ3 (xi − t)3+ + i ,

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 a matriz modelo fica dada por

x21 x23
 
1 x1 0
 .. .. .. .. .. 
 . . . . . 
2 3
 
 1 x s x s x s 0 
X=  1 xs+1 x2 3
.
 s+1 x s+1 (xs+1 − t)3 

 .. .. .. .. .. 
 . . . . . 
1 xn x2n x3n (xn − t)3

82
Generalizando, para h pontos de mudança t1 < t2 < · · · < th a função
cúbica fica dado por
h
X
2 3
f (x) = β0 + β1 x + β2 x + β3 x + γ` (x − t` )3+ .
`=1

Assim, uma regressão linear parcial aditiva em que k variáveis explicativas

contı́nuas são ajustadas através de funções por partes pode ser expressa na
forma
yi = x >
i β + f1 (u1 ) + · · · + fk (uk ) + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Nesse tipo de modelo há dois com-
ponentes, o primeiro referente a variáveis explicativas discretas ou contı́nuas
cujos coeficientes são intepretáveis e o segundo formado por um conjunto de
funções aditivas cujos coeficientes não são diretamente interpretáveis, con-
tudo procuram captar da melhor maneira os efeitos não lineares de variáveis
explicativas contı́nuas. Em muitas situações práticas U1 , . . . , Uk são variáveis
de controle, tais como tempo e temperatura, havendo interesse principal na
interpretação dos coeficientes do componente linear.
Voltando ao experimento sobre a queda de tensão da bateria de um
motor de mı́ssil, considere os pontos de mudança t1 = 6, 5 e t2 = 13 (vide
Figura 43) propostos por Montgomery et al. (2012, Seção 7.2.2).
Tem-se portanto a seguinte regressão linear por partes:
yi = β0 + β1 xi + β2 x2i + β3 x3i + γ1 (xi − 6, 5)3+ + γ2 (xi − 13)3+ + i , (8)
para i = 1, . . . , 41 e cuja matriz modelo fica dada por

x21 x31
 
1 x1 0 0
 .. .. .. .. .. .. 
 . . . . . . 
x2r x3r
 
 1 xr 0 0 
 
 1
 xr+1 x2r+1 x3r+1 (xr+1 − t1 )3 0 

X =  ... .. .. .. .. ..
,
 
 . . . . . 
 1
 xs x2s x3s (xs − t1 )3 0 

 1
 xs+1 x2s+1 x3s+1 (xs+1 − t1 )3 3
(xs+1 − t2 )  
 .. .. .. .. .. .. 
 . . . . . . 
1 xn x2n x3n (xn − t1 )3 (xn − t2 )3

em que r = 14 e s = 27. Supondo erros independentes e homocedásticos

as estimativas de mı́nimos quadrados são apresentadas na Tabela 21. Nota-
de que todos os coeficientes são altamente significativos com coeficiente de

83
14
12
Voltagem

10
8

0 5 10 15 20

Tempo

Figura 43: Diagrama de dispersão entre a queda da tensão da bateria (em

voltagem) e o tempo (em segundos) com os pontos e mudança.

determinação bastante alto. Os gráficos de resı́duos da Figuras 44 indicam

para um ajuste adequado. Mesmo o gráfico do resı́duo Studentizado contra
o tempo (omitido nas análises) não indica erros correlacionados. Na Figura
45 tem-se a curva ajustada aos dados.

15 Métodos Robustos
Quando aparecem observações suspeitas de serem atı́picas (alavanca, aber-
rante ou influente) num ajuste de regressão, deve-se através de algum pro-
cedimento de análise confirmatória verificar se de fato essas observações são
mesmo atı́picas. O procedimento mais utilizado é avaliar o impacto dessas
observações nos coeficientes estimados da regressão através, por exemplo, de
comparações com observações não destacadas como atı́picas. Se for confir-
mado que as observações suspeitas de serem atı́picas apresentam variações
desproporcionais nos coeficientes estimados da regressão ou causam mu-
danças inferencias, deve-se inicialmente tentar amenizar ou mesmo eliminar
esses impactos sem mudar o procedimento de estimação. Contudo, quando

84
3
3
2

2
Resíduo Studentizado

Resíduo Studentizado
1

1
0

0
−1

−1
−2
−3

−2
−2 −1 0 1 2 8 10 12 14
Quantil da N(0,1) Valor Ajustado

Figura 44: Análise de resı́duos referente ao ajuste da regressão por partes

(8) aos dados sobre a queda de tensão da bateria de um motor de mı́ssil.

Tabela 21: Estimativas dos parâmetros referentes ao modelo de regressão

por partes (8) ajustado aos dados sobre a queda de tensão da bateria de um
motor de mı́ssil.

Parâmetro Estimativa E.Padrão valor-t valor-P

β0 8,4657 0,2005 42,22 0,00
β1 -1,4531 0,1816 -8,00 0,00
β2 0,4899 0,0430 11,39 0,00
β3 -0,0294 0,0028 -10,35 0,00
γ1 0,0247 0,0040 6,12 0,00
γ2 0,0271 0,0036 7,58 0,00
s 0,268
R2 0,990
2
R 0,989

essas medidas tornam-se inócuas a aplicação de métodos de estimação ro-

busta (ou resistente) pode ser uma opção a ser considerada. Neste tópico

85
16
14
12
Voltagem

10
8
6

0 5 10 15 20

Tempo

Figura 45: Curva ajustada pela regressão por partes (8) aos dados sobre a
queda de tensão da bateria de um motor de mı́ssil.

será apresentado apenas um tipo de estimador robusto, conhecido como

estimador-M na classe de regressão linear múltipla. Este tipo de estimador
é resistente a observações aberrantes e eventualmnte pode também funcionar
para outros tipos de observações atı́picas.

15.1 Estimadores-M
Considere o modelo de regressão linear
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que i , para i = 1, . . . , n, são variáveis aleatórias independentes de média
zero e variância σ 2 . Note que está sendo relaxada a suposição de erros
normais. Os estimadores-M são obtidos através da minimização de funções
do tipo
Xn
Sρ (β) = ρ(i ), (9)
i=1
em que i = yi − x>
i β,
para i = 1, . . . , n e ρ() é uma função diferenciável
em β. Dependendo da escolha da função ρ() e da distribuição dos erros, a

86
minimização de (9) pode levar ao estimador de máxima verossimilhança. Por
2
exemplo, se ρ() = 2 (erros normais), tem-se em (9) o estimador de máxima
verossimilhança (mı́nimos quadrados). Esse estimador é conhecido como
estimador L2 . Quando ρ() = || 2 a minimização de (9) leva ao estimador de
máxima verossimilhança da distribuição exponencial dupla ou distribuição
de Laplace. O estimador obtido nesse caso é conhecido como estimador L1 .
Um dos estimadores mais conhecidos em métodos robustos é o estimador
de Huber que é uma mistura entre os estimadores L1 e L2 , sendo definido
por
1 2

2 para || ≤ c
ρ() =
c{|| − 2c } para || > c,
em que c > 0 é uma consante apropriada. Quando c → ∞ tem-se o estimador
L2 e quando c → 0 tem-se o estimador L1 . Outros estimadores robustos,
tais como estimadores de Ramsay, de Andrews ou de Hampel são descritos
em Montgomery et al. (2021, Cap. 15).

15.2 Estimação
Um problema com a minimização de (9) é que a solução pode não ser inva-
riante com mudanças de escala dos regressores. Ou seja, se os regressores
forem multiplicados por constantes a solução pode não continuar sendo a
mesma. Assim, uma solução proposta é considerar no lugar de (9) a se-
guinte função objetivo:
Xn
Sρ (β) = ρ(zi ), (10)
i=1
i
em que zi = s, com s sendo uma estimativa robusta de escala de modo que
a solução em (10) seja invariante com mudanças de escala nos regressores.
Uma escolha bastante conhecida para s é o desvio absoluto da mediana (vide
Montogomery et al., 2021, Cap. 15) defindo por

s = mediana|i − mediana(i )|/0, 6745,

para i = 1, . . . , n. A constante 0, 6745 faz com que s seja um estimador não

tendencioso de σ se os erros são assumidos normais.
O estimador tipo M é obtido minimizando (10) cujas equações de es-
timação são dadas por
∂Sρ (β)
Uβ = = 0.
∂β

87
Definindo ψ(z) = ρ0 (z) = dρ(z)/dz, então para cada componente βj tem-se
o seguinte:
∂Sρ (β)
Uβj =
∂βj
n
X dρ(zi ) ∂zi
=
dzi ∂βj
i=1
n
X
= − xij ψ(zi )/s
i=1
Xn
= − xij ωi (yi − x>
i β),
i=1

para j = 1, . . . , p, em que ωi > 0 é um peso correspondente à i-ésima

observação definido por
y −x> β (y −x> β )
(
ψ i si / i si se yi 6= x>
i β
ωi =
1 >
se yi = xi β,
para i = 1, . . . , n. Esses pesos serão estimados para cada observação no
processo de estimação.
Em forma matricial as equações de estimação ficam dadas por
Uβ = X> W{y − X> β}
b = 0,

em que W = diag{ω1 , . . . , ωn }. Essas equações são resolvidas através do

processo iterativo de mı́nimos quadrados reponderados
β (m+1) = {X> W(m) X}−1 X> W(m) y,
para m = 0, 1, 2, . . .. Valor inicial β (0) pode ser a estimativa da regressão
L2 . Para n grande tem-se que β b ∼ Np (β, Var(β)),
b em que

b = fatorc {σ 2 (X> X)−1 },

Var(β)
com
E{ψ 2 (/σ)}
fatorc = .
[E{ψ 0 (/σ)}]
Uma estimativa para a matriz de variância-covariância de β b descrita em
Montgomery et al. (2021, Cap. 15) é dada por
Pn 2 >b
nŝ2 i=1 ψ {(yi − xi β)/ŝ}
Var(β) =
d b Pn (X> X)−1 , (11)
n − p [ i=1 ψ 0 {(yi − x>
i β)/ŝ}]
b 2

88
em que ŝ é a estimativa robusta de escala. As estimativas assintóticas das
variâncias e covariâncias de β
b devem ser extraı́das de (11).

15.3 Função de Influência

A função ψ(z) = ρ0 (z), também conhecida como função de influência, de-
senpenha um papel importante em estimação robusta, uma vez que avalia o
comportamento de ρ0 (z) à medida que |z| aumenta. Assim, espera-se para
os estimadores robustos que ψ(z) fique limitada para valores altos de |z|.
Por exemplo, para o estimador L1 a função de influência fica dada por
d
ψ(z) = ρ0 (z) = (|z|) = sinal(z),
dz
sendo portanto uma função limitada em [−1, 1] (Figura 46). Para a regressão
L2 tem-se que
d 1 2
ψ(z) = ρ0 (z) = ( z ) = z.
dz 2
Ou seja, ψ(z) é uma reta passando pela origem, logo é ilimitada (Figura 47).
1
ψ(z)

0
−1

Figura 46: Função de influência para o estimador L1 .

Para o estimador de Huber a função de influência fica expressa na forma

z para |z| ≤ c
ψ(z) =
c ∗ sinal(z) para |z| > c.

Portanto, ψ(z) é uma função limitada em [−c, c] (Figura 48).

89
ψ(z)

Figura 47: Função de influência para o estimador L2 .

c
ψ(z)

0
−c

−c 0 c

Figura 48: Função de influência para o estimador de Huber.

15.4 Pesos
Os pesos ωi0 s, que são estimados através do processo iterativo de mı́nimos
qudrados reponderados, indicam a importância de cada observação no pro-
cesso de estimação. Esses pesos agora são estimados ao invés de serem
prédeterminados como no caso da regressão linear ponderada (Seção 9).

90
Por exemplo, na regressão L2 os pesos ficam dados por

(yi − x>
i β)/s
ωi = >
= 1, ∀i.
(yi − xi β)/s
Logo, todas as observações recebem o mesmo peso. Na regressão L1 os pesos
assumem a forma
sinal(yi − x>i β)/s
ωi = >
(yi − xi β)/s
= 1/|yi − x>
i β|,

supondo yi 6= x> i β, para i = 1, . . . , n. Portanto, o peso de cada observação

é o inverso do valor absoluto do resı́duo ordinário. Finalmente, na regressão
de Huber tem-se que
(
1 se |yi − x>i β|/s ≤ c
ωi = cs >
se |yi − xi β|/s > c,
|y −x> β|
i i

para i = 1, . . . , n. Nesse caso os pesos são uma mistura entre os pesos das
regressões L1 e L2 . Portanto, tem-se que os estimadores L1 e de Huber são
resistentes a observações aberrantes.

15.5 Aplicação
Como ilustração neste tópico considere o exemplo descrito em Montgomery
et al. (2021, Cap.2) em que uma engarrafadora de refrigerantes está anali-
sando o serviço de abastecimento das máquinas de refrigerantes atendidas
pela empresa. O serviço de abastecimento inclui o estoque das garrafas nas
máquinas e pequenas manutenções feitas pelo próprio motorista do veı́culo
com os carregamentos. O engenheiro industrial responsável pela logı́stica da
distribuição dos refrigerantes acredita que o tempo gasto (em minutos) pelo
motorista para o abastecimento das máquinas pode estar relacionado com
a distância percorrida pelo motorista do veı́culo até as máquinas (em pés)
e pelo número de caixas de produtos estocados. Uma amostra aleatória de
25 abastecimentos foi considerada para análise.
Na Figura 49 tem-se os diagramas de dispersão entre o tempo gasto
pelo motorista e o número de caixas estocadas e a distância percorrida pelo
motorista, respectivamente. Nota-se tendências aproximadamente lineares,
sugerindo o seguinte modelo:

yi = β1 + β2 ncaixasi + β3 distânciai + i , (12)

91
para i = 1, . . . , 25, em que yi denota o tempo gasto pelo i-ésimo motorista
iid
com i ∼ N(0, σ 2 ). Na Tabela 22 tem-se as estimativas do ajuste e nota-se
que todos os efeitos são altamente significtivos.
80

80
70

70
60

60
50

50
Tempo Gasto

Tempo Gasto
40

40
30

30
20

20
10

5 10 15 20 25 30 0 200 400 600 800 1000 1200 1400

Número de Caixas Distância Percorrida

Figura 49: Diagramas de dispersão (com tendência) entre o tempo gasto pelo
motorista e o número de caixas estocadas (esquerdo) e a distância percorrida
pelo motorista (direito).

Na Figura 50 tem-se os gráficos de diagnóstico com a observação #9

sendo destacada como aberrante e influente. Refere-se ao abastecimento
com os maiores valores para a resposta e para as variáveis explicativas. A
fim de reduzir a influência dessa observação nas estimativas dos parâmetros
o método de Huber é aplicado com c = 1, 345 cujas estimativas são apresen-
tadas na Tabela 23. Todos os efeitos são altamente significativos.
Nota-se pela Tabela 24 que a observação #9 recebe o menor peso através
do processo de estimação, porém outras observações também têm o peso al-
terado com relação ao procedimento de mı́nimos quadrados. Na Figura 51
tem-se o gráfico do resı́duo Studentizado da regressão L2 contra os pesos es-
timados pelo método de Huber, e pode ser observado que as observações com
resı́duos altos em geral recebem pesos menores, confirmando a resistência
do procedimento de estimação com relação a observações aberrantes.

92
Tabela 22: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de mı́nimos quadrados aos dados sobre abastecimento de refri-
gerantes.

Efeito Estimativa Erro padrão valor-t valor-P

Constante 2,341 1,097 2,13 0,044
Ncaixas 1,616 0,171 9,47 0,001
Distância 0,014 0,004 3,89 0,000
s 3,259
R2 0,96
2
R 0,96

3.5

9
4

3.0
2.5
2
Resíduo Studentizado

Distância de Cook
2.0
1.5
0

1.0
−2

0.5
0.0

−2 −1 0 1 2 5 10 15 20 25
Quantil da N(0,1) Índice

Figura 50: Gráfico normal de probabilidades e distância de Cook (k=2)

referentes ao ajuste do modelo (12) aos dados sobre abastecimento de refri-
gerantes.

Finalmente, tem-se na Tabela 25 a comparação entre estimativas e nota-

se que as maiores correções pelo método de Huber com relação ao método
de mı́nimos quadrados ocorrem na estimativa do intercepto e do coeficiente

93
Tabela 23: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de Huber aos dados sobre abastecimento de refrigerantes.

Efeito Estimativa Erro padrão valor-z valor-P

Constante 3,469 0,841 4,12 0,000
Ncaixas 1,465 0,131 11,19 0,000
Distância 0,015 0,003 5,27 0,000
s 1,536

Tabela 24: Pesos estimados das observações do exemplo sobre abastedimento

de refrigerantes através do processo iterativo pelo método de Huber.

Obs Peso Obs Peso Obs Peso

1 0,395 2 1 3 1
4 0,472 5 1 6 1
7 1 8 1 9 0,197
10 1 11 0,614 12 1
13 1 14 1 15 1
16 1 17 1 18 0,618
19 1 20 0,456 21 0,912
22 1 23 0,461 24 0,446
25 1

do número de caixas. Esta última estimativa muito similar à estimativa de

mı́nimos quadrados quando a observação #9 é excluı́da.

Tabela 25: Comparação das estimativas dos parâmetros pelos métodos de

mı́nimos quadrados e Huber referentes ao exemplo sobre abastecimento de
refrigerantes.

Efeito L2 L2 (-#9) Huber

Constante 2,341 4,447 3,469
Ncaixas 1,616 1,498 1,465
Distância 0,014 0,010 0,015

94
9
4
3
Resíduo Studentizado
2
1
0
−1
−2

0.2 0.4 0.6 0.8 1.0

Peso

Figura 51: Gráfico entre o resı́duo Studentizado do ajuste de mı́nimos qua-

drados do modelo (12) aos dados sobre abastecimento de refrigerantes e os
pesos estimados pelo método de Huber.

16 Regressão Não Linear

Os modelos de regressão não linear podem ser expressos na seguinte forma:

y = f (θ; x) + , (13)

em que y denota o valor observado da variável resposta, f (θ; x) é uma

função não linear nos parâmetros θ = (θ1 , . . . , θp )> , x contém valores de
variáveis explicativas e é um erro aditivo. Recupera-se o modelo linear
quando f (θ; x) = x> θ. Diferentemente dos modelos lineares, os modelos não
lineares descritos em (13) apresentam algumas caracterı́sticas particulares:

• A função f (θ; x) é conhecida e em geral desenvolvida através de su-

posições teóricas, por exemplo equações diferenciais.

• Os parâmetros têm alguma interpretação, por exemplo fı́sica, biológica

ou econométrica. Logo, a aproximação dessas funções por outras
funções mais simples pode levar à perda da interpretação paramétrica.

95
• Essas funções podem ter formas equivalentes obtidas através de re-
parametrizações de θ. Essas reparametrizações são utilizadas para
reduzir o viés dos estimadores de θ.

• A estimação de θ é obtida através de procedimentos iterativos.

• As propriedades dos estimadores de θ são em geral assintóticas.

Alguns exemplos de modelos não lineares são descritos a seguir.

16.1 Modelo de von Bertalanffy

Este modelo, que é uma curva de crescimento, tem sido aplicado na área
de Ecologia para explicar o comprimento esperado de uma espécie de peixe
dada sua idade. Uma das formas mais utilizadas do modelo é a seguinte:

y = θ1 [1 − exp{−θ2 (x − θ3 )}] + ,

em que y denota o comprimento do peixe, x denota a respectiva idade,

enquanto θ1 > 0 representa o comprimento máximo esperado para a espécie
(assı́ntota), θ2 > 0 denota a taxa média de crescimento e θ3 é um valor
nominal em que o comprimento esperado da espécie é zero. Tem-se na
Figura 52 a descrição de um exemplo da curva de von Bertalanffy.
As curvas de crescimento apresentam formas equivalentes obtidas através
de reparametrizações, que podem ser aplicados dependendo da área de inte-
resse ou mesmo para reduzir o viés da estimativa de máxima verossimilhança
de θ. As funções abaixo, extraı́das do livro de Fox e Weisberg (2019), são
formas equivalentes de curvas de crescimento que recebem nomes diferentes
dependendo da área:

1. f1 (θ; x) = θ1 − θ3 θ2x

2. f2 (θ; x) = θ1 − θ3 exp(−θ2 x)

3. f3 (θ; x) = θ1 + (θ3 − θ1 )θ2x

4. f4 (θ; x) = θ1 + (θ3 − θ1 )exp(−θ2 x)

5. f5 (θ; x) = θ1 − exp{−(θ3 + θ2 x)}

6. f6 (θ; x) = θ1 + θ3 {1 − exp(−θ2 x)},

96
250
Comprimento Espeado (em cm)
200
150
100

0 1 2 3 4 5 6 7
Idade do Peixe (em anos)

Figura 52: Curva de von Bertalanffy para θ1 = 275, θ2 = 0.5 e θ3 = −0.5.

em que θ1 denota a assı́ntota (valor esperado quando x → ∞) e θ2 denota

a taxa média de crescimento em todos os modelos. Nos modelos 1,2 e 6
tem-se θ3 = θ1 − µ, em que µ denota o valor esperado E(Y |x) quando x = 0,
enquanto nos modelos 3 e 4 tem-se θ3 = µ e no modelo 5 θ3 = log(θ1 − µ).
Se qualquer um desses 6 modelos for ajustado ao mesmo conjunto de
dados, a curva ajustada será a mesma (invariância dos valores preditos),
contudo as estimativas dos parâmetros, respectivos erros padrão e vieses
deverão ser diferemtes. Assim, pode-se optar pelo modelo cujas estimativas
tenham os menores vieses. Nesse tipo de modelo há dois tipos de não lineari-
dade, paramétrica e intrı́nseca. A principal diferenca é que a não linearidade
paramétrica pode sempre ser reduzida com reparametrizações, enquanto a
não linearidade intrı́nseca é invariante com reparametrizações.
Uma sugestão de valores inciais para o modelo de von Bertalanffy é
(0)
considerar θ1 ∼ = ymax , com os parâmetros θ2 e θ3 sendo definidos através
da relação
(0)
log(1 − y/θ1 ) ∼= γ + ηx,
(0) (0)
em que γ = θ2 θ3 e η = −θ2 . Os valores iniciais θ2 e θ3 podem ser obtidos
(0)
do ajuste de mı́nimos quadrados de z = log{1 − y/θ1 } contra γ + ηx.

97
16.2 Modelo de Crescimento Logı́stico
Esse modelo sigmoidal é frequentemente aplicado para estudar o crescimento
populacional. Sua forma mais conhecida é dada por
θ1
y= + ,
1 + exp{−(θ2 + θ3 x)}

em que y denota o tamanho da população num dado ano x. O parâmetro

θ1 > 0 representa o tamanho máximo esperado para a população (assı́ntota),
θ3 controla o crescimento da curva no intervalo (0, θ1 ). Pode-se mostrar que
a curva é simétrica em x = −θ2 /θ3 . Ou seja, E(Y |x = −θ2 /θ3 ) = θ21 que
corresponde ao ponto médio entre as duas assı́ntotas. Um exemplo da curva
logı́stica é descrito na Figura 53.
1.0
0.8
0.6
y
0.4
0.2
0.0

−4 −2 0 2 4
x

Figura 53: Curva Logı́stica para θ1 = 1, θ2 = −1 e θ3 = 1.

(0)
Para valores iniciais a sugestão é considerar θ1 ∼ = ymax com os parâmetros
θ2 e θ3 sendo definidos tais que
!
(0)
y/θ1 ∼ θ2 + θ3 x.
log (0)
=
1 − y/θ1

98
(0) (0)
Logo, os valores iniciais θ2 e θ3 podem ser obtidos do ajuste de mı́nimos
(0) (0)
quadrados de z = log{(y/θ1 )/(1 − y/θ1 )} contra θ2 + θ3 x.

16.3 Modelo de Mistura de Duas Drogas

O modelo de Finney para mistura de drogas tem sido aplicado na área de
Farmacologia para avaliar a interação de duas drogas A e B de mesmo tipo,
porém com princı́pios ativos diferentes. Assume a seguinte forma:
√
y = α + δ log(x1 + ρx2 + κ ρx1 x2 ) + ,

em que y denota o valor observado da resposta, x1 e x2 representam, res-

pectivamente, as doses das drogas A e B, δ é a relação comum log(dose)
e resposta, ρ é a potência da droga B em relação à droga A e κ denota
a interação entre as duas drogas, sendo interpretado da seguinte maneira:
κ = 0 efeitos aditivos, κ > 0 sinergismo e κ < 0 antagonismo.

16.4 Modelo de Michaelis-Menten

O modelo de Michaelis-Menten é muito aplicado em cinética quı́mica para
relacionar a velocidade inicial de uma reação enzimática (Y) (contagem/min)
dada a concentração de um substrato (X) (em ppm), sendo expresso na
forma
θ1 x
y= + ,
x + θ2
em que θ1 denota a velocidade máxima obtida e θ2 é conhecido como a
constante de Michaelis. A curva de Michaelis-Menten é ilustrada na Figura
54 para um caso particular.
Para valores iniciais para o modelo de Michaelis-Menten utiliza-se a apro-
ximação
1 ∼ 1 θ2 1
= + .
y θ1 θ1 x
(0) (0)
Assim, os valores iniciais θ1 e θ2 podem ser obtidos do ajuste de mı́nimos
quadrados de y −1 contra β2 + β2 x, em que β1 = 1/θ1 e β2 = θ2 /θ1 .

16.5 Estimação
Considere agora o modelo de regressão não linear

yi = f (θ; xi ) + i , (14)

99
150
Reação Enzimática
100
50
0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

Concentração Substrato

Figura 54: Curva de Michaelis-Menten para θ1 = 200 e θ2 = 0, 10.

em que y1 , . . . , yn denotam os valores observados da variável resposta, f (θ; xi )

é uma função não linear nos parâmetros θ = (θ1 , . . . , θp )> , xi contém valores
iid
de variáveis explicativas e i ∼ N(0, σ 2 ), para i = 1, . . . , n. Similarmente à
regressão linear, a estimação de θ em (14) é obtida minimizando a seguinte
função objetivo:
n
X n
X
S(θ) = 2i = {yi − f (θ; xi )}2 = {y − f (θ)}> {y − f (θ)},
i=1 i=1

em que y = (y1 , . . . , yn )> e f (θ) = {f (θ; x1 ), . . . , f (θ; xn )}> .

A derivada parcial de S(θ) com relação a θ fica dada por
∂S(θ)
= −2J(θ)> {y − f (θ)},
∂θ
em que J(θ) é a matriz Jacobiana de dimensão n × p da transformação de
f (θ) com relação a θ, sendo denotada por
 ∂f (θ;x ) ∂f (θ;x1 )

1
∂θ1 · · · ∂θp
J(θ) = 
 .. .. 
.
 . ··· . 
∂f (θ;xn ) ∂f (θ;xn )
∂θ1 ··· ∂θp

100
Portanto, como J(θ) depende de θ o estimador de mı́nimos quadrados
(máxima verossimilhança) deve ser obtido iterativamente. O processo itera-
tivo de Newton-Raphson fica dado por

θ (m+1) = θ (m) + {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> {y − f (θ (m) )}
= {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> z(θ (m) ), (15)

para m = 0, 1, 2, . . . e z(θ) = y − {f (θ) − J(θ)θ} é uma pseudo resposta ou

variável dependente modificada. Ou seja, θ b é obtido através de um processo
iterativo de mı́nimos quadrados, contudo valores iniciais θ (0) são necessário
para iniciar o processo iterativo.

16.6 Inferência
Mostra-se para n grande que θb segue aproximadamente distribuição normal
p-variada de média θ e matriz de variância-covariância dada por
b = σ 2 {J(θ)> J(θ)}−1 ,
Var(θ)

sendo o estimador para σ 2 definido por

Pn b xi )}2
2 {yi − f (θ;
b = i=1
σ .
n−p
Se o interesse é testar as hipóteses H0 : Rθ = 0 contra H1 : Rθ 6= 0, em que
R é uma matriz de dimensão r × p e posto linha completo r ≤ p, tem-se sob
H0 e para n grande que
b > [R{J(θ)
(Rθ) b > J(θ)}
b −1 R> ]−1 (Rθ)
b
F= 2
∼ Fr,(n−p) .
rbσ
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),(p−1),(n−p) , em que F(1−α),(p−1),(n−p) denota o quantil (1 − α) de uma
distribuição F com (p − 1) e (n − p) graus de liberdade.

16.7 Métodos de Diagnóstico

Na convergência do processo iterativo (15) tem-se que
b > J(θ)}
b = {J(θ)
θ b −1 J(θ)
b > z(θ).
b

Portanto, similarmente à regressão linear, pode-se escrever J(θ)

b θb = H(θ)z(
b θ),b
em que
H(θ)
b = J(θ){J(
b b > J(θ)}
θ) b −1 J(θ)
b >.

101
Ou seja, H(θ) b é um projetor linear da pseudo resposta z(θ)
b no plano ex-
plicado pelas colunas da matriz J(θ), conhecido como plano tangente à
b
superfı́cie f (θ) em θ. b Os elementos da diagonal principal da matriz H, b
h11 , . . . , hnn , podem ser considerados como medidas de ponto de alavanca.
b b
O resı́duo padronizado
{yi − f (θ;
b xi )}
ti = q
b 1−b
σ hii
seria uma extensão natural do resı́duo Studentizado da regressão linear para
a regressão não linear, contudo esse resı́duo não tem distribuição conhe-
cida sendo necessário no gráfico normal de probabilidades a inclusão de
bandas empı́ricas de confiança. Para detectar observações influentes, uma
aproximação da distância de Cook para a regressão não linear é dada por
Di = t2i b
hii /p(1 − b
hii ), para i = 1, . . . , n.

16.8 Aplicação
Como ilustração considere o arquivo lakemary da biblioteca alr4 do R, em
que são descritos o comprimento em mm e a idade em anos de uma amostra
de n = 78 peixes de uma espécie de água doce. Ajustar aos dados o modelo
não linear de von Bertalanffy
yi = θ1 [1 − exp{−θ2 (xi − θ3 )}] + i ,
em que yi e xi denotam, respectivamente, o comprimento (em mm) e a idade
iid
(anos) do i-ésimo peixe, enquanto i ∼ N(0, σ 2 ), para i = 1, . . . , 78.
Os dados estão descritos na Figura 55 e o ajuste da curva de von Berta-
lanffy é apresentado na Figura 56. Nota-se pelas estimativas que o parâmetro
θ3 não é significativo, sugerindo que os dados podem ser ajustados com um
modelo mais simples envolvendo apenas os parâmetros θ1 e θ2 . Para ilustrar,
uma estimativa intervalar de 95% para o comprimento máximo esperado
para a espécie fica (em mm) dada por [191, 809 ± 1, 96 × 13, 079]. Análise
de resı́duos descrita na Figura 57 sugere adequação da suposição de nor-
malidade e homocedasticidade dos erros. As variações dos resı́duos dentro
da banda de confiança é muito provavelmene devido ao fato de termos para
uma mesma idade do peixe várias réplicas.

17 Erros Auregressivos AR(1)

Em algumas situações práticas em que a regressão linear é aplicada pode
haver suspeita de correlação temporal nas observações. Isso ocorre em par-

102
180
160
Comprimento do Peixe
140
120
100
80
60

1 2 3 4 5 6
Idade do Peixe

Figura 55: Diagrama de dispersão entre o comprimento e a idade do peixe

do arquivo lakemary da biblioteca alr4.

Tabela 26: Estimativas dos parâmetros referentes ao modelo de von Berta-

lanffy ajustado aos dados do arquivo lakemary da biblioteca alr4.

Parâmetro Estimativa Erro padrão valor-z valor-P

θ1 191,809 13,079 14,74 0,000
θ2 0,406 4,593 9,47 0,000
θ3 0,081 0,240 0,34 0,737
s 10,960

ticular quando as unidades experimentais são coletadas de forma temporal,

por exemplo, diariamente, semanalmente, mensalmente ou anualmente. O
gráfico temporal do resı́duo Studentizado pode revelar a necessidade de in-
clusão de alguma estrutura nos errros para acomodar a correlação temporal.
Testes mais formais, como por exemplo o teste clássico de Durbin-Watson
pode ser aplicado para avaliar se há correlação autoregressiva de ordem 1.
Nesta seção será discutido o caso mais simples em que há suspeita de auto-

103
200
150
Comprimento do Peixe
100
50

1 2 3 4 5 6
Idade do Peixe

Figura 56: Curva ajustada de von Bertalanffy aos dados do arquivo lake-
mary da biblioteca alr4.

correlação AR(1) nos erros. Embora procedimentos de máxima verossimi-

lhança possam ser aplicados de uma forma geral, como ilustração de solução
mais simples para o caso AR(1) será discutido o método de Cochrane-Orcutt,
que procura reduzir o modelo linear normal com erros autoregressivos a um
modelo com erros independentes e igualmente distribuı́dos.
Assim, considere o seguinte modelo de regressão linear:

yt = x >
t β + t , (16)
iid
em que t = φt−1 + et com |φ| < 1 e et ∼ N(0, σ 2 ), para t = 1, . . . , T .
Substituindo t , t−1 , t−2 na expressão t = φt−1 + et obtém-se

t = φ2 {φt−3 + et−2 } + φet−1 + et

= φ3 t−3 + φ2 et−2 + φet−1 + et .

E assim sucessivamente segue que

∞
X
t = φj et−j .
j=1

104
2

3
2
1
Resíduo Padronizado

Residuo Padronizado
1
0

0
−1
−1

−2
−3
−2

−2 −1 0 1 2
60 80 100 120 140 160 180
Quantil da N(0,1)
Valor Ajustado

Figura 57: Análise de resı́duos do ajuste do modelo de von Bertalanffy aos

dados do arquivo lakemary da biblioteca alr4.

E dessa relação obtém-se os resultados

2 1 j 2 1
E(t ) = 0, Var(t ) = σ e Cov(t , t±j ) = φ σ ,
1 − φ2 1 − φ2
para j = 0, 1, 2, . . . . Logo, a autocorrelação entre os erros t e t+1 fica dada
por
Cov(t , t+1 )
ρt = p p
Var(t ) Var(t+1 )

1
φσ 2 1−φ 2
= r r
1 1
σ 2 1−φ 2 σ 2 1−φ 2

= φ.
Pode-se mostrar de forma similar que a autocorrelação entre os erros t e t+k
fica dada por ρk = φk . Em particular, quando φ é positivo a magnitude da
autocorrelação entre dois erros decresce à medida que a distância temporal
entre os erros aumenta.

105
17.1 Teste de Durbin-Watson
Em geral, na prática, tem-se autocorrelação positiva entre os erros e um teste
bastante conhecido para avaliar a necessidade de inclusão de uma estrutura
de correlação AR(1) é o teste de Durbin-Watson (DW). Mais especificamente
o teste de DW considera as hipóteses H0 : φ = 0 contra H1 : φ > 0, sendo a
estatı́stica do teste definida por
PT
(rt − rt−1 )2
d = t=2PT ,
2
t=1 rt

em que rt = yt − ybt é o resı́duo ordinário da regressão de mı́nimos quadrados

com erros independentes e igualmente distribuı́dos. Há tabelas disponı́veis
para avaliar o teste de DW que levam em conta o tamanho amostral, o
nı́vel de significância do teste e o número de variáveis explicativas no modelo
(vide, por exemplo, Tabela A.6 de Montgomery et al.(2021)). Nessas tabelas
são apresentados valores crı́ticos dU e dL para a estatı́stica do teste com o
seguinte critério de decisão:

• Se d < dL rejeitar H0

• Se d > dU não tejeitar H0

• Se dL ≤ d ≤ dU inconclusivo.

Há também bibliotecas que calculam diretamente o teste de DW com o

respectivo valor-P, como por exemplo a biblioteca lmtest do R.

17.2 Método de Cochrane-Orcutt

Do modelo de regressão linear com erros AR(1) descrito em (16) segue que

yt−1 = x>
t−1 β + t−1 .

Logo, obtém-se t−1 = yt−1 − x>

t−1 β e portanto pode-se escrever

yt = x>
t + φt−1 + et
= x> >
t β + φyt−1 − φxt−1 β + et
yt − φyt−1 = {xt − φxt−1 }> β + et .

Implicando para φ fixo na seguinte regressão linear:

ut = z>
t β + et ,

106
iid
em que ut = yt − φyt−1 e zt = xt − φxt−1 com et ∼ N(0, σ 2 ), para t =
1, . . . , T . Portanto, para φ fixo, pode-se estimar β através do procedimento
de mı́nimos quadrados
b = (U> U)−1 U> z,
β (17)
em que U é uma matriz n × p de linhas u> >
t e z = (z1 , . . . , zT ) . Porém,
na prática φ não é fixo, podendo ser estimado através de um estimador de
momentos dado por φb = Tt=2 rt rt+1 / Tt=1 rt2 com rt = yt − ybt . Assim, um
P P
procedimento iterativo para obter uma estimativa de mı́nimos quadrados
para β fica dado por

1. Fornecer uma estimativa para φ.

2. Obter β
b de (17).

3. Aplicar o teste de DW.

4. Se H0 não for for rejeitada, parar. Caso contrário, atualizar a estima-

tiva para φ e repetir (1)-(3). Parar quando o teste for rejeitado e não
for mais possı́vel mudar a estimativa de β. Nesse último caso prova-
velmente uma estrutura de erros de ordem maior deve ser considerada
em (16).

O processo iterativo acima pode ser aplicado através, por exemplo, da bi-
blioteca orcutt do R.

18 Estimação por Máxima Verossimilhança

Como visto anteriormente o modelo de regressão linear múltipla assume que
ind
Yi |xi ∼ N(µi , σ 2 ) com µi = x> > >
i β, xi = (xi1 , . . . , xip ) e β = (β1 , . . . , βp ) ,
> > 2
para i = 1, . . . , n. Denotando θ = (β , φ) , em que φ = σ , a função
densidade de probabilidade de Yi |xi fica expressa na forma

1 1 > 2
f (yi ; xi , θ) = √ exp − (yi − xi β) ,
2πφ 2φ

107
para i = 1, . . . , n. Assim, o logaritmo da função de verossimilhança fica
dado por

L(θ) = log[Πni=1 {f (yi ; xi , θ)}]

n
1 1 X
= n log √ − (yi − x>
i β)
2
2πφ 2φ
i=1
n
n 1 X
= − log(2πφ) − (yi − x> 2
i β) .
2 2φ
i=1

Para obter as estimativas de máxima verossimilhança de β e φ é preciso

derivar a função escore
∂L(θ)
!
∂L(θ) Uβ ∂β
Uθ = = = ∂L(θ) .
∂θ Uφ
∂φ

As estimativas de máxima verossimilhança são obtidas resolvendo-se as

equações Uβ = 0 e Uφ = 0.
A derivada parcial de L(θ) com relação a βj fica dada por
n
∂L(θ) 1X
= xij (yi − x>
i β),
∂βj φ
i=1

para j = 1, . . . , p. Em forma matricial obtém-se

∂L(θ) 1
Uβ = = X> (y − Xβ),
∂β φ

em que y = (y1 , . . . , yn )> e X é a matriz modelo. A estimativa de máxima

verossimilhança β
b é obtida tal que

Uβ = 0 ⇒ X> (y − Xβ)
b = 0.

Então, se X é uma matriz de posto coluna completo tem-se solução única

b = (X> X)−1 X> y,
β

que coincide com a estimativa de mı́nimos quadrados. Por outro lado, a

derivada parcial de L(θ) com relação a φ fica dada por
n
∂L(θ) n 1 X
Uφ = =− + (yi − x> 2
i β) ,
∂φ 2φ 2φ2
i=1

108
e fazendo Uφ = 0 obtém-se
Pn
i=1 (yi − ybi )2
b2 =
φb = σ ,
n

em que ybi = x> b2 = (n−p)

i β. Portanto, tem-se que σ
b 2
n s e E(b σ 2 ) = (n−p) 2
n σ .
b2 é um estimador tendencioso de σ 2 .
Logo, σ
A matriz de informação de Fisher para θ = (β > , φ)> é definada como
sendo o valor esperado da curvatura de L(θ)
2
∂ L(θ) Kββ Kβφ
Kθθ = E − = ,
∂θ∂θ > Kφβ Kφφ

em que Kββ e Kφβ são submatrizes de informação de Fisher, respectiva-

mente, de β e de β e φ simultaneamente, enquanto Kφφ é a informação de
Fisher de φ.
As submatrizes Kββ e Kφβ ficam dadas por

∂ 2 L(θ)

Kββ = E −
∂β∂β >
1 >
= (X X) e
φ
2
∂ L(θ)
Kβφ = E −
∂β∂φ
1
= E{X> (Y − Xβ)|X}
φ
= X> E{(Y − Xβ)|X} = 0.

Assim, os parâmetros β e φ são ortogonais. Ainda tem-se que

2
∂ L(θ)
Kφφ = E −
∂φ2
n
n 1 X
= − 2+ 3 E{(Yi − x> 2
i β) }
2φ φ
i=1
n n n
= − 2 + 2 = 2.
2φ φ 2φ
Logo, a matriz de informação de Fisher para θ assume a forma bloco diagonal

Kββ 0
Kθθ = ,
0 Kφφ

109
e pelas propriedades de estimação por máxima verosimilhança, tem-se para
n grande que β b ∼ Np (β, K−1 ) e σb2 ∼ N(σ 2 , K−1 b b2 são
ββ φφ ). Além disso, β e σ
independentes. No caso de β b o resultado vale para todo n. Similarmente,
segue que (n − p)s2 /σ 2 ∼ χ2(n−p) .

Exercı́cios
1. Seja T um estimador do parâmetro θ e supor a existência dos dois
primeiros momentos de T. Mostre que

E{(T − θ)2 } = E[{T − E(T )}2 ] + {E(T) − θ}2 .

Ou seja, EQM(T) = Var(T) + {Viés(T)}2 .

2. Com base numa amostra independente de n = 3 de uma variável

2 foram propostos para µ os
aleatória X de média µX e variância σX X
seguintes estimadores:
1 1
T1 = (X1 + 3X2 + X3 ), T2 = (X1 + 2X3 ),
5 2
1 1
T3 = (2X1 + X2 + X3 ) e T4 = (X1 + X2 + X3 ).
4 3
Obtenha o erro quadrático médio, a variância e o viés de cada estima-
dor. Entre os não tendenciosos qual escolher? Justifique.

3. Considere a seguinte regressão linear simples:

yi = β1 + β2 xi + i ,
iid
em P que i ∼ N(0, σ 2 ), P
i = 1, . . . , n. Mostre
Pnque: (i) Cov(ȲP
, β̂2 ) = 0,
(ii) i=1 ri ŷi = 0, (iii) i=1 ri xi = 0, (iv) i=1 ri = 0 e (v) ni=1 yi =
n n
P n
i=1 ŷi , em que ri = yi − ŷi .

4. Supor que foi ajustado através de mı́nimos quadrados o modelo de

regressão ŷ = β̂1 + β̂2 x2 , porém o modelo verdadeiro é dado por

y = β1 + β2 x2 + β3 x3 + ,

em que ∼ N(0, σ 2 ). Mostre que o estimador β̂2 obtido no primeiro

ajuste é tendencioso. Expresse o viés de β̂2 .

110
5. Supor uma amostra aleatória de tamanho n e o seguinte modelo de
regressão:
yi = β1 + β2 xi + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo β1 conhecido ob-
tenha o estimador de mı́nimos quadrados de β2 e o respectivo erro
padrão. Compare esse estimador com o estimador de mı́nimos qua-
drados de β2 quando β1 é desconhecido. Comente.

6. Supor o modelo de regressão linear múltipla yi = x>

i β + i , em que
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n. Mostre que uma estimativa intervalar
de menor comprimento para σ 2 pode ser expressa na forma

(n − p)s2 (n − p)s2

; ,
a b

em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distri-
buição χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento
do intervalo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados
Rb
(em b) a equação a g(n−p) (t)dt = (1 − α) com a = a(b).

7. Considere agora o modelo de regressão linear múltipla yi = x>

i β + i ,
iid
em que i ∼ N(0, σ 2 ), xi = (1, xi2 , . . . , xip )> e β = (β1 , . . . , βp )> , para
i = 1, . . . , n. Mostre que a estatı́stica F para testar H0 : β2 = · · · = βp
contra H1 : βj 6= 0, para pelo menos algum j = 2, . . . , p, pode ser
expressa na forma
R2 (n − p)
F= .
(p − 1)(1 − R2 )

8. São apresentados na tabela abaixo o consumo (galão/milha)(Y) e a

cilindrada (polegadas3 ) (X) de uma amostra de n = 32 automóveis de
marcas diferentes (Montgomery et al., 2021, Tabela B3).

111
y x y x y x y x
18,90 350,0 17,00 350,0 20,00 250,0 18,25 351,0
20,07 225,0 11,20 440,0 22,12 231,0 21,47 262,0
34,70 89,7 30,40 96,9 16,50 350,0 36,50 85,3
21,50 171,0 19,70 258,0 20,30 140,0 17,80 302,0
14,39 500,0 14,89 440,0 17,80 350,0 16,41 318,0
23,54 231,0 21,47 360,0 16,59 400,0 31,90 96,9
29,40 140,0 13,27 460,0 23,90 133,6 19,73 318,0
13,90 351,0 13,27 351,0 13,77 360,0 16,50 350.0

Responda às seguintes questões: (i) construir o diagrama de dispersão

entre o consumo e a cilindrada dos automóveis, comente; (ii) obter
a correlação linear amostral de Pearson; (iii) ajustar o modelo de re-
gressão linear simples de mı́nimos quadrados, obtendo as estimativas
β̂1 e β̂2 e os respectivos erros padrão; (iv) traçar a reta de regressão no
diagrama de dispersão; (v) interpretar a estimativa β̂2 ; (vi) obter as
estimativas intervalares de 95% para β1 e β2 e (vii) obter a estimativa
intervalar de 97% para o consumo de um automóvel com cilindrada
de x = 300 polegadasP 3 . Resultados úteis: ȳ = 20, 2231, x̄ = 284, 7312,

yi2 = 14324, 74. x2i = 3019001 e

P P
xi yi = 164118, 10. Este
exercı́cio deve ser feito manualmente. O diagrama de dispersão pode
ser feito no R.

9. No arquivo capm.txt estão os seguintes dados (Ruppert, 2004, Cap.7):

Tbill (taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno
do mercado), retorno GE e retorno FORD de janeiro de 2002 a abril
de 2003. Todos os retornos são diários e estão em porcentagem. Cons-
truir inicialmente os diagramas de dispersão (com tendência) entre o
excesso de retorno (yrt − rf t ) de cada uma das empresas Microsoft,
GE e FORD e o excesso de retorno do mercado (rmt − rf t ), em que yrt
denota o retorno da ação da empresa, rmt é o retorno do mercado e rf t
indica a taxa livre de risco durante o t-ésimo perı́odo. Posteriormente,
ajustar o seguinte modelo de regressão linear simples para cada ação:

yt = α + βxt + t ,
iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é maior

112
do que o excesso de retorno do mercado (ação mais volátil do que o
mercado), e se β < 1 o excesso de retorno é menor do que o excesso
de retorno do mercado (ação menos volátil do que o mercado). O
intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.
Para ler o arquivo no R use os comandos
capm = read.table("capm.txt", header=TRUE).
Para deixar o arquivo disponı́vel use o comando
attach(capm).
Por exemplo, para ajustar o excesso de retorno da Microsoft use os
comandos
ymsf = rmsf - tbill
xmerc = sp500 - tbill
ajuste.msf = lm(ymsf ∼ xmerc)
summary(ajuste.msf).
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado
o excesso de retorno do mercado.
10. Suponha o modelo de comparação de médias
yij = µi + ij ,
iid
em que ij ∼ N(0, σ 2 ), i = 1, . . . , k e j = 1, . . . , ni . Mostre que µ̂i = ȳi
e Var(rij ) = σ 2 (1 − 1/ni ), em que rij = yij − ȳi .
11. Considere o modelo de regressão linear múltipla
yi = x>
i β + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que o critério de Akaike é
equivalente a minimizar a quantidade

SQRes
AIC = n log + 2p,
n
com SQRes = ni=1 (yi − ŷi )2 .
P

113
12. Na tabela abaixo (Lawless, 1992, Seção 6.8) são apresentados os re-
sultados de um experimento em que a resistência (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nı́veis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus).

Voltagem(kV)
Temperatura (o C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588

180 959 216 241 241

1065 315 315 241
1065 455 332 435
1087 473 380 455

Esses dados estão também disponı́veis no arquivo vidros.txt. Na

primeira coluna do arquivo tem-se o tempo de resistência, na segunda
coluna a voltagem (1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e
na terceira coluna a temperatura (1: 170o C e 2: 180o C). Seja Yijk o
tempo de resistência da k-ésima amostra de vidro submetida à i-ésima
voltagem e à j-ésima temperatura.
Para ler o arquivo no R use os comandos
vidros = read.table("vidros.txt", header=TRUE)
voltagem = factor(voltagem)
temperatura = factor(temperatura).
Faça inicialmente uma análise descritiva dos dados, por exemplo apre-
sentando os perfis médios da resistência segundo a voltagem para os
dois nı́veis de temperatura. Comente e verifique se há indı́cios de in-
teração entre temperatura e voltagem.
Supor inicialmente o seguinte modelo:

yijk = α + βi + γj + ijk ,

em que βi denota o efeito da i-ésima voltagem e γj o efeito da j-

ésima temperatura em relação à casela de referência, sendo assumido

114
iid
β1 = 0, γ1 = 0 e ijk ∼ N(0, σ 2 ), para i = 1, 2, 3, 4 e j = 1, 2. Testar
a inclusão de interação entre temperatura e voltagem. Construir a
tabela ANOVA. Para ajustar os modelos sem interação e com interação
e gerar a tabela ANOVA use os comandos
fit1 = lm(resistencia ∼ voltagem + temperatura)
fit2 = lm(resistencia ∼ voltagem + temperatura +
temperatura*voltagem)
anova(fit1,fit2).
Fazer análises de resı́duos e de sensibilidade. Construir o gráfico dos
perfis ajustados. Comente.

13. Considere o arquivo BigMac2003 da biblioteca alr4 do R, em que

são descritas as seguintes variáveis de 69 cidades de diversos paı́ses:

• BigMac: minutos de trabalho para comprar um Big Mac

• Bread: minutos de trabalho para comprar 1kg de pão
• Rice: minutos de trabalho para comprar 1kg de arroz
• FoodIndex: ı́ndice de preços de alimentos
• Bus: valor da passagem de ônibus (em USD)
• Apt: valor do aluguel (em USD) de um apartamento padrão de 3
dormitórios
• TeachGI: salário bruto anual (em 1000 USD) de um professor de
ensino fundamental
• TeachNI: salário lı́quido anual (em 1000 USD) de um professor
de ensino fundamental
• TaxRate: imposto pago (em porcentagem) por um professor de
ensino fundamental
• TeachHours: carga horária semanal (em horas) de um professor
de ensino fundamental.

Para disponibilizar e visualizar um resumo dos dados use na sequência

os seguintes comandos do R:
require(alr4)
require(MASS)
attach(BigMac2003)
summary(BigMac2003).

115
O objetivo principal do estudo é relacionar a variável BigMac com
as demais variáveis explicativas. A fim de obter uma melhor apro-
ximação para a normalidade considere log(BigMac) como variável res-
posta. Apresente os diagramas de dispersão (com tendência) entre
a variável resposta e cada uma das variáveis explicativas e comente.
Padronize as variáveis explicativas. Por exemplo, para padronizar a
variável explicativa Bread use o comando
sBread = scale(Bread, center = TRUE, scale = TRUE).
Através do procedimento stepAIC fazer uma seleção das variáveis ex-
plicativas. Para o modelo selecionado aplicar análises de resı́duos e de
sensibilidade. Comente. Classifique as variáveis explicativas segundo
o impacto na explicação da média da variável resposta.

14. No arquivo motorins da biblioteca faraway do R são descritas in-

formações relacionadas a 1797 grupos de apólices de seguro de au-
tomóvel no ano de 1977 na Suécia. Em particular, há interesse em
saber se há diferenças significativas entre o seguro médio pago por
sinistro em 7 regiões do paı́s. Para ler o arquivo no R utilize os co-
mandos
require(faraway)
summary(motorins)
attach(motorins).
Considere as variáveis Zone (região do paı́s) e perd valor pago por sinis-
tro (em coroas suecas). A fim de obter uma melhor aproximação para
a normalidade considere como resposta a variável log(perd). Construir
boxplots de log(perd) segundo a região. Comente. Aplique em seguida
um ajuste de comparação de médias através do comando
fit1.motor = lm(log(perd) ∼ Zone).
Construa a tabela ANOVA através do comando
fit2.motor = aov(log(perd) ∼ Zone).
Se for rejeitada a hipótese de homogeneidade de médias, aplique o
método de Tukey para verificar quais contrastes são significativos através
do comando
TukeyHSD(fit2.motor)
plot(TukeyHSD(fit2.motor),las=2).
Comente.

116
15. No arquivo fuel2001.txt da biblioteca alr4 do R, estão descritas as
seguintes variáveis referentes aos 50 estados norte-americanos mais o
Distrito de Columbia no ano de 2001:

• UF: unidade da federação

• Drivers: número de motoristas licenciados
• FuelC: total de gasolina vendida (em mil galões)
• Income, renda per capita em 2000 (em mil USD)
• Miles, total de milhas em estradas federais
• MPC, milhas per capita percorridas
• Pop, população ≥ 16 anos
• Tax, taxa da gasolina (em cents por galão).

A fim de possibilitar uma comparação entre as UFs duas novas variáveis

são consideradas Fuel = 1000*FuelC/Pop e Dlic = 1000*Drivers/Pop,
além da variável Miles ser substituı́da por log(Miles). Para ler o ar-
quivo no R use os comandos
require(alr4)
require(MASS)
attach(fuel2001)
summary(fuel2001).
Considere como resposta a variável Fuel e como variáveis explicativas
Dlic, log(Miles), Income e Tax. Faça inicialmente uma análise descri-
tiva dos dados. Por exemplo, boxplot robusto para a variável resposta
e diagramas de dispersão (com tendência) entre cada variável explica-
tiva e a variável resposta. Comente. Aplique o procedimento stepAIC
para selecionar as variáveis explicativas. Verifique se é possı́vel in-
cluir alguma interação. Com o modelo selecionado faça uma análise
de diagnóstico: análise de resı́duos, pontos de alavanca, distância de
Cook e DFFITS. Avalie o impacto dos pontos destacados. Interprete
os coeficientes estimados.

16. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)

117
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos
wine = read.table("wine.txt", header=TRUE).
A variável região é categórica com três nı́veis. Assim é possı́vel através
do comando factor do R transformá-la em duas variáveis binárias:
regiao2 = 1 para região 2 e 0 caso contrário e regiao3 = 1 para
região 3 e 0 em caso contrário. A casela de referência será a região 1.
Para acionar o procedimento use o comando
regiao = factor(regiao).
Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão (com tendência)
entre a variável resposta e variáveis explicativas. Calcule também
as correlações lineares de Peasorn entre as variáveis (exceto região).
Selecione incialmente um submodelo através dos métodos de maior
R2k , menor sk , menor Ck e menor Pressk . Em seguida selecione outro
submodelo através do procedimento stepwise usando PE=PS=0,15.
Compare os submodelos escolhidos e para o submodelo selecionado
aplicar análise de resı́duos e sensibilidade. Interpretar os coeficientes
estimados.
17. Considere o modelo linear simples
yi = β1 + β2 (xi − x̄) + i ,
iid
para i = 1, . . . , n com i ∼ N(0, σ 2 ). Encontrar os estimadores ridge
β̂R1 e β̂R2 como também suas variâncias e covariância assintóticas
Var(β̂R1 ), Var(β̂R2 ) e Cov(β̂R1 , β̂R2 ). Expresse os estimadores ridge
em função dos estimadores de mı́nimos quadrados e mostre que são
estimadores tendenciosos.
18. Para avaliar a relação entre a energia necessária diária e a produção
de carne, uma amostra aleatória de 64 ovelhas em fase de crescimento
foi considerada, sendo observado para cada animal o consumo médio
diário de energia (mcal) e o peso (em kg). Esses dados estão descritos
no arquivo sheep.txt (vide Lindsey, 1997, Seção 9.4). Para ler o
arquivo no R use os comandos
sheep = read.table("sheep.txt", header=TRUE).
Fazer inicialmente uma análise descritivia dos dados, boxplot robusto
da variável resposta (peso) e diagrama de dispersão entre o peso do ani-
mal e o consumo diário de energia (variável explicativa). Ajustar um

118
modelo linear normal aos dados e verificar que há indı́cios de variância
não constante dos erros. Ajustar um modelo normal ponderado com
pesos apropriados. Fazer uma análise de diagnóstico e interpretar as
estimativas.

19. Considere o modelo de regressão linear múltipla

yi = x>
i β + i ,

iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que SQRes(k) ≥ SQRes,
em que SQRes(k) = (y −Xβ̂ R )> (y −Xβ̂ R ) e SQRes = (y −Xβ̂)> (y −
Xβ̂) denotam, respectivamente, as somas de quadrados de resı́duos da
regressão ridge e da regressão de mı́nimos quadrados.
ind
20. Supor o modelo linear ponderado yi = α + βxi + i , em que i ∼
N(0, di σ 2 ), di > 0, para i = 1, . . . , n. Obter β̂ e ASQ(β = 0).

21. Considere os dados do arquivo Rateprof da biblioteca alr4 do R,

referentes a notas médias recebidas por 364 instrutores de uma uni-
versidade norte americana durante um perı́odo de 10 anos. O objetivo
do estudo é relacionar o interesse do avaliador (RaterInterest) (es-
core de 1 a 5) com as seguintes avaliações feitas pelo avaliador:

• Quality: qualidade das aulas do instrutor (escore de 1 a 5)

• Helpfulness: prestatividade do instrutor (escore de 1 a 5)
• Clarity: clareza das aulas do instrutor (escore de 1 a 5)
• Easiness: facilidade que o instrutor tem com a matéria (escore
de 1 a 5).

Inicialmente centralize as 5 variáveis através do comando

cvariavel = variavel - mean(variavel).
Fazer uma análise descritiva com os dados apresentando a matriz
de correlações lineares de Pearson e os diagramas de dispersão (com
tendência). Comente. Ajustar agora um modelo de regressão linear da
variável resposta centralizada contra as demais variáveis explicativas
centralizadas e passando pela origem. Use o comando
fit1 = lm(cresposta ∼ cv1 + cv2 + cv3 + cv4 -1).
Verifique se há indı́cios de multicolineridade através do VIF. Tente
contornar o problema através de componentes principais, considerando

119
apenas o 1o componente. Qual a explicação desse componente? Ex-
presse esse componente em função das 4 variáveis explicativas cen-
tralizadas. Fazer um ajuste da regressão linear da variável resposta
centralizada contra esse componente e passando pela origem. Inter-
prete o coeficiente estimado e apresente análises de diagnóstico.

22. Considere o arquivo oldfaith da biblioteca alr4 do R, em que a

duração (em segundos) da erupção da fonte termal “Old Faithful Gey-
ser”no lançamento de água e o intervalo (em minutos) até a próxima
erupção foram observados n = 270 vezes em 1980. O principal obje-
tivo do estudo é fazer predições para o intervalo até a próxima erupção
dado o tempo que durou a erupção anterior. Para disponibilizar e vi-
sualizar um resumo dos dados use na sequência os seguintes comandos
do R:
require(alr4)
attach(oldfaith)
summary(oldfaith).
Faça a transformação nDuration = Duration/100 e apresente os gráficos
de densidade e boxplot para a variável resposta bem como o dia-
grama de dispersão (com tendência usando df = 5) entre Interval e
nDuration. Tente identificar 1 ponto de mudança (por exemplo nDu-
ration=2.2) e proponha uma regressão por partes. Faça uma análise
de diagnóstico e apresente a banda de confiança de 95% para prever o
intervalo até a próxima erupção dado o tempo de duração da última
erupção.

23. No arquivo ginidh.txt constam o ı́ndice de GINI de 2013 e o IDH de

2017 dos 26 estados brasileiros mais o distrito federal. Construir inici-
almente o diagrama de dispersão entre GINI(X) e IDH(Y) e comente.
Ajustar através de uma regressão linear simples o IDH contra o ı́ndice
de GINI. Aplicar procedimentos de diagnóstico, análise de resı́duos e
distância de Cook e comente. Elimine a UF discrepante e reajuste o
modelo. Tente agora acomodar a UF discrepante através do seguinte
modelo:
yi = β1 + β2 xi + γzi + i ,
em que zi é uma variável explicativa com zeros e valor 1 na posição da
UF discrepante. Refazer a análise de resı́duos e a distância de Cook
para esse modelo e comente. Finalmente, aplicar para o modelo inicial

120
o procedimento de Huber para tentar acomodar a UF discrepante.
Compare os 4 ajustes e comente.

24. Na tabela abaixo tem-se a quantidade de água (em mm) na raiz e o

comprimento (em cm) de 15 tipos de feijoeiros. Propor valores inicias
e ajustar um modelo de crescimento logı́stico aos dados. Obter as
estimativas intervalares para os parâmetros e construir os gráficos de
resı́duos. Comente. Qual a quantidade de água necessária para o
feijoeiro alcançar metade do comprimento?

Comprimento 1,3 1,3 1,9 3,4 5,3 7,1 10,6 16,0

Água 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5
Comprimento 16,4 18,3 20,9 20,5 21,3 21,2 20,9
Água 8,5 9,5 10,5 11,5 12,5 13,5 14,5

25. A tabela abaixo descreve a evolução da população brasileira (em milhões)

através dos censos realizados desde 1872. Apresentar inicialmente o
gráfico de dispersão da evolução da população brasileira. Propor valo-
res inicias e ajustar um modelo de crescimento logı́stico, apresentar as
análises de resı́duos e comentar. Encontre uma estimativa intervalar
aproximada de 90% para o valor esperado do máximo a ser alcançado
pela população brasileira. Estime o valor esperado para a população
brasileria em 2030, apresentando uma estiamtiva intervalar aproxi-
mada de 95%.

Censo População Censo População Censo População

1872 9.930478 1890 14.333915 1900 17.438434
1920 30.635605 1940 41.236315 1950 51.944397
1960 70.191370 1970 93.139037 1980 119.002706
1991 146.825475 2000 169.779170 2010 190.755799
2022 203.062512

Referências
Atkinson AC (1981) Two graphical display for outlying and influential
observations in regression. Biometrika 68:13-20.

Atkinson AC (1985) Plots, Transformations and Regressions. Oxford Sta-

tistical Science Series, Oxford.

121
Belsley DA, Kuh E, Welsch RE (1980) Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity. John Wiley, New York.
Cook RD (1977) Detection of influential observations in linear regressions.
Technometrics 19:15-18.
Cook RD, Weisberg S (1982) Residuals and Influence in Regression. Chap-
man and Hall/CRC.
Dunkler D, Plischke M, Leffondré K, Heinze G (2014) Augmented backward
elimination: a pragmatic and purposeful way to develop statistical
models. Plos One 9(11):e113677.
Faraway JJ (2016) Extending the Linear Model with R. Generalized Li-
near, Mixed Effects and Nonparametric Regression Models, 2nd Edi-
tion. Chapman and Hall/CRC.
Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Re-
gression. Springer.
Fox J, Weisberg S (2019) An R Companion to Applied Regression, 3nd
Edition. Sage, Thousand Oaks, CA.
Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.
Lawless JF (1982) Statistical Models and Methods for Lifetime Data. Wiley.
Lindsey JK (1997) Applying Generalized Linear Models. Springer, New
York.
Hubert M, Vandervierin E (2008) An adjusted boxplot for skewed distri-
butions. Computational Statistics and Data Analysis 32:5186-5201.
Montgomery DC, Peck EA, Vining GG (2021) Introduction to Linear Re-
gression Analysis, 6th Edition. Wiley.
Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied Linear
Statistical Models, 4th Edition. WCB McGraw-Hill.
Rao CR (1973) Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ruppert D (2004) Statistical and Finance. Springer, New York.
Weisberg S (2014) Applied Linear Regression, Fourth Edition. Wiley.

122

Texto Regressão Linear Múltipla

Enviado por

Texto Regressão Linear Múltipla

Enviado por

Regressão Linear Múltipla

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (1)

em que y = (y1 , . . . , yn )> , X é a matriz modelo de dimensão n × p dada por

 = (1 , . . . , n )> com  ∼ Nn (0, σ 2 In ) e In a matriz identidade de ordem n.

2 Solução de Mı́nimos Quadrados

A derivada parcial de S(β) com relação a βj fica dada por

para j = 1, . . . , p. Assim, a derivada de S(β) com relação a β é um vetor

A estimativa de mı́nimos quadrados β

Figura 1: Representação geométrica da solução de mı́nimos quadrados re-

para j, ` = 1, . . . , p. Assim, a matriz de segundas derivadas de S(β) com

Ou seja, βb é um estimador não tendencioso de β. A matriz de variância-

b = Var{(X> X)−1 X> Y} = (X> X)−1 X> Var(Y|X)X(X> X)−1

Logo, βb ∼ Np (β, σ 2 (X> X)−1 ) e conforme mostrado em Montgomery et al.

|| y ||2 = || ŷ ||2 + || y − ŷ ||2

SQT = SQReg + SQRes,

2.1 Regressão Linear Simples

em que y1 , . . . , yn são valores observados da variável resposta, x1 , . . . , xn

em que −1 ≤ r ≤ 1. Aternativamente, tem-se que

Por outro lado, obtém-se

ybi = βb1 + βb2 xi = (ȳ − x̄βb2 ) + βb2 xi = ȳ + (xi − x̄)βb2 .

Tabela 1: Descrição da tabela de Análise de Variância (ANOVA).

F. Variação S.Quadrados G.L. Q. Médio F

Denote Var(β) b = σ 2 C, em que C = (X> X)−1 . Então, pode-se expressar

Portanto, tem-se que

em que χ2(α/2),(n−p) e χ2(1−α/2),(n−p) denotam, respectivamente, os quantis

d µ(z)} = s2 z> (X> X)−1 z, uma estimativa intervalar de coe-

em que t(1−α/2),(n−p) denota o quantil (1 − α/2) de uma distribuição t-

em que cα é tal que P{χ2p ≤ cα } = 1 − α (vide, por exemplo, Rao, 1973).

Var{Yb (z)} = Var{z> β

d Yb (z)} = s2 {1 + z> (X> X)−1 z}.

(ii) avaliar se há presença de observações atı́picas ou discrepantes. Essas

Abaixo segue descrição dos três tipos de observações atı́picas.

Pontos de alavanca: observações em que o vetor xi = (xi1 , xi2 , . . . , xip )>

Pontos aberrantes: observações com resı́duo alto, posicionadas fora da

Pontos influentes: observações com peso desproporcional nas estimativas

Na Figura 2 há uma descrição gráfica de observações atı́picas. No pri-

6.1 Pontos de Alavanca

alavanca influente + alavanca

Figura 2: Representação gráfica para um conjunto de dados hipotéticos de

Como a matriz H é idempotente (H = HH) segue que

então hii ≥ 0 e hii (1 − hii ) ≥ 0 e portanto 0 ≤ hii ≤ 1. Note que se

Região Conjunta dos Dados

Figura 3: Representação geométrica para os limites de predição de um mo-

Na Figura 3 tem-se a representação geométrica da “região conjunta dos

E(r) = E(Y|X) − HE(Y|X)

A matriz de variância-covariância de r fica dada por

Var(r) = Var{(In − H)Y|X)

Portanto, segue que r ∼ Nn (0, σ 2 (In − H)), e consequentemente

(ii) Cov(ri , rj ) = −σ 2 hij , i 6= j e

para i, j = 1, . . . , n. Ou seja, os resı́duos têm distribuição marginal normal

para i = 1, . . . , n. É possı́vel mostrar que

(iv) Gráfico de t∗i contra valores de variáveis explicativas contı́nuas para

6.4 Outra Interpretação para t∗i

6.5 Análise de Influência

Na Figura 4 tem-se a representação gráfica da superfı́cie correspondente à

Figura 4: Representação geométrica para a região de confiança de 95% para

A distância de Cook é definida por

(β b )> (X> X)(β

em que β b denota a estimativa de mı́nimos quadrados quando a i-ésima

= {X> X − xi x> −1 >

para i = 1, . . . , n. Portanto, tem-se que

Assim, a distância de Cook fica dada

em que C = (X> X)−1 , Cj denota a j-ésima coluna de C, pji e p> j de-

6.6 Análise Confirmatória

para j = 1, . . . , p e i ∈ S. Deve-se associar a cada observação deletada o novo

Tratamentos de Observações Discrepantes

6.7 Gráfico da Variável Adicionada

Medida Telhados Nclientes

Mı́nimo 30,90 26,00

Na Figura 5 tem-se o boxplot robusto (Hubert e Vandervierin, 2008) e

−100 0 100 200 300 400

Figura 5: Boxplot robusto e densidade estimada do total de telhados vendi-

Figura 6: Diagrama de dispersão (com tendência) entre o total de telhados

Tabela 3: Estimativas dos parâmetros referentes ao modelo de regressão

Efeito Estimativa E.Padrão valor-t valor-P

Portanto, sugere-se o seguinte modelo de regressão linear simples:

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (1)

= (1 , . . . , n )> com ∼ Nn (0, σ 2 In ) e In a matriz identidade de ordem n.

yi = β1 + β2 xi2 + β3 xi3 + β4 xi2 xi3 + i ,

• (Grupo A) yi = β1 + β2 + β3 xi3 + β4 xi3 + i

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + i ,

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + i ,

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + β5 xi2 xi4 + β6 xi3 xi4 + i ,

• (Grupo C) yi = β0 + β3 + β4 xi4 + β6 xi4 + i ,

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (5)