0% acharam este documento útil (0 voto)
20 visualizações122 páginas

Texto Regressão Linear Múltipla

O documento apresenta uma síntese sobre regressão linear múltipla, abordando tópicos como estimativa por mínimos quadrados, inferência, diagnósticos e multicolinearidade. Exemplos e exercícios são incluídos para ilustrar os conceitos, e o texto enfatiza a importância da normalidade dos erros em amostras pequenas. O autor sugere uma leitura complementar no livro de Montgomery, Peck e Vining (2021).

Enviado por

Jesus Cristo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
20 visualizações122 páginas

Texto Regressão Linear Múltipla

O documento apresenta uma síntese sobre regressão linear múltipla, abordando tópicos como estimativa por mínimos quadrados, inferência, diagnósticos e multicolinearidade. Exemplos e exercícios são incluídos para ilustrar os conceitos, e o texto enfatiza a importância da normalidade dos erros em amostras pequenas. O autor sugere uma leitura complementar no livro de Montgomery, Peck e Vining (2021).

Enviado por

Jesus Cristo
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 122

Regressão Linear Múltipla

Gilberto A. Paula
Instituto de Matemática e Estatı́stica - Universidade de São Paulo
e-mail: giapaula@ime.usp.br

Setembro 2023

Resumo
O principal objetivo deste texto é apresentar uma sı́ntese dos principais
tópicos relacionados com regressão linear múltipla, tais como estimação por
mı́nimos quadrados e máxima verossimilhança, procedimentos inferenciais
e de teste de hipóteses, além de métodos de diagnóstico, conceito de in-
teração, comparação de médias, regressão ponderada, multicolinearidade,
seleção de modelos, regressão por partes e métodos robustos com extensões
para regressão não linear. Exemplos ilustrativos são apresentados ao longo
do texto e vários exercı́cios teóricos e aplicados são propostos no final do
texto. Uma abordagem mais completa pode ser encontrada, por exemplo,
no livro de Montgomery, Peck e Vining (2021).

1 Introdução
Denote por (y1 , x1 ), . . . , (yn , xn ) uma amostra aleatória de tamanho n de
uma determinada população, em que y1 , . . . , yn representam os valores obser-
vados da variável resposta (assumida contı́nua), enquanto xi = (xi1 , . . . , xip )>
denotam valores observados de variáveis explicativas, para i = 1, . . . , n. O
principal objetivo da regressão linear múltipla é tentar explicar o valor es-
perado da variável resposta dados os valores das variáveis explicativas. A
formulação mais usual é a seguinte:

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (1)


iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Muitas vezes tem-se um intercepto
em (1), sendo nesse caso assumido que xi1 = 1 ∀i.
A suposição de normalidade para os erros pode ser relaxada para amos-
tras grandes, contudo para amostras pequenas e moderadas essa suposição

1
ind
é crucial para fazer inferência. De (1) segue que Yi |xi ∼ N(µi , σ 2 ) com
µi = x> >
i β e β = (β1 , . . . , βp ) , para i = 1, . . . , n.
Em forma matricial o modelo (1) fica expresso na forma

y = Xβ + , (2)

em que y = (y1 , . . . , yn )> , X é a matriz modelo de dimensão n × p dada por


 
xi1 x12 ... x1p
 .. .. .. ..
X= . ,

. . .
xn1 xn2 ... xnp

 = (1 , . . . , n )> com  ∼ Nn (0, σ 2 In ) e In a matriz identidade de ordem n.

2 Solução de Mı́nimos Quadrados


A estimativa de mı́nimos quadrados de β é obtida minimizando a função
objetivo S(β) que corresponde a minimizar a soma dos quadrados dos erros
n
X n
X
S(β) = 2i = (yi − x> 2 >
i β) = (y − Xβ) (y − Xβ).
i=1 i=1

A derivada parcial de S(β) com relação a βj fica dada por


n
∂S(β) X
= −2 xij (yi − x>
i β),
∂βj
i=1

para j = 1, . . . , p. Assim, a derivada de S(β) com relação a β é um vetor


de dimensão p × 1 expresso na forma

∂S(β)
= −2X> (y − Xβ).
∂β

A estimativa de mı́nimos quadrados β


b é obtida igualando-se a primeira de-
rivada a zero
∂S(β)
= 0 ⇒ −2X> (y − Xβ) b = 0.
∂β
Se X é uma matriz de posto coluna completo então tem-se uma solução
única
b = (X> X)−1 X> y.
β

2
Na Figura 1 é apresentada uma representação geométrica da solução de
mı́nimos quadrados, em que y b = Xβ b = Hy corresponde à projeção orto-
gonal de y através do projetor linear H = X(X> X)−1 X> , no subespaço
gerado pelas colunas da matriz X, denotado por C(X). Por outro lado,
r = y−y b = (In − H)y definido como vetor de resı́duos ordinários, cor-
responde à projeção ortogonal de y através do projetor linear (In − H), no
subespaço complementar Cc (X), denominado ortocomplemento de C(X).

Cc(X)

r y

^
y^ = Xβ

C(X)

Figura 1: Representação geométrica da solução de mı́nimos quadrados re-


ferente ao modelo de regressão linear múltipla (2), em que r = y − y b é o
resı́duo ordinário e C(X) denota o subespaço gerado pelas colunas da matriz
X e Cc (X) o ortocomplemento.

3
É preciso verificar se a raiz da primeira derivada é de fato um ponto de
mı́nimo da superfı́cie formada por (S(β), β > )> . Deriva-se então novamente
S(β) com relação a β` , obtendo-se
n
∂ 2 S(β) X
=2 xij xi` ,
∂βj ∂β`
i=1

para j, ` = 1, . . . , p. Assim, a matriz de segundas derivadas de S(β) com


relação a β tem dimensão p × p e fica expressa na forma

∂ 2 S(β)
= 2X> X.
∂β∂β >

Como é assumido que X tem posto coluna completo então X> X é uma
matriz positiva definida, logo S(β) é uma superfı́cie convexa e β
b é ponto de
mı́nimo.
Resumindo, tem-se que Y|X ∼ Nn (Xβ, σ 2 In ) e como consequências
E(Y|X) = Xβ e Var(Y|X) = σ 2 In , em que Y = (Y1 , . . . , Yn )> . Seguem as
seguintes propriedades do estimador de mı́nimos quadrados:
b = E{(X> X)−1 X> Y} = (X> X)−1 X> E(Y|X) = (X> X)−1 X> Xβ = β.
E(β)

Ou seja, βb é um estimador não tendencioso de β. A matriz de variância-


covariância de β
b fica dada por

b = Var{(X> X)−1 X> Y} = (X> X)−1 X> Var(Y|X)X(X> X)−1


Var(β)
= σ 2 (X> X)−1 X> X(X> X)−1 = σ 2 (X> X)−1 .

Logo, βb ∼ Np (β, σ 2 (X> X)−1 ) e conforme mostrado em Montgomery et al.


(2021, Apêndice C.4) β b tem a menor variância entre todos os estimadores
lineares não viesados de β.
Pelo Teorema de Pitágoras aplicado ao triângulo retângulo da Figura 1,
tem-se que

|| y ||2 = || ŷ ||2 + || y − ŷ ||2


Xn X n Xn
2 2
yi = ybi + (yi − ybi )2 ,
i=1 i=1 i=1
p
em que || v ||= v12 + · · · + vn2 denota norma ou comprimento do vetor
>
v = (v1 , . . . , vn ) . Se o modelo tem intercepto segue da solução de mı́nimos

4
quadrados X> (y − Xβ) b = 0 que Pn ri = 0. Logo, obtém-se a decom-
i=1
posição de somas de quadrados

SQT = SQReg + SQRes,


Pn 2
em
Pn que SQT = i=1 (yi − ȳ) é a soma de quadrados total, SQReg =
Pi=1 (yi − ȳ)2 é a soma de quadrados devido à regressão, enquanto SQRes =
n
i=1 (yi − ybi )2 é a soma de quadrados de resı́duos. Uma maneira de avaliar
a qualidade do ajuste é comparar SQReg com SQT através do coeficiente
de determinação
SQReg SQRes
R2 = =1− ,
SQT SQT
em que 0 ≤ R2 ≤ 1. Quanto mais próximo R2 está de 1 melhor a qualidade
do ajuste. Contudo, como o coeficiente de determinação cresce à medida que
o número p de parâmetros aumenta, recomenda-se a utilização do coeficiente
de determinação ajustado

2 QMRes
R =1− ,
QMT
2
em que QMRes = SQRes n−p e QMT =
SQT
p−1 e 0 ≤ R ≤ 1. É possı́vel estabelecer
a seguinte relação:
2 (n − 1)
R = 1 − (1 − R2 ) .
(n − p)
2
Portanto, segue que R ≤ R2 .

2.1 Regressão Linear Simples


Considere agora o modelo de regressão linear simples definido por

yi = β1 + β2 xi + i ,

em que y1 , . . . , yn são valores observados da variável resposta, x1 , . . . , xn


iid
são valores observados da variável explicativa X e i ∼ N(0, σ 2 ), para i =
1, . . . , n. A matriz modelo de dimensão n × 2 fica dada por
 
1 x1
X =  ... ..  .

. 
1 xn

5
Assim, obtém-se
 
> n nx̄ X
X X= e X> y = (nȳ, xi yi )> .
x2i
P
nx̄
P P
xi yi
em que x̄ = n e ȳ = n . Logo,

x2i
 P 
> −1 1 −nx̄
(X X) = ,
nSxx −nx̄ n
Pn
em que Sxx = i=1 (xi − x̄)2 . O estimador de mı́nimos quadrados fica dado
por " # " #
b = (X> X)−1 X> y = βb1 ȳ − βb2 x̄
β = Sxy
βb2 Sxx
Pn
com Sxy = − x̄)(yi − ȳ). A matriz de variância-covariância assume
i=1 (xi
a forma
σ2
 P 2 
2 > −1 xi −nx̄
Var(β) = σ (X X) =
b .
nSxx −nx̄ n
2 2
P
σ x 2 2
Daı́ segue que Var(βb1 ) = nSxx i , Var(βb2 ) = Sσxx e Cov(βb1 , βb2 ) = − σSxxx̄ .
Supondo que X é uma variável quantitativa contı́nua, o coeficiente de
correlação linear amostral de Pearson entre X e Y é expresso na forma
Pn
i=1 (xi − x̄)(yi − ȳ)
rxy = Pn 1 ,
{ i=1 (xi − x̄)2 ni=1 (yi − ȳ)2 } 2
P

em que −1 ≤ r ≤ 1. Aternativamente, tem-se que


s s
Sxy Sxy Sxx Sxx
rxy = 1 = = βb2 .
{Sxx SQT} 2 Sxx SQT SQT

Por outro lado, obtém-se

ybi = βb1 + βb2 xi = (ȳ − x̄βb2 ) + βb2 xi = ȳ + (xi − x̄)βb2 .

yi − ȳ) = (xi − x̄)βb2 e portanto ni=1 (b yi − ȳ)2 = βb22 ni=1 (xi − x̄)2 .
P P
Logo (b
Sxy
Então, segue que SQReg = βb22 Sxx . E desde que βb2 = Sxx obtém-se

SQReg
SQReg = βb2 Sxy → βb2 = .
Sxy

6
Finalmente, segue a relação
2 Sxx Sxy SQReg Sxx SQReg
rxy = βb22 = = = R2 .
SQT Sxx Sxy SQT SQT
Ou seja, o coeficiente de determinação R2 coincide com o quadrado do coe-
ficiente de correlação linear amostral de Pearson entre X e Y na regressão
linear simples.

3 Teste de Hipóteses
Inicialmente, supor que o interesse é avaliar se os coeficientes da regressão
são nulos, que corresponde a testar as hipóteses
H0 : β2 = · · · = βp = 0 contra H1 : βj 6= 0,
para pelo menos algum j = 2, . . . , p. A estatı́stica F fica expressa na forma
SQReg/(p − 1) QMReg H0
F= = ∼ F(p−1),(n−p) .
SQRes/(n − p) QMRes
Para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F > F(1−α),(p−1),(n−p) ,
em que F(1−α),(p−1),(n−p) denota o quantil (1 − α) da distribuição F com
(p − 1) e (n − p) graus de liberdade. É usual construir a tabela de análise
de variância (ANOVA), conforme descrito na Tabela 1.

Tabela 1: Descrição da tabela de Análise de Variância (ANOVA).

F. Variação S.Quadrados G.L. Q. Médio F


QMReg
Regressão SQReg p−1 QMReg QMRes
Resı́duos SQRes n−p QMRes
Total SQT n−1

Denote Var(β) b = σ 2 C, em que C = (X> X)−1 . Então, pode-se expressar


as variâncias e covariâncias dos estimadores βb1 , . . . , βbp nas formas Var(βbj ) =
σ 2 Cjj e Cov(βbj , βb` ) = σ 2 Cj` , em que Cj` denota o elemento (j, `) da matriz
C, para j, ` = 1, . . . , p. Supor então que o interesse é testar as hipóteses
H0 : βj = 0 contra H1 : βj 6= 0, para algum j = 1, . . . , p. A estatı́stica
t-Student fica expressa na forma
βbj H0
t= ∼ t(n−p) ,
EP(
c βbj )

7
p
em que EP(
c βbj ) = s Cjj . Para um nı́vel de significância 0 < α < 1, rejeita-
se H0 se |t| > t(1−α/2),(n−p) , em que t(1−α/2),(n−p) denota o quantil (1 − α/2)
de uma distribuição t-Student com (n−p) graus de liberdade. Em particular,
pode-se mostrar que t2 segue sob H0 distribuição F1,(n−p) .
Generalizando, supor que o interesse agora é testar H0 : Rβ = 0 contra
contra H1 : Rβ 6= 0, com pelo menos uma desigualdade estrita em H1 , em
que R é uma matriz r × p com posto linha r ≤ p. O acréscimo na soma de
quadrados de resı́duos devido à restrição Rβ = 0 (vide Montgomery et al.,
2021, Cap. 3) é dado por
b > {R(X> X)−1 R> }−1 Rβ.
ASQ(Rβ = 0) = (Rβ) b

Portanto, tem-se que


ASQ(Rβ = 0)/r H0
F= ∼ Fr,(n−p) .
SQRes/(n − p)
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),r,(n−p) .
Um caso particular é considerar a regressão linear múltipla (2) com efei-
tos particionados
y = X1 β 1 + X2 β 2 + , (3)
em que X1 e X2 são matrizes de dimensões n × p1 e n × p2 , respecti-
vamente, enquanto β 1 tem dimensão p1 × 1 e β 2 tem dimensão p2 × 1.
Logo, X = [X1 , X2 ] e β = (β > > >
1 , β 2 ) . Supor que o interesse seja testar
H0 : β 2 = 0 contra H1 : β 2 6= 0, com pelo menos uma desigualdade es-
trita em H1 . A soma de quadrados de resı́duos correspondente ao modelo
(3) com p parâmetros será denotada por SQRes(β) = y> (In − H)y, en-
quanto que a soma de quadrados de resı́duos sob o modelo em H0 com p1
parâmetros será denotada por SQRes(β|β 2 = 0) = y> (In − H1 )y, em que
H1 = X1 (X> −1 >
1 X1 ) X1 . Note que SQRes(β|β 2 = 0) ≥ SQRes(β). Assim,
o acréscimo na soma de quadrados de resı́duos devido à restrição β 2 = 0
pode ser expresso na forma
ASQ(β 2 = 0) = SQRes(β|β 2 = 0) − SQRes(β) = y> (H1 − H)y,
e consequentemente a estatı́stica F para testar H0 : β 2 = 0 contra H1 : β 2 6=
0 fica dada por
y> (H1 − H)y/p2 H0
F= ∼ Fp2 ,(n−p) .
y> (In − H)y/(n − p)
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),p2 ,(n−p) .

8
4 Estimativa Intervalar
Um estimativa intervalar de coeficiente de confiança (1 − α) para βj fica
dada por
[βbj ± t(1−α/2),(n−p) EP(
c βbj )],
em que j = 1, . . . , p. Como para n grande a t-Student se aproxima da
normal, pode-se usar o quantil (1−α/2) da N(0, 1) no lugar de t(1−α/2),(n−p) .
É possı́vel mostrar que
SQRes modelo
∼ χ2(n−p) .
σ2
 
SQRes SQRes
Logo, segue que E σ2
= (n − p) e portanto s2 = (n−p) é um estimador
não tendencioso de σ 2 . Após algumas manipulações com a distribuição
χ2(n−p) tem-se que
( )
(n − p)s2 (n − p)s2
P ≤ σ2 ≤ 2 = (1 − α),
χ2(1−α/2),(n−p) χ(α/2),(n−p)

em que χ2(α/2),(n−p) e χ2(1−α/2),(n−p) denotam, respectivamente, os quantis


α/2 e (1 − α/2) da distribuição χ2(n−p) . Assim, uma estimativa intervalar de
coeficiente de confiança (1 − α) para σ 2 fica dada por
" #
(n − p)s2 (n − p)s2
; .
χ2(1−α/2),(n−p) χ2(α/2),(n−p)
Alternativamente, é possı́vel encontrar uma estimativa intervalar de menor
comprimento para σ 2 dada por
(n − p)s2 (n − p)s2
 
; ,
a b
Rb
em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) e a g(n−p) (t)dt =
(1 − α), com g(n−p) (t) denotando a função densidade de probabilidade da
distribuição χ2(n−p) (vide Exercı́cio 6).

5 Bandas de Confiança
Supor uma nova observação que não pertence à amostra com valores para
as variáveis explicativas representados por z = (z1 , z2 , . . . , zp )> . Portanto,
tem-se que
y(z) = z> β + (z)

9
b(z) = z> β
e valor esperado E{Y (z)} = µ(z). Logo µ b e

µ(z)} = Var(z> β)
Var{b b = z> Var(β)z
b = σ 2 z> (X> X)−1 z.

d µ(z)} = s2 z> (X> X)−1 z, uma estimativa intervalar de coe-


Desde que Var{b
ficiente de confiança (1 − α) para µ(z) fica dada por
1
[z> β
b ± t(1−α/2),(n−p) s{z> (X> X)−1 z} 2 ],

em que t(1−α/2),(n−p) denota o quantil (1 − α/2) de uma distribuição t-


Student com (n − p) graus de liberdade. A banda de coeficiente de confiança
(1 − α) para µ(z) assume a forma
√ 1
[z> β
b± cα σ{z> (X> X)−1 z} 2 , ∀z ∈ IRp ],

em que cα é tal que P{χ2p ≤ cα } = 1 − α (vide, por exemplo, Rao, 1973).


Por outro lado, o valor predito de Y (z) pode ser representado por yb(z) =
>
z β + (z) e portanto
b

Var{Yb (z)} = Var{z> β


b + (z)} = Var{z> β}
b + Var{(z)}
= z> Var(β)z
b + Var{(z)} = σ 2 z> (X> X)−1 z + σ 2
= σ 2 {1 + z> (X> X)−1 z}.

d Yb (z)} = s2 {1 + z> (X> X)−1 z}.


Tem-se que Var{
Assim, estimativa intervalar e banda de confiança de coeficiente de con-
fiança (1 − α) para y(z) ficam, respectivamente, dadas por
1
[z> β
b ± t(1−α/2),(n−p) s{1 + z> (X> X)−1 z} 2 ]

e
√ 1
[z> β
b± cα σ{1 + z> (X> X)−1 z} 2 , ∀z ∈ IRp ].
Na prática deve-se substituir σ 2 por s2 e cα é obtido tal que P{Fp,(n−p) ≤
cα } = 1 − α. Em particular, para regressão linear simples é possı́vel mostrar
que z> (X> X)−1 z = 1/n + (z − x̄)2 /Sxx .

6 Métodos de Diagnóstico
Procedimentos de diagnóstico devem ser aplicados após o ajuste do modelo
linear normal e têm como principais objetivos:

10
(i) avaliar se há afastamentos importantes das suposições feitas para o mo-
delo, tais como independência, normalidade, homocedasticidade dos
erros e linearidade da média com relação aos valores das variáveis ex-
plicativas;

(ii) avaliar se há presença de observações atı́picas ou discrepantes. Essas


observações podem ser classificadas como pontos de alavanca, pontos
aberrantes ou pontos influentes.

Abaixo segue descrição dos três tipos de observações atı́picas.

Pontos de alavanca: observações em que o vetor xi = (xi1 , xi2 , . . . , xip )>


está remoto no subespaço C(X) gerado pelas colunas da matriz X. Es-
sas observações têm influência desproporcional no próprio valor ajus-
tado.

Pontos aberrantes: observações com resı́duo alto, posicionadas fora da


banda de confiança. Ou seja, observações mal ajustadas pelo modelo.
Em geral essas observações têm influência desproporcional na predição
das respostas.

Pontos influentes: observações com peso desproporcional nas estimativas


dos coeficientes do componente sistemático do modelo. Em geral são
pontos de alavanca mas a recı́proca nem sempre é verdadeira.

Na Figura 2 há uma descrição gráfica de observações atı́picas. No pri-


meiro gráfico (acima à esquerda) tem-se uma regressão hipotética com a reta
ajustada passando pelas 5 observações, no segundo gráfico (acima à direita)
a 3a observação é deslocada verticalmente de forma a tornar- se aberrante,
enquanto no terceiro e quarto gráficos (abaixo à esquerda e à direita) a
5a observação é deslocada em direções diferentes de modo a tornar-se de
alavanca e influente, respectivamente.

6.1 Pontos de Alavanca


Uma observação é definida como ponto de alavanca se tem uma alta in-
fluência no próprio valor ajustado. Essa influência é medida através da
derivada ∂b y /∂y. Ou seja, mede o impacto que uma variação infinitesi-
mal na respostaP causa no valor ajustado. Da relação y = Hy obtém-se
b
ybi = hii yi + j6=i hij yj , em que hij denota o elemento (i, j) da matriz H que
é simétrica de dimensão n × n. Daı́ segue que ∂b yi /∂yi = hii e ainda pode-se
> >
mostrar que hii = xi (X X) xi . −1

11
aberrante

alavanca influente + alavanca

Figura 2: Representação gráfica para um conjunto de dados hipotéticos de


pontos de alavanca, aberrantes e influentes. Reta ajustada com todos as
observações ( ) e sem a observação deslocada ( ).

Como a matriz H é idempotente (H = HH) segue que


n
X X
h2ij = hii → h2ij = hii − h2ii = hii (1 − hii ),
j=1 j6=i

então hii ≥ 0 e hii (1 − hii ) ≥ 0 e portanto 0 ≤ hii ≤ 1. Note que se


hii = 1 então hij = 0 ∀j 6= i e logo ybi = yi . Hoaglin e Welsch (1978)
Pn classificar pontos de alavanca segundo o critério hii ≥ 2h̄, em que
propõem
hii
h̄ = i=1n . Assim, desde que
n
X
hii = tr(H) = tr{X(X> X)−1 X> } = tr{(X> X)−1 X> X} = tr(Ip ) = p,
i=1

2p 3p
o critério fica dado por hii ≥ n. Para amostras grandes sugere-se hii ≥ n.

12
6.2 Limites para a Predição
Supor uma nova observação com valores para as variáveis explicativas re-
presentados por z = (z1 , z2 , . . . , zp )> . Qual a condição para obter yb(z)? Se-
gundo Montgomery et al.(2021, p.110) pode-se fazer predição (interpolação)
no modelo de regressão linear múltipla com segurança se a seguinte condição
for satisfeita:
x> (X> X)−1 x ≤ hmax ∀x ∈ IRp ,
em que hmax = max{h11 , . . . , hnn }. Logo, uma condição para predição de
y(z) é que z> (X> X)−1 z ≤ hmax .
d

Região Conjunta dos Dados


x2
c

a b
x1

Figura 3: Representação geométrica para os limites de predição de um mo-


delo de regressão (sem intercepto) com duas variáveis explicativas, com va-
lores tais que a ≤ x1 ≤ b e c ≤ x2 ≤ d.

Na Figura 3 tem-se a representação geométrica da “região conjunta dos


dados”para a qual recomenda-se fazer as predições do modelo linear y =
β1 x1 + β2 x2 + , em que a ≤ x1 ≤ b e c ≤ x2 ≤ d. Nota-se que há vários
pares de valores (x1 , x2 ) para os quais não é recomendado fazer interpolação.

13
6.3 Análise de Resı́duos
Como visto anteriormente, o vetor de resı́duos ordinários é definido por
r = (In − H)y, em que r = (r1 , . . . , rn )> com ri = yi − ybi , para i = 1, . . . , n.
Tem-se que

E(r) = E(Y|X) − HE(Y|X)


= Xβ − X(X> X)−1 X> Xβ
= Xβ − Xβ = 0.

A matriz de variância-covariância de r fica dada por

Var(r) = Var{(In − H)Y|X)


= (In − H)Var(Y|X)(In − H)
= σ 2 (In − H)(In − H)
= σ 2 (In − H).

Portanto, segue que r ∼ Nn (0, σ 2 (In − H)), e consequentemente


(i) ri ∼ N(0, σ 2 (1 − hii ));

(ii) Cov(ri , rj ) = −σ 2 hij , i 6= j e


−hij
(iii) Corr(ri , rj ) = √ , i 6= j,
(1−hii )(1−hjj )

para i, j = 1, . . . , n. Ou seja, os resı́duos têm distribuição marginal normal


de média zero, variâncias não constantes e são correlacionados.
Para que os resı́duos sejam comparáveis é preciso padronizá-los. Uma
padronização natural seria o resı́duo normalizado
ri
tri = √ ∼ N(0, 1), i = 1, . . . , n.
σ 1 − hii
Porém, é preciso estimar σ 2 . Sabe-se que a estatı́stica t-Student é construı́da
da seguinte forma:
Z
t= p ∼ tν ,
U/ν
em que Z ∼ N(0, 1), U ∼ χ2ν e Z e U são variáveis aleatórias independentes.
Tem-se que tri ∼ N(0, 1) e é possı́vel mostrar que (n − p)s2 /σ 2 ∼ χ2(n−p) ,
porém tri e s2 não são independentes. Logo, o resı́duo
ri
ti = √  t(n−p) .
s 1 − hii

14
t2
Cook e Weisberg (1982) mostram que (n−p) i
∼ Beta( 12 , (n−p−1)
2 ). A sugestão
2 2
é substituir s por s(i) , o erro quadrático médio do modelo sem a i-ésima
observação. Agora, tem-se que tri ∼ N(0, 1), (n − p − 1)s2(i) /σ 2 ∼ χ2(n−p−1)
e ainda tri e s2(i) são independentes. Então, tem-se o resı́duo Studentizado
r
t∗i = √i ∼ t(n−p−1) ,
s(i) 1 − hii

para i = 1, . . . , n. É possı́vel mostrar que


2
 
2 2 n − p − ti
s(i) = s .
n−p−1

Ou seja, s2(i) pode ser obtido sem a necessidade de fazer o ajuste sem a
i-ésima observação.
Abaixo são descritos alguns gráficos sugeridos com o resı́duo t∗i .
(i) Gráfico entre os quantis observados t∗1) < · · · < t∗(n) do resı́duo t∗i
contra os quantis da distribuição N(0, 1). Esse gráfico é equivalente
ao gráfico normal de probabilidades sugerido em Montgomery et al.
(2021, Cap.4). Sugere-se a inclusão de banda de confiança empı́rica,
denominada envelope (Atkinson, 1981). Essa banda é recomendada
em virtude dos resı́duos serem correlacionados. Espera-se os pontos
distribuı́dos de forma aleatória dentro da banda de confiança. Dis-
torções no gráfico podem ser causadas por observações aberrantes e
outras formas para o gráfico são indı́cios de afastamentos da normali-
dade dos erros.

(ii) Gráfico de t∗i contra valores ajustados ybi . Desde que Cov(r, y b ) = 0,
espera-se distribuição uniforme dos pontos conforma varia o valor ajus-
tado. Afastamentos dessa tendência são indı́cios de que a variância dos
erros não deve ser constante.

(iii) Gráfico de t∗i contra a ordem das observações para detectar (quando
fizer sentido) correlação temporal dos dados. Pode-se também aplicar
o teste de Durbin-Watson para avaliar se há correlação autoregressiva
positiva nos erros. Esse teste será discutido na Seção 17.

(iv) Gráfico de t∗i contra valores de variáveis explicativas contı́nuas para


avaliar se há algum termo que não foi incluı́do no componente sis-
temático do modelo. Alternativamente, tem-se o gráfico da variável
adicionada (Seção 6.6).

15
A suposição de normalidade dos erros é crucial para fazer inferências
quando o tamanho amostral n é pequeno ou moderado, contudo para n
grande tem-se pelo Teorema Central do Limite (TCL) a normalidade as-
sintótica de β
b desde que os erros tenham média zero e variância constante.
Assim, quando há indı́cios de afastamentos importantes da suposição de
normalidade dos erros pode-se tentar aplicar alguma transformaçao apro-
priada g(Y ) a fim de alcançar a normalidade mesmo que aproximadamente
(vide Exercı́cios 12 e 13). O incoveniente desse procedimento é que o novo
modelo estará explicando E{g(Y )} ao invés de E(Y ). Outra opção seria
aplicar modelos lineares generalizados, em que procura-se uma distribuição
apropriada para Y , porém tem-se em contrapartida a modelagem de E(Y ).
No caso da violação da suposição de variância constante para os erros, uma
primeira opção seria aplicar regressão linear ponderada (Seção 9) que fle-
xibiliza a variãncia dos erros sem comprometer os resultados da regressão
linear. Alternativamente, pode-se aplicar a modelagem dupla em que E(Y )
e Var(Y ) são modelados conjuntamente.
Para amostras pequenas e moderadas, quando há violação da suposição
de erros normais, pode-se aplicar procedimentos de reamostragem para es-
timação e inferência dos coeficientes da regressão (vide, por exemplo, Fox e
Weisberg, 2019).

6.4 Outra Interpretação para t∗i


Supor que o i-ésimo ponto é suspeito de ser aberrante. Essa hipótese pode
ser testada através do modelo
yj = x>
j β + ωj γ + j , (4)
iid
em que xj = (xj1 , . . . , xjp )> e j ∼ N(0, σ 2 ) para j = 1, . . . , n, com ωj = 1
para j = i e ωj = 0 em caso contrário. Usando resultados da Seção 3 pode-se
mostrar que sob a hipótese H0 : γ = 0 o acréscimo na soma de quadrados
de resı́duos fica dado por
b2 (1 − hii ),
ASQ(γ = 0) = γ
em que γb = ri (1 − hii )−1 com ri = yi − xTi β
b e hii = x> (X> X)−1 xi . Logo,
i
a soma de quadrados de resı́duos correspondente ao modelo (4) fica dada
r2
por (n − p)s2 − γb2 (1 − hii ) = (n − p)s2 − 1−hi ii e a estatı́stica F para testar
H0 : γ = 0 contra H1 : γ 6= 0 assume a forma
b2 (1 − hii )
γ H0
F= n r 2
o ∼ F1,(n−p−1) .
(n − p)s2 − (1−hi ii ) /(n − p − 1)

16
Trabalhando um pouco a expressão acima chega-se ao seguinte resultado:
ri2 (n − p − 1)
F= = t∗2
i .
s2 (1 − hii )(n − p − t2i )
Portanto, para um nı́vel de significância α, rejeita-se H0 se |t∗i | > t(1−α/2),(n−p−1) .

6.5 Análise de Influência


O objetivo principal da análise de influência em regressão é avaliar o impacto
de perturbações no modelo e/ou dados nos coeficientes da regressão, sendo
esse impacto avaliado através de alguma medida de influência. A medida
de influência mais conhecida, denominada distância de Cook (Cook, 1977),
procura avaliar o impacto da retirada de cada observação nas estimativas
dos coeficientes. Uma vez detectadas as observações com maior variação
para essa medida, deve-se proceder algum tipo de análise confirmatória a
fim de avaliar a influência das observações destacadas e também o tipo de
influência. Variações numéricas nas estimativas dos coeficientes são espe-
radas quando elimina-se observações, contudo quando essas variações são
desproporcionais, muito acima n1 × 100%, as observações podem ser consi-
deradas influentes. O mais grave é quando a eliminação individual de uma
observação leva a mudanças inferenciais, ou seja, determinados coeficientes
deixam ou passam a ser significativos. No primeiro caso a observação induz
o efeito do coeficiente enquanto que no segundo caso há mascaramento do
efeito pela observação.
Transformações dos valores das variáveis explicativas, inclusão de in-
teração ou mesmo ponderação na regressão, dentre outros procedimentos,
são comumente aplicados para reduzir a influência de observações na re-
gressão. Contudo, quando esses procedimentos não levam a soluções satis-
fatórias recomenda-se a aplicação de procedimentos de estimação robusta.
Na Seção 15 são apresentados alguns procedimentos usuais de estimação ro-
busta para regressão linear múltipla. Uma discussão mais abrangente pode
ser encontrada em Montogomery et al. (2021, Cap.15).
Nesta seção será discutida a distância de Cook aplicada ao modelo de
regressão linear múltipla (2). Essa medida pode ser motivada através da
região de confiança de coeficiente (1 − α) para β, dada por
b − β)> (X> X)(β
(β b − β)
≤ F(1−α),p,(n−p) ,
ps2
em que F(1−α),p,(n−p) , como definido anteriormente, denota o quantil (1 − α)
de uma distribuição F com p e (n − p) graus de liberdade. Essa região de

17
confiança é construı́da usando o resultado abaixo
( )
b − β)> (X> X)(β
(β b − β)
P ≤ F(1−α),p,(n−p) = 1 − α.
ps2

Na Figura 4 tem-se a representação gráfica da superfı́cie correspondente à


região de confiança para os coeficientes de uma regressão hipotética com
p = 2.
β2

β1

Figura 4: Representação geométrica para a região de confiança de 95% para


os coeficientes de um modelo de regressão hipotético com p = 2.

A distância de Cook é definida por

(β b )> (X> X)(β


b −β b −β
b )
(i) (i)
Di = ,
ps2

em que β b denota a estimativa de mı́nimos quadrados quando a i-ésima


(i)
observação não é considerada no modelo. Após manipulações algébricas

18
obtém-se
> −1 >
β (i) = {X(i) X(i) } X(i) y(i)
b

= {X> X − xi x> −1 >


i } {X y − xi yi }
(X> X)−1 xi x> > −1
 
> −1 i (X X)
= (X X) + {X> y − xi yi }
1 − hii
ri
b−
= β (X> X)−1 xi ,
(1 − hii )

para i = 1, . . . , n. Portanto, tem-se que


ri
b −β
β b =
(i) (X> X)−1 xi .
(1 − hii )

Assim, a distância de Cook fica dada


1 2 hii
Di = t .
p i (1 − hii )

Como hii /(1−hii ) é uma função crescente de hii , então Di será grande se |ti |
e/ou hii forem (for) grande(s). Uma proposta de pontos suspeitos de serem
influentes, baseada na região de confiança para β, é destacar as observações
tais que Di ≥ F(1−α),p,(n−p) . Outras sugestões se baseiam em obter limites
superiores para a distância de Cook com base nas variações dos valores
amostrais da distância e que levem em conta o tamanho amostral. Sugere-
se destacar as observações tais que Di ≥ D̄ + kDP(Di ), para k = 2, 3, 4.
Deve-se aumentar o valor k à medida que aumenta o tamanho amostral.
Outra medida de influência proposta por Belsley et al. (1980), que é
derivada da distância de Cook com s2 substuı́do por s2(i) , é definida por

 1
|ri | hii 2
DFFITSi = √
s(i) 1 − hii 1 − hii
 1
∗ hii 2
= |ti | .
1 − hii
1
Sugere-se destacar as observações tais que DFFITSi ≥ 2{p/(n − p)} 2 . Essa
medida leva também em conta a influência das observações na estimativa de
σ 2 . Contudo, quando o interesse está apenas nos coeficientes da regressão
sugere-se utilizar apenas a distância de Cook.

19
Finalmente, pode haver interesse em estudar a influência das observações
em coeficientes especı́ficos da regressão. Por exemplo, se há interesse em ava-
liar a influência da eliminação da i-ésima observação no j-ésimo coeficiente
estimado da regressão, utiliza-se a seguinte medida de influência:

(βbj − βbj(i) )
DFBETASji = p
s(i) Cjj
C>j xi ri
= p
s(i) (1 − hii ) Cjj
pji t∗
= q √ i ,
p> pj 1 − hii
j

em que C = (X> X)−1 , Cj denota a j-ésima coluna de C, pji e p> j de-


notam, respectivamente, o (j, i)-ésimo elemento e a j-ésima linha de P =
(X> X)−1 X> , i = 1, . . . , n e j = 1, . . . , p. Recomenda-se dar atenção àquelas
observações tais que DFBETASji > √2n (vide Montgomery et al., 2021,
Cap.6).

6.6 Análise Confirmatória


O procedimento mais tradicional de verificação das observações suspeitas de
serem discrepantes é através da deleção individual de cada observação sus-
peita, computando-se a variação percentual de cada coeficiente da regressão
e o respectivo valor-P. Para ilustrar alguns procedimentos, denote o conjunto
das m observações supeitas por S = {S1 , . . . , Sm }.

Variação Percentual
A variação percentual do j-ésimo coeficiente da regressão quando a i-ésima
observação não é considerada no ajuste é definido por

β̂(i)j − β̂j
∆ij = × 100%,
β̂j

para j = 1, . . . , p e i ∈ S. Deve-se associar a cada observação deletada o novo


valor-P de cada coeficiente. Variações percentuais desproporcionais (muito
acima de (1/n) × 100%) são esperadas, porém deve-se dar atenção quando
ocorrerem mudanças inferenciais.

20
Comparação com Observações não Destacadas
Um outro procedimento usual é comparar alguma medida resumo das ob-
servações suspeitas com a mesma medida resumo obtida de r amostras
aleatórias de tamanho m das observações não suspeitas. Por exemplo, pode-
se computar a medida

β̂(S)j − β̂j
MRCS = max .
1≤j≤p β̂j
Comparar MRCS com as r medidas, MRCN S 1 , . . . , MRCN S r , das r amostras
aleatórias de tamanho m extraı́das do grupo de observações não suspeitas.
Se MRCS for muito maior que max1≤j≤r MRCN S j é um indı́cio de que as
observações em S são discrepantes. Sugere-se utilizar que r ≥ 10.

Tratamentos de Observações Discrepantes


Os procedimentos descritos abaixo são usuais para acomodar observações
discrepantes.
• Aplicar transformações nas variáveis explicativas, por exemplo padro-
nização, raiz quadrada e logarı́tmica.
• Incluir termos não lineares em variáveis explicativas contı́nuas.
• Incluir (ou retirar) interações.
• Aplicar regressão linear ponderada.
• Aplicar métodos robustos.
• Mudar a distribuição dos erros. Por exemplo, erros com caudas mais
leves ou mais pesadas do que as caudas da distribuição normal padrão
ou erros assimétricos.

6.7 Gráfico da Variável Adicionada


Supor que uma variável explicativa é adicionada no modelo (2) obtendo-se
o seguinte modelo de regressão linear:
y = Xβ + wγ + 
em que X denota a matriz modelo n×p do modelo reduzido, w denota vetor
n × 1 dos valores observados da variável adicionada, y é o vetor n × 1 dos va-
lores observados da variável resposta, β = (β1 , . . . , βp )> e  ∼ Nn (0, σ 2 In ).

21
Definindo Z = (X, ω) como matriz do modelo ampliado, mostra-se facil-
mente que a estimativa de mı́nimos quadrados de θ = (β > , γ)> fica expressa
na forma θ̂ = (ZT Z)−1 ZT y. Após algumas manipulações algébricas a es-
timativa de mı́nimos quadrados do coeficiente da variável adicionada fica
dada por
ω > (In − H)y
γ̂ =
ω > (In − H)ω
ω>r
= .
ω > (In − H)ω
Ou seja, γ̂ pode ser expresso como sendo o coeficiente da regressão linear
passando pela origem do vetor de resı́duos r = (In − H)y sobre o novo
resı́duo υ = (In − H)ω, dado por
γ̂ = (υ > v)−1 υ > r
= {ω > (In − H)(In − H)ω}−1 ω > (In − H)(In − H)y
ω > (In − H)y
= .
ω T (In − H)ω
Portanto, o gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação linear e quais observações que estão se desviando da mesma. Esse
gráfico, conhecido como gráfico da variável adicionada (ver, por exemplo,
Atkinson, 1985) pode revelar quais observações que estão influenciando (e
de que maneira) a inclusão da nova variável explicativa no modelo.
A sugestão é que seja construı́do para cada variável explicativa contı́nua
incluı́da de forma linear no modelo um gráfico da variável adicionada.

6.8 Aplicação
Para ilustrar um exemplo de regressão linear simples considere parte dos
dados descritos em Neter et al. (1996, p.449) referentes à venda no ano
anterior de um tipo de telhado de madeira em n = 26 filiais de uma rede de
lojas de construção civil. Apenas duas variáveis serão consideradas:
(i) Telhados: total de telhados vendidos (em mil metros quadrados) e
(ii) Nclientes: número de clientes cadastrados na loja (em milhares).
O interesse é explicar o número médio de telhados vendidos dado o número
de clientes cadastrados. Na Tabela 2 são apresentadas algumas medidas
resumo referentes às duas variáveis observadas.

22
Tabela 2: Medidas resumo referentes ao exemplo sobre venda de telhados.

Medida Telhados Nclientes


Média 170,20 51,85
D.Padrão 84,55 14,21
CV(em %) 49,68 27,41

Mı́nimo 30,90 26,00


1o Quartil 102,00 49,50
Mediana 159,80 51,50
3o Quartil 217,50 61,50
Máximo 339,40 75,00

Na Figura 5 tem-se o boxplot robusto (Hubert e Vandervierin, 2008) e


a densidade estimada do total de telhados vendidos. Nota-se ausência de
observações aberrantes e uma ligeira assimetria à direita. O diagrama de
dispersão entre o total de telhados vendidos e o número de clientes cadas-
trados na loja (Figura 6) apresenta uma tendência aproximadamente linear
e positiva. À medida que aumenta o número de clientes aumenta o total de
telhados vendidos.
350

0.004
300
250

0.003
Telhados Vendidos

Densidade
200

0.002
150

0.001
100
50

0.000

−100 0 100 200 300 400


Telhados Vendidos

Figura 5: Boxplot robusto e densidade estimada do total de telhados vendi-


dos.

23
350
300
250
Telhados Vendidos
200
150
100
50

30 40 50 60 70
Clientes Cadastrados

Figura 6: Diagrama de dispersão (com tendência) entre o total de telhados


vendidos e o número de clientes cadastrados na loja.

Tabela 3: Estimativas dos parâmetros referentes ao modelo de regressão


linear simples ajustado aos dados sobre venda de telhados.

Efeito Estimativa E.Padrão valor-t valor-P


Constante -71,208 40,558 -1,76 0,092
Nclientes 4,656 0,756 6,16 0,000
s 53,69
R2 0,61
2
R 0,60

Portanto, sugere-se o seguinte modelo de regressão linear simples:

yi = β1 + β2 Nclientesi + i ,
iid
em que yi denota o total de telhados vendidos na i-ésima filial e i ∼ N(0, σ 2 ),
para i = 1, . . . , 26. Nota-se pela Tabela 3 que o coeficiente estimado do
número de clientes é altamente significativo e o intercepto é significativo ao
nı́vel de 10%. Assim, para um aumento de 1000 clientes em qualquer filial
espera-se aumento de 4656 mil m2 de telhados vendidos.

24
3
2

2
1
1
Resíduo Studentizado

Resíduo Studentizado
0
0

−1
−1

−2
−2

−3
50 100 150 200 250 −2 −1 0 1 2
Valor Ajustado Quantil da N(0,1)

Figura 7: Gráficos de resı́duos referentes ao modelo de regressão linear sim-


ples ajustado aos dados sobre venda de telhados.

Pela Figura 7, em que são apresentados o gráfico do resı́duo t∗i contra o


valor ajustado ybi e o gráfico normal de probabilidades para t∗i com banda
empı́rica de confiança (envelope) de 95%, não há indı́cios de variância não
constante nem de afastamentos da normalidade dos erros. Nota-se também
ausência de observações aberrantes. O gráfico da distância de Cook com
k = 2 (Figura 8) contra a ordem das observações destaca como possivelmente
influentes as observações #6 e #10. O ajuste sem cada uma das observações
traz variações nas estimativas dos coeficientes, como pode ser notado pela
Figura 9, porém não há mudanças inferencias. Finalmente, tem-se na Figura
10 as bandas de confiança de 95% para o número esperado de telhados
vendidos e para o número de telhados vendidos de uma filial qualquer, dado
o número de clientes cadastrados.

7 Variável Binária e Interação


Supor o seguinte modelo de regressão linear múltipla:

yi = β1 + β2 xi2 + β3 xi3 + i ,

25
6

0.15
10

0.10
Distância de Cook
0.05
0.00

0 5 10 15 20 25
Índice

Figura 8: Distância de Cook contra a ordem das observações referente ao


modelo de regressão linear simples ajustado aos dados sobre venda de telha-
dos.
350

350

10
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200

6
150

150
100

100
50

50

30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados

Figura 9: Retas ajustadas com todos os pontos ( ) e sem as observações


destacatadas pela distância de Cook ( ).

em que y1 , . . . , yn são valores observados da variável resposta, xi2 representa


os valores de uma variável aleatória binária tal que

1 grupo A
xi2 =
0 26grupo B,
300

400
250

300
200
Telhados Vendidos

Telhados Vendidos
200
150

100
100
50

0
0

−100
30 40 50 60 70 30 40 50 60 70
Clientes Cadastrados Clientes Cadastrados

Figura 10: Bandas de confiança de 95% para o número esperado de telhados


vendidos (esquerda) e para o número de telhados vendidos de uma filial
qualquer (direita), dado o número de clientes cadastrados.

iid
enquanto xi3 representa valores observados de uma variável contı́nua e i ∼
N(0, σ 2 ), para i = 1, . . . , n.
Portanto, tem-se dois submodelos de regressão

• (Grupo A) yi = β1 + β2 + β3 xi3 + i

• (Grupo B) yi = β1 + β3 xi3 + i

com valores esperados

• EA (Yi |xi3 ) = β1 + β2 + β3 xi3

• EB (Yi |xi3 ) = β1 + β3 xi3 ,

para i = 1, . . . , n. Assim, EA (Yi |xi3 ) − EB (Yi |xi3 ) = β2 , que indica ausência


de interação (paralelismo) entre as variáveis explicativas X2 e X3 (vide ilus-
tração na Figura 11).
Supor agora a inclusão de interação entre as variáveis explicativas X2 e
X3 , resultando no seguinte modelo de regressão linear múltipla:

yi = β1 + β2 xi2 + β3 xi3 + β4 xi2 xi3 + i ,


iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Tem-se os seguintes submodelos:

27
EA(Y|x3)

β2 EB(Y|x3)

Figura 11: Descrição gráfica de ausência de interação (paralelismo) entre as


variáveis explicativas X2 e X3 .

• (Grupo A) yi = β1 + β2 + β3 xi3 + β4 xi3 + i

• (Grupo B) yi = β1 + β3 xi3 + i

com valores esperados expressos por

• EA (Yi |xi3 ) = β1 + β2 + β3 xi3 + β4 xi3

• EB (Yi |xi3 ) = β1 + β3 xi3 ,

para i = 1, . . . , n. Assim, a diferença entre os valores esperados, EA (Yi |xi3 )−


EB (Yi |xi3 ) = β2 + β4 xi3 , não é mais constante dependendo dos valores da
variável explicativa X3 . Isso indica presença de interação (ausência de pa-
ralelismo) entre as variáveis explicativas X2 e X3 (vide Figura 12).
Supor agora variável explicativa categórica com três nı́veis

 1 grupo A
X= 2 grupo B
3 grupo C.

28
Um maneira de representar essa variável explicativa num modelo de re-
gressão é atribuindo a cada grupo uma variável binária da seguinte forma:

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + i ,

em que y1 , . . . , yn denotam os valores observados da variável resposta, xi1 , xi2


e xi3 são os valores observados das variáveis binárias representando os grupos
iid
e i ∼ N(0, σ 2 ), para j = 1, . . . , n.
Supondo que os grupos A, B e C têm n1 , n2 e n3 elementos, respec-
tivamente, o modelo pode ser expresso na forma matricial y = Xβ + ,
em que y = (y1> , y2> , y3> )> com yi = (yi1 , . . . , yini )> , para i = 1, 2, 3,
β = (β0 , β1 , β2 , β3 )> e matriz X de dimensão (n1 + n2 + n3 ) × 4 dada por
 
1 1 0 0
 .. .. .. .. 
 . . . . 
 
 1 1 0 0 
 
 1 0 1 0 
 
X =  ... ... ... ...  .
 
 
 1 0 1 0 
 
 1 0 0 1 
 
 .. .. .. .. 
 . . . . 
1 0 0 1

Note que a matriz X não tem posto coluna completo, a 1a coluna é a


soma das outras três colunas. Uma solução é reduzir o número de colunas
da matriz modelo impondo alguma restrição nos parâmetros.
Os seguintes procedimentos são mais utilizados:

• Restrição nos parâmetros: β1 + β2 + β3 = 0, que implica em β1 =


−β2 − β3 .

• Casela de referência: um dos coeficientes é fixado como sendo zero.


Por exemplo, fazendo β1 = 0 o grupo A será denominado casela de
referência.

Nesses dois casos β = (β0 , β2 , β3 )> e a matriz modelo terá dimensão n × 3


com posto coluna completo.
Como exemplo, o modelo com casela de referência no grupo A pode ser
expresso na forma
yi = β0 + β2 xi2 + β3 xi3 + i ,

29
em que y1 , . . . , yn denotam os valores observados da variável resposta, xi2 e
xi3 são valores de variáveis binárias representando os grupos B e C, respec-
iid
tivamente, e i ∼ N(0, σ 2 ), para i = 1, . . . , n. Quando xi2 = xi3 = 0 tem-se
o grupo A. A matriz modelo nesse caso fica dada por
 
1 0 0
 .. .. .. 
 . . . 
 
 1 0 0 
 
 1 1 0 
 
X =  ... ... ...  .
 
 
 1 1 0 
 
 1 0 1 
 
 .. .. .. 
 . . . 
1 0 1

EA(Y|x3)

EB(Y|x3)
β2 + β4x3

Figura 12: Descrição gráfica de presença de interação (ausência de parale-


lismo) entre as variáveis explicativas X2 e X3 .

30
EC(Y|x4)

EB(Y|x4)
(β3 − β2)
EA(Y|x4)

β2

Figura 13: Descrição gráfica de ausência de interação (paralelismo) entre a


variável categórica X e a variável contı́nua X4 .

Supor agora a inclusão de uma variável explicativa contı́nua na parte


sistemática do modelo

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + i ,

em que xi4 , para i = 1, . . . , n, representa os valores observados da variável


explicativa contı́nua. Portanto, tem-se três submodelos

• (Grupo A) yi = β0 + β4 xi4 + i

• (Grupo B) yi = β0 + β2 + β4 xi4 + i

• (Grupo C) yi = β0 + β3 + β4 xi4 + i

com diferenças de valores esperados

• EB (Yi |xi4 ) − EA (Yi |xi4 ) = β2

• EC (Yi |xi4 ) − EA (Yi |xi4 ) = β3 ,

31
EC(Y|x4)

EB(Y|x4)

(β3 − β2) + (β6 − β5)x4

β2 + β5x4
EA(Y|x4)

Figura 14: Descrição gráfica de interação entre a variável categórica X e a


variável contı́nua X4 .

para i = 1, . . . , n. Assim, os efeitos β2 e β3 são incrementos nos valores


esperados dos grupos B e C, respectivamente, com relação ao grupo A (vide
ilustração na Figura 13).
Em forma matricial o modelo com ausência de interação fica dado por
y = Xβ + , em que y = (y1> , y2> , y3> )> com yi = (yi1 , . . . , yini )> , para
i = 1, 2, 3, β = (β0 , β2 , β3 , β4 )> e a matriz modelo X terá adicionada a
coluna (x1 , . . . , xn1 , xn1 +1 , . . . , xn1 +n2 , xn1 +n2 +1 , . . . , xn )> .
O modelo com interação entre a variável categórica X e a variável contı́nua
X4 pode ser expresso na seguinte forma:

yi = β0 + β2 xi2 + β3 xi3 + β4 xi4 + β5 xi2 xi4 + β6 xi3 xi4 + i ,

em que y1 , . . . , yn denotam os valores observados da variável resposta, xi2 e


xi3 são valores de variáveis binárias representando os grupos B e C, respec-
tivamente, enquanto xi4 representa os valores observados de uma variável
iid
contı́nua e i ∼ N(0, σ 2 ), para i = 1, . . . , n.
Portanto, tem-se três submodelos
• (Grupo A) yi = β0 + β4 xi4 + i

32
• (Grupo B) yi = β0 + β2 + β4 xi4 + β5 xi4 + i

• (Grupo C) yi = β0 + β3 + β4 xi4 + β6 xi4 + i ,


com diferenças de valores esperados
• EB (Yi |xi4 ) − EA (Yi |xi4 ) = β2 + β5 xi4

• EC (Yi |xi4 ) − EA (Yi |xi4 ) = β3 + β6 xi4 ,


para i = 1, . . . , n. Assim, nota-se que as diferenças entre os valores esperados
dependem dos valores da variável explicativa X4 (vide Figura 14). A matriz
modelo X terá duas colunas adicionais com relação à matriz modelo sob
ausência de interação.
O conceito de interação pode ser estendido para quaisquer tipos de
variáveis explicativas e para mais do que duas variáveis explicativas. Con-
tudo, devido a dificuldades na interpretação, em geral considera-se apenas
interações de 1a ordem (entre duas variáveis eplicativas).

8 Comparação de Médias
Uma aplicação de modelos de regressão linear com variáveis binárias é na
comparação das médias de k grupos. O modelo pode ser expresso na forma

yij = α + βi + ij ,
iid
em que ij ∼ N(0, σ 2 ), para i = 1, . . . , k e j = 1, . . . , ni , com a restrição
β1 = 0. O Grupo 1 é denominado casela de referência. Assim, tem-se os
valores esperados
• E(Y1j ) = α para j = 1, . . . , n1

• E(Yij ) = α + βi , para i = 2, . . . , k e j = 1, . . . , ni ,
e daı́ segue que βi é o incremento no valor médio do i-ésimo grupo com
relação ao valor médio do grupo 1, para i = 2, . . . , k. Testar a igualdade de
médias equivale a testar H0 : β2 = · · · = βk contra H1 : βj 6= 0 para pelo
menos algum j = 2, . . . , k.
Em forma matricial o modelo fica dado por

y = Xβ + ,

em que y = (y1> , . . . , yk> )> com yi = (yi1 , . . . , yini )> , para i = 1, . . . , k,


β = (α, β2 , . . . , βk )> e matriz X de dimensão ( ki=1 ni ) × k dada abaixo.
P

33
 
1 0 ... 0
 .. .. .. .. 
 . . . . 
 
 1 0 ... 0 
 
 1 1 ... 0 
 
 .. .. .. .. 
 . . . . 
X=
 1
.
 1 ... 0  
 .. .. .. .. 
 . . . . 
 
 1 0 ... 1 
 
 .. .. .. .. 
 . . . . 
1 0 ... 1

A solução de mı́nimos quadrados leva às estimativas α b = ȳ1 e βbi = ȳi − ȳ1
para i = 1, . . . , k, com variâncias e covariâncias

σ2 σ2 σ2
 
2 1 1
Var(b
α) = , Var(βj ) = σ
b + , Cov(b α, βbj ) = − e Cov(βbj , βb` ) = ,
n1 nj n1 n1 n1
para j 6= ` = 2, . . . , k.
Tem-se a seguinte decomposição das somas de quadrados:
ni
k X
X
SQT = (yij − ȳ)2 ,
i=1 j=1

X ni
k X k
X
2
SQReg = yij − ȳ) =
(b ni (ȳi − ȳ)2 e
i=1 j=1 i=1

X ni
k X ni
k X
X
2
SQRes = (yij − ybij ) = (yij − ȳi )2 .
i=1 j=1 i=1 j=1

Daı́ segue que a estatı́stica F para testar a homogeneidade de médias H0 :


β2 = · · · = βk = 0 contra H1 : pelo menos duas médias diferentes fica
expressa na forma
Pk
(n − k + 1) ni (ȳi − ȳ)2 H0
F = Pk i=1 Pni ∼ F(k−1),(n−k+1) .
(k − 1) i=1 j=1 (yij − ȳi )
2

Rejeita-se H0 se F > F(1−α),(k−1),(n−k+1) , em que F(1−α),(k−1),(n−k+1) denota


o quantil (1−α) da distribuição F com (k−1) e (n−k+1) graus de liberdade
e n = n 1 + · · · + nk .

34
8.1 Comparações Múltiplas
Quando rejeita-se a hipótese nula deseja-se saber onde estão as diferenças
entre as médias dos
 k grupos. As propostas mais conhecidas consistem em
k
construir m = 2 estimativas intervalares para as diferenças de médias, de
modo que cada estimativa intervalar tenha coeficiente de confiança (1 − α∗ )
sendo o coeficiente de confiança global (1 − α).
Pelo método de Bonferroni (recomendado para m pequeno) cada esti-
mativa intervalar deve ter coeficiente de confiança (1 − α∗ ), sendo dadas
por s  
1 1
(ȳi − ȳj ) ± t(1−α∗ /2),(n−k) s2 + ,
ni nj
para i 6= j, em que α∗ = m α
, de modo que o coeficiente global de confiança
seja de pelo menos (1 − α).
O método de Tukey é o mais utilizado na prática por ter um nı́vel de
significância global mais próximo de (1 − α). As estimativas intervalares são
expressas na forma
s 
s2 1

1
(ȳi − ȳj ) ± q(k, n − k) + ,
2 ni nj

para i 6= j, em que q(k, n − k) é o quantil de uma distribuição denominada


amplitude Studentizada.

8.2 Aplicação
Como ilustração serão considerados os dados referentes ao tempo de desloca-
mento (em minutos) antes de decolar de 184 aeronaves de 8 Cias Aéreas no
aeroporto EWR (Newark) no perı́odo 1999-2001 (Venzani, 2004, Exemplo
11.7), descritas abaixo

• AA, American Airlines

• CO, Continental Airlines

• DL, Delta Airlines

• HP, American West Airlines

• NW, North West Airlines

• TW, Trans World Airlines

35
• UA, United Airlines

• US, US Airways.

Na Figura 15 tem-se os boxplots robustos dos tempos para a decola-


gem das Cias Aéreas. Nota-se tempos medianos distintos, porém em geral
variabilidades similares. As Cias Aéreas NW e US apresentam os menores
tempos medianos enquanto CO apresenta o maior tempo mediano. A fim de
comparar os tempos médios supondo variabilidades homogêneas considere
iid
o modelo yij = α + βi + ij , em que ij ∼ N(0, σ 2 ), para i = 1, . . . , 8 e
j = 1, . . . , 23, com a restrição β1 = 0. AA como casela de referência.
É bastante razoável esperar pelo TCL que α b e βbi estejam bem aproxi-
madas pela distribuição normal levando-se em conta o número de réplicas
para cada Cia Aérea. Assim, como não há indı́cios pela Figura 15 de afas-
tamentos importantes da suposição de variâncias contantes para os erros,
pode-se esperar uma boa aprocimação da distribuiçao nula da estatı́stica F
para testar a homogeneidade de médias.
40
35
Tempo para Decolagem
30
25
20

AA CO DL HP NW TW UA US
Cia Aérea

Figura 15: Boxplot do tempo de deslocamento segundo a Cia Aérea.

Pela Tabela 4 nota-se que o tempo de deslocamento médio de algumas


Cias Aéreas é significativamente diferente do tempo médio da Cia AA. Por

36
Tabela 4: Estimativas dos parâmetros referentes ao modelo de comparação
dos tempos médios de deslocamento das Cias Aéreas.

Efeito Estimativa valor-t valor-P


AA 27,056 37,56 0,000
CO 3,835 3,76 0,000
DL -2,052 -2,01 0,045
HP 1,526 1,50 0,136
NW -4,061 -3,99 0,000
TW -1,652 -1,62 0,107
UA -0,039 -0,04 0,969
US -3,830 -3.76 0,000
s 3,455
R2 0,355
2
R 0,329

exemplo, o tempo médio de NW é significativamente menor enquanto o


tempo médio de CO é significativamente maior. Porém, para algumas Cias
Aéreas não foi possı́vel detectar diferença significativa com AA. Isso é con-
firmado pelo teste F de homogeneidade de médias (vide Tabela 5), em que
a hipótese nula é fortemente rejeitada. Logo, há tempos médios de desloca-
mento diferentes e resta saber entre quais Cias Aéreas.

Tabela 5: Tabela ANOVA referente à comparação dos tempos médios de


deslocamento das Cias Aéreas.

F.Variação S.Q. G.L. Q.M. F valor-P


Cia Aérea 1155,0 7 165,01 13,82 0,000
Resı́duos 2100,9 176 11,94
Total 3255,9 183

Como há m = 82 = 28 pares de Cias Aéreas o método de Tukey é o




mais adequado para construir as estimativas intervalares para as diferenças


das médias. Na Figura 16 tem-se um resumo das 28 estimativas intervalares
com coeficiente global de confiança de 95%, construı́da através da biblioteca
UsingR do R. Nota-se que 15 dessas estimativas intervalares cobrem o valor
zero indicando que não foi possı́vel detectar diferença significativa entre os

37
deslocamentos médios das Cias Aéreas correspondentes. Por outro lado, há
13 estimativas intervalares que não cobrem o valor zero. Observando essas
estimativas intervalares nota-se que as Cias Aéreas NW e US são aqueleas
que mais diferem das demais no sentido de terem um tempo médio de des-
locamento menor do que as demais. Isso vai ao encontro dos resultados da
Tabela 4.

CO−AA
DL−AA
HP−AA
NW−AA
TW−AA
UA−AA
US−AA
DL−CO
HP−CO
NW−CO
TW−CO
UA−CO
US−CO
HP−DL
NW−DL
TW−DL
UA−DL
US−DL
NW−HP
TW−HP
UA−HP
US−HP
TW−NW
UA−NW
US−NW
UA−TW
US−TW
US−UA
−10

−5

Figura 16: Estimativas intervalares para as diferenças entre os deslocamen-


tos médios das Cias Aérea pelo método de Tukey com coeficiente global de
confiança de 95%.

9 Regressão Linear Ponderada


Quando há indı́cios fortes de afastamentos da suposição de variâncias cons-
tantes dos erros (homocedasticidade), uma maneira de correção é através da
regressão linear ponderada em que a variância de cada erro é flexibilizada.
A forma mais usual de regressão linear ponderada é a seguinte:

yi = β1 xi1 + β2 xi2 + · · · + βp xip + i , (5)

38
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip são
ind
valores observados de variáveis explicativas e i ∼ N(0, σi2 ), com σi2 = σ 2 ωi
e ωi > 0 (conhecido), para i = 1, . . . , n. A soma dos quadrados dos erros
(função objetivo) fica nesse caso expressa na forma
n
X
S(β) = ωi−1 (yi − x> 2
i β) ,
i=1

em que em que xi = (xi1 , . . . , xip )> e β = (β1 , . . . , βp )> . Matricialmente


tem-se que
S(β) = (y − Xβ)> V−1 (y − Xβ),
em que y = (y1 , . . . , yn )> , V = diag{ω1 , . . . , ωn } e X é a matriz modelo.
Derivando a função objetivo S(β) em relação a β obtém-se

∂S(β)
= X> V−1 (y − Xβ),
∂β
que igualando a zero leva à seguinte solução de de mı́nimos quadrados pon-
derados:
b = (X> V−1 X)−1 X> V−1 y.
β
Denotando βb = AY, em que A = (X> V−1 X)−1 X> V−1 , tem-se a seguinte
propriedade:

E(β)
b = E(AY|X) = AE(Y|X)
= (X> V−1 X)−1 X> V−1 Xβ
= β.
b é um estimador não tendencioso de β. Desde que Var(Y|X) = σ 2 V,
Logo, β
segue a propriedade
b = Var(AY|X) = AVar(Y|X)A>
Var(β)
= σ 2 (X> V−1 X)−1 X> V−1 VV−1 X(X> V−1 X)−1
= σ 2 (X> V−1 X)−1 ,
b ∼ Np (β, σ 2 (X> V−1 X)−1 ).
e portanto β
As somas de quadrados ponderadas ficam expressas nas formas
n
X n
X n
X
SQT = ωi−1 (yi −ȳ)2 , SQReg = ωi−1 (b
yi −ȳ)2 e SQRes = ωi−1 (yi −b
yi )2 .
i=1 i=1 i=1

39
Similarmente ao caso homocedástico é possı́vel mostrar que s2 = SQRes
(n−p) é
2
um estimador não tendencioso de σ . Continuam valendo a decomposição
2
das somas de quadrados e as interpretações do R2 e R .
É possı́vel mostrar que o acréscimo na soma de quadrados de resı́duos
no modelo linear ponderado (5), devido às restrições lineares Rβ = 0, pode
ser expresso na forma
b > {R(X> V−1 X)−1 R> }−1 Rβ,
ASQ(Rβ = 0) = (Rβ) b

b = (X> V−1 X)−1 X> V−1 y. Assim, se o interesse é testar H0 :


em que β
Rβ = 0 contra H1 : Rβ 6= 0, a estatı́stica F fica dada por

ASQ(Rβ = 0)/r H0
F= ∼ Fr,(n−p) .
SQRes/(n − p)

Rejeita-se H0 se F > F(1−α),r,(n−p) , em que F(1−α),r,(n−p) denota o quantil


(1 − α) da distribuição F com r e (n − p) graus de liberdade.

9.1 Forma Equivalente


Os resultados da regressão linear ponderada (5) podem ser obtidos de forma
equivalente através de uma regressão linear homocedástica aplicando as se-
guintes transformações:

• zi = yi / ωi ,

• uij = xij / ωi ,

para i = 1, . . . , n e j = 1, . . . , p. Então, considere o modelo

zi = β1 ui1 + β2 ui2 + · · · + βp uip + ei ,


iid
com ei ∼ N(0, σ 2 ), para i = 1, . . . , n. Esse modelo em forma matricial fica
dado por
z = Uβ + e,
1 1
em que z = V− 2 y, U = V− 2 X é a matriz modelo, β = (β1 , . . . , βp )> ,
1
enquanto e = V− 2 . Note que e ∼ Nn (0, σ 2 In ). Mostra-se facilmente que
b = (X> V−1 X)−1 X> V−1 y. Assim, todos os resultados descritos nas seções
β
anteriores podem ser estendidos facilmente para o modelo (5) através das
transformações acima.

40
9.2 Aplicação
Como ilustração considere parte dos dados de um experimento desenvolvi-
mento em 2006 nas Faculdades de Medicina e de Filosofia, Letras e Ciências
Humanas da USP e analisado no Centro de Estatı́stica Aplicada do IME-
USP (CEA0P16) para avaliar o fluxo da fala de falantes do Português Brasi-
leiro segundo o gênero, idade e escolaridade. Uma amostra de 595 indivı́duos
residentes na cidade de São Paulo com idade entre 2 e 99 anos foi avaliada
segundo a fala auto-expressiva. O indivı́duo era apresentado a uma figura e
orientado a discorrer sobre a mesma durante um tempo mı́nimo de 3 minu-
tos e máximo de 6 minutos. Para crianças de 2 e 3 anos, as amostras foram
obtidas com a colaboração dos pais. As variáveis consideradas no estudo fo-
ram as seguintes: (i) idade (em anos), (ii) gênero (1:feminino, 2:masculino),
(iii) interj (número de interjeições durante o discurso), (iv) fpm (fluxo de
palavras por minuto) e (v) fsm (fluxo de sı́labas por minuto).
200
150
Fluxo de Palavras
100
50

50 100 150 200 250 300 350


Fluxo de Sílabas

Figura 17: Diagrama de dispersão entre o fluxo de palavras por minuto e o


fluxo de sı́labas por minuto.

Como aplicação de regressão linear ponderada considere apenas duas


variáveis, fpm e fsm. Na Figura 17 tem-se o diagrama de dispersão entre
fpm e fsm e nota-se uma forte relação linear positiva e variabilidade não

41
constante da resposta fpm à medida que aumenta fsm. Isso sugere um mo-
delo linear simples entre fpm e fsm. Nas Tabelas 6 e 7 tem-se as estimativas
dos parâmetros do modelo
fpmi = β1 + β2 fsmi + i ,
iid ind
em que i ∼ N(0, σ 2 ) ou i ∼ N(0, ωi σ 2 ) com ωi = fsmi , respectivamente,
para i = 1, . . . , 594. Nota-se uma redução na estimativa do intercepto e
aumento do coeficiente de determinação sob o modelo linear ponderado.
Há também um controle melhor da variabilidade sob esse modelo (Figura
18) e melhora na qualidade do ajuste (Figura 19). As três observações que
aparecem destacadas como pontos aberrantes afetam muito pouco as esti-
mativas quando são excluı́das. Outros procedimentos para aprimoramento
do controle da variabilidade poderiam ser aplicados, como por exemplo a
modelagem dupla da média e variância.

Tabela 6: Estimativas dos parâmetros referentes ao modelo de regressão


linear simples ajustado aos dados sobre fluxo da fala de falantes do Português
Brasileiro.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 4,198 1,172 3,74 0,00
fsm 0,527 0,006 88,10 0,00
s 7,98
R2 0,93
2
R 0,93

10 Ortogonalidade
Supor novamente o modelo de regressão linear múltipla
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que y1 , . . . , yn são valores observados da variável resposta, xi1 , . . . , xip
iid
são valores observados de variáveis explicativas e i ∼ N(0, σ 2 ). Tem-se
ortogonalidade entre as colunas da matriz modelo X se
n
X
xij xi` = 0, ∀j 6= ` = 1, . . . , p,
i=1

42
Tabela 7: Estimativas dos parâmetros referentes ao modelo de regressão
linear simples ponderado ajustado aos dados sobre fluxo da fala de falantes
do Português Brasileiro.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 3,663 0,974 3,76 0,00
fsm 0,530 0,006 92,57 0,00
s 0,59
R2 0,99
2
R 0,99

8
6

6
4
Residuo Studentizado

Residuo Studentizado
4
2

2
0

0
−2

−2

50 100 150 200 5 6 7 8 9 10


Valor Ajustado Valor Ajustado

Figura 18: Gráficos entre o resı́duo Studentizado e o valor ajustado referentes


aos modelos homocedástico (esquerdo) e ponderado (direito) ajustados aos
dados spbre fluxo da fala de falantes do Português Brasileiro.

ou seja, a matriz X> X é bloco diagonal.


Quando a matriz modelo X tem posto coluna completo tem-se sob orto-

43
8
6

6
4

4
Residuo Studentizado

Residuo Studentizado
2

2
0

0
−2
−2

−4
−4

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)

Figura 19: Gráficos normais de probabilidade com banda empı́rica de 95%


referentes aos modelos homocedástico (esquerdo) e ponderado (direito) ajus-
tados aos dados spbre fluxo da fala de falantes do Português Brasileiro.

gonalidade que
n
X n
X Xn n
X
> >
X X = diag{ x2i1 , . . . , x2ip } e X y=( xi1 yi , . . . , xip yi )> ,
i=1 i=1 i=1 i=1

em que y = (y1 , . . . , yn )> , e consequentemente


 Pn 
xi1 yi
  Pi=1
β1
b n 2
i=1 xi1
..
 
 .. 
β =  .  = (X> X)−1 X> y =  .
 
b
Pn
.
xip yi
 
βbp Pi=1
n 2
i=1 xip

Pn
xij yi
Logo, βbj = Pi=1
n 2 depende apenas dos valores y1 , . . . , yn e de x1j , . . . , xnj ,
i=1 xij
para j = 1, . . . , p. Ou seja, dos valores da variável resposta e da variável
explicativa Xj .

44
Além disso, a matriz de variância-covariância para β
b fica dada por
2
Pnσ 2
 
··· 0
i=1 xi1
b = σ 2 (X> X)−1 = 
 .
.. .
.. .. 
Var(β)  . .

σ 2
0 · · · P n x2
i=1 ip

2
Portanto, Var(βbj ) = Pnσ e Cov(βbj , βb` ) = 0, para j 6= ` e j, ` = 1, . . . , p.
i=1 x2ij
Tem-se independência mútua entre os estimadores dos coeficientes.

11 Multicolinearidade
Multicolinearidade é o oposto da ortogonalidade. Ocorre quando há uma
alta correlação linear entre variáveis explicativas e consequentemente en-
tre os estimadores dos coeficientes da regressão linear múltipla. Uma con-
sequência prática é que det(X> X) ∼ = 0. Agumas fontes de multicolineari-
dade são as seguintes:

• Método empregado na coleta de dados


Os dados são coletados de um estrato da população onde há uma
alta correlação linear entre duas variáveis explicativas. Por exemplo,
num estudo de regressão em que tem-se como variáveis explicativas o
consumo de um produto alimentı́cio e o preço do produto alimentı́cio.
É razoável esperar nos estratos de renda mais baixa uma correlação
mais alta entre as duas variáveis explicativas.

• Restrições no modelo ou na população


Duas variáveis explicativas que têm uma correlação linear alta são
incluı́das no modelo. Por exemplo, consumo de energia elétrica e renda
percapita. Notas referentes às avaliações sobre qualidade e clareza das
aulas de um instrutor.

• Especificação do modelo
No modelo são incluı́dos vários termos que estão em função de uma
mesma variável explicativa. Por exemplo, numa regressão polinomial
em que são incluı́dos termos x + x2 + x3 + · · · .

• Modelo superdimensionado
Estudos com amostras pequenas e uma grande quantidade de variáveis
explicativas. Por exemplo, na área médica em geral tem-se amostras
pequenas com uma grande quantidade de informações por paciente.

45
11.1 Efeitos da Multicoliearidade
Para ilustrar considere o seguinte modelo de regressão linear múltipla:

yi = β1 xi1 + β2 xi2 + i ,

em que y1 , . . . , yn são valores observados da variável resposta com compri-


mento unitário, xi1 e xi2 são valores
Pn observados Pde variáveis explicativas com
comprimento unitário, em que i=1 xij = 0 e ni=1 x2ij = 1 para j = 1, 2, e
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n.
Para esse exemplo tem-se que
 Pn Pn
x2
  
X> X = Pn i=1 i1 i=1 xi1 xi2 =
1 r12
,
P n 2
i=1 xi2 xi1 i=1 xi2 r12 1

em que r12 denota a correlação linear amostral entre X1 e X2 . Além disso


 Pn   
> i=1 xi1 yi r1y
X y= P n = ,
i=1 xi2 yi r2y

em que r1y e r2y denotam, respectivamente, as correlações lineares amostrais


entre X1 e Y e X2 e Y . Portanto, as estimativas de mı́nimos quadrados ficam
dadas por
" # " r1y −r12 r2y #
β 2
= (X X) X y = r2y(1−r 12 )
b1 > −1 >
β
b= −r12 r1y ,
β2
b
(1−r2 ) 12

e dependem das correlações lineares r12 , r1y e r2y . Além disso, a matriz de
variância-covariância para β
b assume a forma
 
σ2 σ 2 r12
2 − 2
b = σ 2 (X> X)−1 =  (1−r2 12 )
Var(β) (1−r12 ) 
.
σ r12 σ2
− (1−r 2 ) (1−r2 )
12 12

σ2 σ 2 r12
Ou seja, Var(βb1 ) = Var(βb2 ) = 2 )
(1−r12
e Cov(βb1 , βb2 ) = − (1−r 2 ) . E tem-se as
12
seguintes consequências:

• Se |r12 | → 1 então Var(βb1 ) e Var(βb2 ) ficam grandes.

• Se r12 → 1 então Cov(βb1 , βb2 ) → −∞.

• Se r12 → −1 então Cov(βb1 , βb2 ) → ∞.

46
11.2 Procedimentos para Detectar Multicolinearidade
Fator de Inflação da Variância
É possı́vel mostrar que

Var(βbj ) = σ 2 Cjj = σ 2 (1 − R2j )−1 ,

em que Cj` denota o (j, `)-ésimo elemento da matriz C = (X> X)−1 e R2j
denota o coeficiente de determinação da regressão linear da variável expli-
cativa Xj contra as demais variáveis explicativas X` , em que j 6= `, para
j, ` = 1, . . . , p. O fator de inflação de variância da j-ésima variável explica-
tiva é definido por
VIFj = (1 − R2j )−1 .
Assim, se R2j → 1 então VIFj → ∞, para j = 1, . . . , p. Para ilustrar,
supor três variáveis explicativas X1 , X2 e X3 cujos valores amostrais têm
comprimento unitário. Os VIFs saem das seguintes regressões:

• VIF1 : da regressão xi1 = β2 xi2 + β3 xi3 + i

• VIF2 : da regressão xi2 = β1 xi1 + β3 xi3 + i

• VIF3 : da regressão xi3 = β1 xi1 + β2 xi2 + i , para i = 1, . . . , n.

Critério: VIFj ≥ 10 indica que βbj está com variância inflacionada.

Número da Condição
Sejam λ1 , . . . , λp os autovalores da matrix X> X. Como é uma matriz
simétrica positiva definida todos os seus autovalores são não negativos. Con-
tudo, a existência de autovalores próximos de zero é indı́cio de multicoline-
aridade. Uma medida resumo de multicolinearidade entre as colunas da
matriz X é o número da condição definido por
λmax
k= .
λmin
Portanto, se esta razão é muito grande há indı́cios de multicolinearidade
com a matriz X> X.
Critério: (i) se k ≤ 100 não há indı́cios de multicolinearidade, (ii) se
100 < k ≤ 1000 há indı́cios moderados de multicolinearidade e (iii) se k >
1000 há indı́cios fortes de multicolinearidade.

47
Índice da Condição
Quando há indı́cios de multicolinearidade através do número da condição,
pode-se avaliar a contribuição de cada variável explicativa através do ı́ndice
da condição definido por
λmax
kj = ,
λj
para j = 1, . . . , p. Os mesmos critérios usados para o número da condição
são usados para o ı́ndice da condição.

Determinante da Matrix X> X


Se as variáveis explicativas têm comprimento unitário, mostra-se que

0 ≤ det(X> X) ≤ 1.

Logo, det(X> X) = 1 indica ortogonalidade entre as colunas da matriz X,


enquanto det(X> X) = 0 indica dependência linear entre as colunas da ma-
trix X. Valores próximos de zero são indı́cios de multicolinearidade.

11.3 Tratamentos da Multicolineridade


Alguns tratamentos para a multicolinearidade

• Coletar mais dados.

• Eliminação de variáveis explicativas.

• Transformação de variáveis explicativas.

• Regressão ridge.

• Regressão através de componentes principais.

Regressão ridge
O objetivo da regressão ridge é utilizar um estimador tendencioso que pro-
duza variâncias mais estáveis para os estimadores dos coeficientes da re-
gressão. Assim, seja βb ∗ um estimador tendencioso de β. Mostra-se que o
erro quadrático médio de βb ∗ pode ser expresso na forma

b ∗ ) = Var(β
EQM(β b ∗ ) + [Viés][Viés]> ,

48
em que Viés = E(β b ∗ )−β. A fim de estabilizar as estimativas dos coeficientes
da regressão linear múltipla bem com as respectivas variâncias é proposto o
seguinte estimador:
b = (X> X + kIp )−1 X> y,
β R

em que k > 0 é uma constante desconhecida que é estimada separadamente.


Em particular quando k = 0 recupera-se o estimador de mı́nimos quadrados.
Estima-se k até estabilizar as estimativas dos coeficientes. Na Figura 20 tem-
se um exemplo ilustrativo em que quatro coeficientes estão sendo ajustados
e nota-se uma estabilidade das estimativas a partir de k = 0, 10.
1.5

^
βR1
1.0
Coeficientes
0.5

^
βR2
0.0

^
βR3
^
βR4

0.00 0.05 0.10 0.15 0.20


k

Figura 20: Ilustração dos coeficientes estimados através da regressão ridge


variando-se o valor de k.

Denotando β b = Zk β,b em que Zk = (X> X + kIp )−1 (X> X), tem-se as


R
seguintes propriedades:

• E(β
b ) = E(Zk β)
R
b = Zk E(β)
b = Zk β.

• Var(β
b ) = Var(Zk β) b > = σ 2 Zk (X> X)−1 Z> .
b = Zk Var(β)Z
R k k

Em particular, se X> X = Ip tem-se que Zk = (1 + k)−1 Ip . Logo, E(β


b )=
R
−1
(1 + k) β e Var(β 2 −2
b ) = σ (1 + k) Ip . Ou seja, à medida que k cresce o
R

49
estimador ridge fica mais tendencioso havendo um encolhimento com relação
ao estimador de mı́nimos quadrados. A variância diminui com o aumento
de k.
Tem-se ainda que β b ∼ Np (E(β b ), Var(β b )). Daı́ segue que βbR são
R R R j

normais de média E(βbRj ) e variância Var(βbRj ), para j = 1, . . . , p. É possı́vel


mostrar que
b )> (y − Xβ
SQRes(k) = (y − Xβ b )
R R
= SQRes + (β b (X> X)(β
b − β) > b − β),
b
R R

em que SQRes denota a soma de quadrados de resı́duos da regressão de


mı́nimos quadrados. Portanto, na regressão ridge há um aumento na soma
de quadrados de resı́duos, logo uma redução no valor de R2 .
A constante k pode ser estimada através do processo iterativo

σ2
pb
k (m+1) = ,
b > (k (m) )β
β b (k (m) )
R R

b2 é obtido através do estimador de mı́nimos


para m = 0, 1, . . ., em que σ
quadrados β.b Para valor inicial utiliza-se o estimador de HKB (Montgomery
et al., 2021, Cap.9) dado por k (0) = pb b > β.
σ 2 /β b

Regressão dos Componentes Principais


A forma canônica da regressão linear múltipla y = Xβ +  é definida por

y = Zα + ,

em que  ∼ Nn (0, σ 2 In ), Z = XT, α = T> β e Z> Z = T> X> XT = Λ, com


Λ = diag{λ1 , . . . , λp } sendo a matriz diagonal p × p com os autovalores da
matriz X> X e T a matriz p × p cujas colunas são os autovetores ortonor-
mais (ortogonais com comprimento unitário) correspondentes aos autovalo-
res λ1 , . . . , λp . Como T é uma matriz ortonormal tem-se que T> = T−1 , e
daı́ segue que β = Tα. Sugere-se que y e a matriz X sejam centralizadas,
assim não precisa de intercepto.
Portanto, a estimativa de mı́nimos quadrados de α fica dada por

b = (Z> Z)−1 Z> y


α
= Λ−1 Z> y,

50
com matriz de variância-covariância expressa na forma
b = σ 2 (Z> Z)−1
Var(α)
= σ 2 Λ−1 .
Daı́ segue que Var(b αj ) = σ 2 λ−1
j . Assim, λj próximo de zero inflaciona a
variância de α
bj . Similarmente, segue que a matriz de variância-covariância
de β
b pode ser expressa na forma

Var(β)
b = Var(Tα)
b
b >
= TVar(α)T
= σ 2 TΛ−1 T> .
E daı́ pode-se mostrar que Var(βbj ) = σ 2 p`=1 t2j` /λ` , em que tj` denota
P
o (j, `)-ésimo elemento da matriz T. Esse resultado confirma o efeito de
autovalores próximos de zero na inflação da variância de βbj .
A partir da relação β
b = Tα,b a proposta da regressão dos componentes
principais é considerar os coeficientes estimados
b CP = Tα
β b CP ,
em que α b CP é um vetor p × 1 que contém os coeficientes estimados cor-
respondentes aos p − s maiores autovalores da matriz X> X e os demais
s coeficientes como sendo iguais a zero. Assim, os novos coeficientes esti-
mados βb1CP , . . . , βbpCP irão depender apenas das variáveis explicativas com
menor potencial de estarem causando multicolinearidade. Esses coeficients
estimados são interpretados de forma similar aos coeficientes estimados por
mı́nimos quadrados. Pp
Da relação Z = XT segue que Zj = `=1 X` t`j , em que Z1 , . . . , Zp
e X1 , . . . , Xp denotam, respectivamente, as colunas de Z e X, enquanto
t1j , . . . , tpj denotam os componentes do autovetor correspondente ao auto-
valor λj . Assim, se λj for próximo de zero os componentes de Zj devem ser
aproximadamente constantes. Deve-se portanto escolher os p − s componen-
tes principais Z1 , . . . , Z(p−s) que correspondem aos p−s maiores autovalores.

11.4 Aplicação
Como ilustração para o tópico de multicolinearidade será analisado um con-
junto de dados proposto em Montgomery et al. (2021, Tabela B.21) em que
o calor (em calorias por grama) de n = 13 amostras de cimento é relacionado
com as seguintes variáveis explicativas referentes a ingredientes usados na
mistura do cimento:

51
• X1 : aluminato tricálcico

• X2 : silicato tricálcico

• X3 : aluminato-ferrita tetracálcico

• X4 : silicato dicálcico.

Tabela 8: Matriz de correlações lineares amostrais de Pearson entre as


variáveis do exemplo sobre o calor do cimento em amostras de cimento.

Calor X1 X2 X3 X4
Calor 1,00 0,73 0,82 -0,54 -0,82
X1 1,00 0,23 -0,82 -0,25
X2 1,00 -0,14 -0,97
X3 1,00 0,03
X4 1,00

Nota-se pela Tabela 8 correlações lineares altas entre a resposta calor do


cimento e as variáveis explicativas X2 e X4 , enquanto entre as variáveis expli-
cativas nota-se correlação liner muito alta entre X2 e X4 , indicando possı́vel
multicolineridade nos dados. Nota-se pelo boxplot robusto da Figura 21 que
a distribuição da variável resposta é aproximadamente simétrica, enquanto
os diagramas de dispersão da Figura 22 confirmam as correlações lineares
descritas na Tabela 8.
Com base nos diagramas de dispersão o seguinte modelo é proposto:

cyi = β1 cxi1 + β2 cxi2 + β3 cxi3 + β4 cxi4 + i ,

em que cyi denota o calor da i-ésima amostra de cimento centralizada (sub-


traı́do da média amostral), bem como os valores das variáveis explicativas
iid
e i ∼ N(0, σ 2 ), para i = 1, . . . , 13. Dessa forma, não é necessário incluir o
intercepto.
Pela Tabela 9 apenas a variável X1 é marginalmente significativa. Os
gráficos de resı́duos são apresentados na Figura 23, não havendo indı́cios de
afastamentos da normalidade, de presença de observações aberrantes e de
variância não constante dos erros. Como a amostra é pequena a suposição
de normalidade dos erros é crucial para fazer inferência. A observação #8
aparece como possivelmente influente no gráfico da distância de Cook com

52
110
100
Calor do Cimento
90
80

Figura 21: Boxplot robusto da variável resposta calor do cimento.

k = 2 (Figura 24). Quando essa observação não é considerada na regressão


o valor-P correspondente à estimativa do coeficiente da variável X1 reduz
para 0,02, porém os demais coeficientes continuam não significativos e todos
com sinal positivo.

Tabela 9: Estimativas dos parâmetros referentes ao modelo de regressão


linear ajustado aos dados sobre o calor do cimento em amostras de cimento.

Efeito Estimativa E.Padrão valor-t valor-P


cx1 1,551 0,702 2,21 0,06
cx2 0,510 0,602 0,75 0,47
cx3 0,102 0,716 0,14 0,89
cx4 -0,144 0,669 -0,22 0,83
s 2,31
R2 0,98
2
R 0,97

Na Tabela 10 tem-se os VIFs corresponentes às 4 variáveis explicativos,


confirmando os indı́cios de multicolinearidade. As estimativas da regressão
ridge com k = 0, 076 (vide comportamento dos coeficientes etimados na
Figura 20) apresenta estimativas mais coerentes com a análise descritiva,
porém apenas a variável explicativa X1 é marginalmente significativa. Os

53
110

110
100

100
Calor do Cimento

Calor do Cimento
90

90
80

80
5 10 15 20 30 40 50 60 70
Aluminato Tricálcico Silicato Tricálcico
110

110
100

100
Calor do Cimento

Calor do Cimento
90

90
80

80

5 10 15 20 10 20 30 40 50 60
Aluminato−ferrita Tetracálcico Silicato Dicálcico

Figura 22: Diagramas de dispersão (com tendência) entre a variável resposta


calor do cimento e as demais variáveis explicativas.

autovalores da matriz X> X são respectivamente dados por λ1 = 6213, 56,


λ2 = 809, 96, λ3 = 148, 86 e λ4 = 2, 84 com autovalores ortonormais dados
abaixo.
Considerando apenas o primeiro componente principal, que explica 86,60%,
tem-se a seguinte relação:

z1 = −0, 067800cx1 − 0, 678516cx2 + 0, 029021cx3 + 0, 730874cx4 .

Com base nos diagramas de dispersão da Figura 22, o componente z1 au-


menta à medida que os valores das variáveis explicativas diminuem. O mo-

54
Tabela 10: Fator de inflação da variância das variáveis explicativas do mo-
delo de regressão linear ajustado aos dados sobre o calor do cimento em
amostras de cimento.

Variável VIF
cx1 38,49
cx2 254,42
cx3 46,87
cx4 282,51

Tabela 11: Estimativas dos parâmetros referentes ao modelo de regressão


ridge ajustado aos dados sobre o calor do cimento em amostras de cimento.

Efeito Estimativa Erro padrão valor-z


cx1 1,3460 0,6844 1,967
cx2 0,3236 0,6651 0,486
cx3 -0,1018 0,6934 -0,147
cx4 -0,3263 0,6514 -0,501
3
2

2
1

1
Resíduo Studentizado
Residuo Studentizado

0
0

−1
−1

−2
−2

−3

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5


−20 −10 0 10 20
Quantil da N(0,1)
Valor Ajustado

Figura 23: Gráficos de resı́duos referentes ao ajuste do modelo de regressão


linear aos dados sobre o calor do cimento em amostras de cimento.

55
T1 T2 T3 T4
-0,067800 0,646018 -0,567315 0,506180
-0,678516 0,019993 0,543969 0.493268
0,029021 -0,755310 -0,403554 0,515567
0,730874 0,108480 0,468398 0,484416

0.35

8
0.30
0.25
Distância de Cook
0.20
0.15
0.10
0.05
0.00

2 4 6 8 10 12
Índice

Figura 24: Gráfico da distância de Cook contra a ordem das observações


referente ao ajuste do modelo de regressão linear aos dados sobre o calor do
cimento em amostras de cimento.

delo na forma canônica fica dado por


cyi = zi1 α + i ,
iid
em que cyi denota o calor da i-ésima amostra de cimento centralizado e i ∼
N(0, σ 2 ), para i = 1, . . . , 13. Desse ajuste obtém-se α
b = −0, 5537(0, 1043),
que é altamente significativo. Assim, espera-se aumento do calor do cimento
à medida que aumenta z1 .

12 Seleção de Modelos
A seleção de modelos consiste em uma etapa importante e também complexa
na análise de regressão, principalmente quando há um grande número de

56
variáveis explicativas candidatas a entrarem no modelo. O fato das variáveis
explicativas em geral estarem correlacionadas dificulta a seleção de um sub-
conjunto de coeficientes que além de serem significativos sejam de fácil in-
terpretação. Sabe-se que a omissão de coeficientes significativos pode levar
a estimativas tendenciosas para os demais coeficientes da regressão. Assim,
a seleção de modelos pode ser considerado um procedimentos que envolve
técnica e bom senso. Nesta seção serão apresentados alguns procedimentos
tradicionais de seleção de modelos em regressão linear múltipla.

12.1 Todas Regressões Possı́veis


Supor um total de (p − 1) variáveis explicativas a serem selecionadas num
modelo de regressão e seja T o total de regressões possı́veis. Tem-se que
     
p−1 p−1 p−1
T =1+ + + ··· + = 2(p−1) .
1 2 p−1

Por exemplo, se p = 4 (3 variáveis explicativas), haverá um total de T =


1 + 3 + 3 + 1 = 8 regressões possı́veis.

Maior R2k
Seja R2k o coeficiente de determinação de um submodelo com k coeficientes
((k − 1) variáveis explicativas + intercepto), definido por

SQReg(k)
R2k =
SQT
SQRes(k)
= 1− .
SQT

Esse critério procura um submodelo com R2k alto e k pequeno (vide Figura
2
25). Alternativamente, denote por Rk o coeficiente de determinação ajus-
tado do submodelo com k coeficientes. Tem-se que

2 (n − 1)
Rk = 1 − (1 − R2k ) .
(n − k)
2
Pode-se adotar como critério a escolha de um submodelo com Rk alto e k
2
pequeno. Contudo, Rk não necessariamente cresce com k.

57
Coeficiente de Determinação

Figura 25: Comportamento do coeficiente de determinação R2k com o número


k de coeficientes.

Menor s2k
Seja s2k o erro quadrático médio de um submodelo com k, sendo denotado
por
SQRes(k)
s2k = .
n−k
Esse critério procura um submodelo com s2k pequeno e k pequeno. Conforme
descrito pela Figura 26 nem sempre o erro quadrático médio decresce com
o aumento do número de coeficientes.
Mostra-se que

2 (n − 1)
Rk = 1 − (1 − R2k )
(n − k)
 
(n − 1) SQReg(k)
= 1− 1−
(n − k) SQT
(n − 1) SQRes(k)
= 1−
(n − k) SQT
(n − 1) 2
= 1− s .
SQT k

58
Erro Quadrático Médio

Figura 26: Comportamento do erro quadrático médio s2k com o número k


de coeficientes.

2
Assim, minimizar s2k é equivalente a maximizar Rk .

Critério de Mallows
Um outro método, conhecido como critério de Mallows, está relacionado com
o erro quadrático médio do i-ésimo valor ajustado Ybi do submodelo com k
coeficientes

E{Ybi − E(Yi )}2 = Var(Ybi ) + {E(Ybi ) − E(Yi )}2 .

A soma dos vieses ao quadrado do submodelo com k coeficientes fica dada


por
n
X
2
{Viés(k)} = {E(Ybi ) − E(Yi )}2 ,
i=1
em que E(Yi ) denota o valor esperado do modelo correto. Uma forma pa-
dronizada para o erro quadrático médio do submodelo com k coeficientes é
expressa na forma
" n n
#
1 X 2
X
EQM(k) = 2 {E(Ybi ) − E(Yi )} + Var(Ybi ) .
σ
i=1 i=1

59
Pn b = kσ 2 obtém-se
Usando o resultado i=1 Var(Yi )

{Viés(k)}2
EQM(k) = + k.
σ2
Por outro lado

E{SQRes(k)} = {Viés(k)}2 + (n − k)σ 2 .

Portanto, o erro quadrático médio padronizado assume a forma

E{SQRes(k)}
EQM(k) = − n + 2k.
σ2
Deve-se escolher submodelos com EQM(k) pequeno.
A estatı́stica Ck de Mallows é definida por

SQRes(k)
Ck = − n + 2k,
b2
σ
b2 deve ser obtido de um modelo bem ajustado. Sob viés zero tem-se
em que σ
que
(n − k)σ 2
E(Ck |Viés = 0) = − n + 2k = k.
σ2
Portanto, deve-se escolher submodelos com Ck pequenos tais que Ck ∼ = k.
Para um mesmo k, submodelos com Ck < k têm uma SQRes menor, en-
quanto submodelos com Ck > k têm uma SQRes maior.
Na Figura 27 são ilustrados 3 submodelos hipóteticos, A, B e C. O sub-
modelo A é o pior submodelo, tem Ck alto e viés alto. O submodelo B tem
um Ck menor e viés pequeno. Já o submodelo C tem um viés um pouco
maior do que o submodelo B, porém um Ck bem menor, assim poderia ser
o submodelo escolhido.

Critério Press
Finalmente, tem-se o critério Press que consiste em escolher o submodelo
com o menor valor para a estatı́stica
n
X
Pressk = {yi − yb(i) }2 ,
i=1

em que yb(i) denota o valor predito para yi do ajuste do submodelo com k


coeficientes sem a i-ésima observação. Desde que yb(i) = x>
i β (i) , usando a
b

60
A

Ck = k

B
Estatística de Mallows

Figura 27: Descrição da reta Ck = k e da estatı́stica de Mallows para três


submodelos hipotéticos A, B e C.

expressão para βb descrita na Seção 6.5 obtém-se


(i)
 
> b ri > −1
yi − yb(i) = yi − xi β − (X X) xi
(1 − hii )
ri
= (yi − x>i β) +
b x> (X> X)−1 xi
(1 − hii ) i
ri hii
= ri +
(1 − hii )
ri
= .
(1 − hii )
Logo, segue que
n  2
X ri
Pressk = ,
1 − hii
i=1
em que ri e hii denotam, respectivamente, o i-ésimo resı́duo ordinário e
i-ésima medida de alavanca do submodelo com k coeficientes. Como a es-
tatı́stica Pressk cresce com o tamanho amostral n, uma proposta alternativa
é considerar a estatı́stica Pressk = Pressk /n.

61
Assim, a fim de selecionar um submodelo usando os critérios: R2k maior,
s2K menor, Ck ∼ = k e pequeno e menor Pressk , deve-se ajustar todas as
T = 2(p−1) regressões possı́veis e selecionar um submodelo seguindo os 4
critérios descritos.

12.2 Métodos Sequenciais


Critérios de Akaike e de Schwartz
Seja L(θ) o logaritmo da função de verossimilhança de um modelo de re-
gressão com p coeficientes a serem estimados. O método de Akaike consiste
em escolher um submodelo que maximize L(θ) minimizando o número de
coeficientes. Isso é equivalente a minimizar a função penalizada abaixo

AICk = −2L(θ)
b + 2k,

em que 1 ≤ k ≤ p denota o número de coeficientes do submodelo.


  No caso
SQRes
de regressão linear múltipla mostra-se que AICk = n log n + 2k (vide
Exercı́cio 10). Similarmente ao método de Akaike o método de Schwartz
consiste em maximizar L(θ) também minimizando o número de coeficientes
da regressão, porém com uma penalização diferente. O método é equivalente
a minimizar a função abaixo

BICk = −2L(θ)
b + k log(n).
 
SQRes
Para a regressão linear múltipla tem-se que BICk = n log n +k log(n).

Método LASSO
O método LASSO é utilizado para a seleção de variáveis explicativas (na
forma padronizada) eliminando coeficientes da regressão cujas estimativas
estejam próximas de zero. No contexto de mı́nimos quadrados o método é
equivalente a minimizar a função abaixo
n
X p
X
S(β, λ) = (yi − x> 2
i β) + λ |βj |,
i=1 j=2

em que β = (β1 , . . . , βp )> , xi = (xi1 , . . . , xip )> e λ ≥ 0 é o parâmetro


de penalização. Quando λ = 0 tem-se o método de mı́nimos quadrados e
quando λ → ∞ todos os coeficientes tendem a zero.

62
Critério Forward
Passo 1
Ajustar todas as regressões possı́veis com apenas 1 variável explicativa. Isto
é, ajustar as regressões
yi = β1 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 2, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj ) H0
Fj = ∼ F1,(n−2) .
s2 (xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P2 , . . . , Pp }. Se Pmin ≤ PE


então a variável explicativa correspondente entra no modelo. Supor que X2
entra no modelo.

Passo 2
Ajustar todas as regressões possı́veis com apenas X2 mais uma variável
explicativa. Isto é, ajustar as regressões

yi = β1 + β2 xi2 + βj xij + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 3, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj |x2 ) H0
Fj = ∼ F1,(n−3) .
s2 (x2 , xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P3 , . . . , Pp }. Se Pmin ≤ PE


então a variável explicativa correspondente entra no modelo. Supor que X3
entra no modelo.

Passo 3
Ajustar todas as regressões possı́veis com apenas X2 e X3 mais uma variável
explicativa. Isto é, ajustar as regressões

yi = β1 + β2 xi2 + β3 xi3 + βj xij + i ,

63
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n e j = 4, . . . , p. Testar H0 : βj = 0
6 0 e obter a estatı́stica
contra H1 : βj =

SQReg(xj |x2 , x3 ) H0
Fj = ∼ F1,(n−4) .
s2 (x2 , x3 , xj )

Denote Pj o valor-P do teste. Seja Pmin = min{P4 , . . . , Pp }. Se Pmin ≤ PE


então a variável explicativa correspondente entra no modelo. Se Pmin > PE
parar o processo, nenhuma variável entra no modelo.

Critério Backward
Passo 1
Ajustar a regressão com todas as variáveis explicativas. Isto é, ajustar o
seguinte modelo:

yi = β1 + β2 xi2 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p) .
s2 (x2 , . . . , xp )

Denote Pj o valor-P do teste, para j = 2, . . . , p. Seja Pmax = max{P2 , . . . , Pp }.


Se Pmax ≥ PS então a variável explicativa correspondente sai do modelo. Su-
por que X2 sai do modelo.

Passo 2
Ajustar a regressão sem a variável explicativa X2 . Isto é, ajustar o seguinte
modelo:
yi = β1 + β3 xi3 + · · · + βp xip + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Testar H0 : βj = 0 contra H1 : βj 6=
0 e obter a estatı́stica
SQReg(xj |demais) H0
Fj = ∼ F1,(n−p−1) .
s2 (x3 , . . . , xp )

Denote Pj o valor-P do teste, para j = 3, . . . , p. Seja Pmax = max{P3 , . . . , Pp }.


Se Pmax < PS o processo é terminado, nenhuma variável sai do modelo.

64
Critério Stepwise
O critério stepwise é uma combinação dos critérios forward e backward.

Passo 1
Ajustar todas as regressões com apenas uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X2 entrou no modelo.

Passo 2
Ajustar todas as regressões com X2 mais uma variável explicativa, além do
intercepto. Verificar se alguma variável explicativa entra no modelo. Supor
que X3 entrou no modelo. Verificar se X2 sai do modelo dado que X3 está
no modelo.

Passo 3
O processo stepwise deve continuar até que não seja possı́vel incluir nenhuma
variável no modelo, nem retirar nenhuma variável do modelo.

Critérios de Parada
Não há um consenso na área de regressão a respeito de critérios de parada
para os processos sequenciais. Alguns critérios mais utilizados:

(i) usar FE = FS = 4 que equivale aproximadamente a usar PE = PS =


0, 05;

(ii) ser mais flexı́vel na entrada do que na saı́da PE = 0, 25 e PS = 0, 10,


ou com os mesmos critérios na entrada e na saı́da PE = PS = 0, 15.

12.3 Estratégias para a Seleção de Modelos


Portanto, não há uma receita pronta para a seleção de modelos a partir de
um conjunto de variáveis explicativas. Em Montgomery et al. (2021, Seção
10.3) há uma longa discussão a respeito de possı́veis estratégias para seleção
de modelos através dos critérios propostos nesta seção.
Segundo os autores, quando o número de variáveis explicativas é relativa-
mente pequeno pode ser factı́vel ajustar todas as regressões possı́ves e sele-
cionar algumas candidatas segundo os critérios R2k maior, s2K menor, Ck ∼ =k
e pequeno e menor Pressk . Para as regressões selecionadas sugere-se fazer

65
uma análise de diagnóstico e levar em conta aspectos como a importância,
custo e facilidade de interpretação das variáveis explicativas, bem como da
capacidade de predição do modelo.
Os métodos sequenciais forward, backward e stepwise são recomendados
quando há um número médio ou alto de variáveis explicativas, contudo exi-
gem os nı́veis de significância de entrada e saı́da das variáveis explicativas.
Já os métodos de Akaike e de Schwartz são mais recomendados quando há
um grande número de variáveis explicativas no sentido de se fazer uma pré-
seleção de variáveis sem a necessidade de estabelecer nı́veis de significância.
Todos os métodos sequencias podem ser combinados com o ajuste de todas
as regressões possı́veis.
A seleção de modelos pode ficar mais complexa quando há interesse em
selecionar variáveis explicativas que estejam relacionadas no sentido causa-
efeito com a resposta, como ocorre por exemplo na área médica. Nesses
casos, os algoritmos em geral são combinações de procedimentos sequenciais
com procedimentos que procuram evitar a eliminação precoce de variáveis
explicativas potenciais no sentido causa-efeito. Em Dunkler et al. (2014)
há uma proposta de algoritmo hı́brido que combina o procedimento de eli-
minação backward com procedimentos que levam em conta o efeito da eli-
minação de variáveis explicativas nos coeficientes das variáveuis mantidas
no modelo.

13 Aplicações
13.1 Venda de Telhados
Considere novamente os dados descritos em Neter et al. (1996, p.449) re-
ferentes à venda no ano anterior de um tipo de telhado de madeira em
n = 26 filiais de uma rede de lojas de construção civil, agora com as seguin-
tes variáveis:

(i) Telhados: total de telhados vendidos (em mil metros quadrados),

(ii) Nclientes: número de clientes cadastrados na loja (em milhares),

(iii) Gastos: gastos pela loja com promoções do produto (em mil USD),

(iv) Marcas: número de marcas concorrentes do produto e

(v) Potencial: potencial da loja (quanto maior o valor maior o potencial).

66
O interesse é explicar o número médio de telhados vendidos dadas as de-
mais variáveis. Na Tabela 12 tem-se as estimativas da correlação linear de
Pearson entre as variáveis do exemplo vendas de telhados. Nota-se uma
baixa correlação entre telhados e gastos, altas correlações entre telhados
com número de clientes e marcas e uma correlação moderada com potencial
da loja. Entre as variáveis explicativas nota-se correlações baixas, exceto
uma correlação moderada entre número de clientes e potencial da loja. As
correlações descritas na Tabela 12 estão coerentes com os diagramas de dis-
persão apresentados nas Figuras 28 e 29.

Tabela 12: Matriz de correlações lineares amostrais de Pearson entre as


variáveis do exemplo vendas de telhados.

Telhados Gastos Nclientes Marcas Potencial


Telhados 1,0 0,159 0,783 -0,833 0.407
Gastos 1,0 0,173 -0,038 -0,070
Nclientes 1,0 -0,324 0,468
Marcas 1,0 -0,202
Potencial 1,0
350

350
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200
150

150
100

100
50

50

30 40 50 60 70 3 4 5 6 7 8 9
Clientes Cadastrados Gastos

Figura 28: Diagramas de dispersão (com tendência) entre o total de telhados


vendidos e o número de clientes cadastrados (esquerda) e gastos pela loja
com promoções (direita).

67
350

350
300

300
250

250
Telhados Vendidos

Telhados Vendidos
200

200
150

150
100

100
50

50
4 6 8 10 12 5 10 15
Marcas Concorrentes Potencial da Loja

Figura 29: Diagramas de dispersão (com tendência) entre o total de telhados


vendidos e o número de marcas concorrentes do produto (esquerda) e o
potencial da loja (direita).

O primeiro critério a ser aplicado para selecionar um submodelo linear


normal é com todas as regressões possı́veis, cujos resultados das medidas
resumo são apresentados na Tabela 13. Dois submodelos se destacam se-
gundo os 4 critérios utilizados: 1 + Nclientes + Marcas e 1 + Gastos +
Ncientes + Marcas. Levando-se em conta o número de variáveis explicativas
o submodelo 1 + Nclientes + Marcas poderia ser escolhido, contudo deve-se
fazer antes uma análise de diagnóstico com cada submodelo.
Os dois submodelos selecionados 1 + Nclientes + Marcas e 1 + Gas-
tos + Ncientes + Marcas apresentaram excelentes ajustes, conforme pode
ser observado pelas Tabelas 14 e 15 e pelos gráficos de resı́duos descritos
nas Figuras 30 e 31. Porém, a variável explicativa gastos aparece marginal-
mente não significativa no 2o submodelo. Ambos os submodelos destacam
os mesmos pontos potencialmente influentes pela distância de Cook com
k = 2 (Figura 32). A eliminação da observação #21 deixa a variável expli-
cativa gastos significativa ao nı́vel de 5% no 2o submodelo. Portanto, essa
observação está mascarando o efeito de gastos. Assim, deve-se escolher o
submodelo 1 + Gastos + Nclientes + Marcas.
O segundo critério a ser aplicado é o método sequencial stepwise com
PE = PS = 0, 15. Na Tabela 16 tem-se um resumo dos 6 passos necessários
para selecionar um submodelo. No 1o passo entra a variável marcas e no 2o
passo entra a variável número de clientes. No 3o passo a variável marcas

68
Tabela 13: Medidas resumo dos 16 submodelos para explicar o número médio
de telhados vendidos, em que T:Telhados, G:Gastos, N:Nclientes, M:Marcas,
P:Potencial e k denota o número de parâmetros.

Submodelo1 k−1 k R2k sk Ck Pressk


1 0 1 0,00 84,6 1960,2 7434,5
1+G 1 2 0,025 85,2 1912,1 7829,8
1+N 1 2 0,613 53,7 746,2 3115,0
1+M 1 2 0,694 47,8 585,4 2428,8
1+P 1 2 0,166 78.8 1633,1 6522,2
1+G+N 2 3 0,613 54,8 747,0 3508,8
1+G+M 2 3 0,710 47,5 555,4 2543,8
1+G+P 2 3 0,201 78,8 1564,9 6770,1
1+N+M 2 3 0,988 9,8 4,5 113,6
1+N+P 2 3 0,615 54,7 744,0 3330,4
1+M+P 2 3 0,753 43,8 469,3 2166,2
1+G+N+M 3 4 0,989 9,5 4,0 115,4
1+G+N+P 3 4 0,616 55,9 743,9 3726,5
1+G+P+M 3 4 0,775 42,6 428,4 2222,4
1+N+P+M 3 4 0,988 10,0 6,4 120,8
1+G+N+P+M 4 5 0,989 9,6 5,5 119,5

Tabela 14: Estimativas referentes ao submodelo 1 + N + M.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 186,694 12,259 15,23 0,00
Nclientes 3,408 0,146 23,37 0,00
Marcas -21,193 0,803 -26,40 0,00
s 9,803
R2 0,988
2
R 0,987

não sai do modelo. Já no 4o passo entra no modelo a variável gastos e no


5o passo nenhuma variável sai do modelo e finalmente no 6o passo a última
variável potencial não entra no modelo. Assim, o submodelo selecionado pelo

69
Tabela 15: Estimativas referentes ao submodelo 1 + G + N + M.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 179,844 12,621 14,25 0,00
Gastos 1,677 1,052 1,59 0,12
Nclientes 3,369 0,143 23,52 0,00
Marcas -21,217 0,773 -27,30 0,00
s 9,491
R2 0,989
2
R 0,987

Tabela 16: Resumo dos passos do procedimento stepwise com PE = PS =


0, 15 e valores-P em cada passo para selecionar as variáveis explicativas do
exemplo venda de telhados.

Passo Gastos Nclientes Marcas Potencial


Passo 1 0,4382 0,0000 0,0000 0,0389
Passo 2 0,2693 0,0000 - 0,0274
Passo 3 - - 0,0000 -
Passo 4 0,1252 - - 0,6968
Passo 5 - 0,0000 0,0000 -
Passo 6 - - - 0,4854

procedimento stepwise coincide com o submodelo selecionado pelo critério


com todas as regrossões possı́veis.
Finalmente, aplicando o critério de Akaike obtém-se como menor valor
AIC = 120, 67, que corresponde ao mesmo submodelo obtido com os dois
procedimentos anteriores. Portanto, o submodelo selecionado contém as
variáveis explicativas gastos, número de clientes e marcas, além da cons-
tante, cujas estimativas são apresentadas na Tabela 15. Interpretando as
estimativas tem-se que a cada aumento de USD 1000 nos gastos da loja com
promoções e de 100 clientes cadastrados, espera-se aumento de 1677 mil m2
e 337 mil m2 de telhados vendidos, respectivamente. Por outro lado, um
aumento de 10 marcas concorrentes leva a uma redução média de 212 mil
m2 de telhados vendidos.

70
3
3
2

2
1

1
Resíduo Studentizado

Resíduo Studentizado
0

0
−1

−1
−2

−2
−3
−4

−3
−2 −1 0 1 2 −2 −1 0 1 2
Percentil da N(0,1) Percentil da N(0,1)

Figura 30: Gráficos normais de probabilidades referentes aos submodelos 1


+ N + M (esquerda) e 1 + G + N + M (direita).
3
3

2
2

1
Resíduo Studentizado

Resíduo Studentizado
1

0
0

−1
−1

−2
−2

−3
−3

50 100 150 200 250 300 350 50 100 150 200 250 300 350
Valor Ajustado Valor Ajustado

Figura 31: Gráficos do resı́duo Studentizado contra o valor ajustado refe-


rentes aos submodelo 1 + N + M (esquerda) e 1 + G + N + M (direita).

71
0.35
8 8
0.25

0.30
21
21

0.25
0.20
Distância de Cook

Distância de Cook
0.20
0.15

0.15
0.10

0.10
0.05

0.05
0.00

0.00
0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice

Figura 32: Gráficos da distância de Cook referentes aos submodelos 1 + N


+ M (esquerda) e 1 + G + N + M (direita).

13.2 Salário de Executivos


Considere os dados de uma pesquisa realizada por uma revista de negócios
sobre o salário anual de executivos (em mil USD) descrita em Foster et
al. (1998, pp. 180-188), em que uma amostra aleatória de 220 executivos
(145 homens e 75 mulheres) foi coletada. Além do salário anual foram
consideradas as seguintes variáveis explicativas:

(i) Gênero (1: masculino; 0: feminino),

(ii) Posição: posição na empresa (varia de 1 a 9), quanto maior o valor


mais alta a posição e

(iii) Experiência: anos de experiência no cargo ou tempo no cargo.

O objetivo principal do estudo é explicar o salário médio anual segundo as


três variáveis explicativas. As Figuras 33 e 34 descrevem, respectivamente,
os bloxplots robustos do salário anual segundo o gênero e as respectivas
densidades empı́ricas. Nota-se uma ligeira superioridade dos salários anuais
dos executivos. Isso é confirmado pela Tabela 17 onde são descritas as
médias salariais com os respectivos erros padrão e o test-t para comparação
de médias. A hipótese de igualdade de médias entre os dois grupos é rejeitada

72
170
160
150
Salario

140
130
120
110

Feminino Masculino

Figura 33: Boxplot robusto do salário anual segundo o gênero. 0.030


0.030

0.025
0.025

0.020
0.020
Densidade

Densidade

0.015
0.015

0.010
0.010

0.005
0.005
0.000

0.000

100 120 140 160 180 120 140 160 180

Salário Anual (em mil USD) Salário Anual (em mil USD)

Figura 34: Densidade do salário anual dos executivos (esquerda) e das exe-
cutivas (direita).

ao nı́vel de significância de 5%. Há, portanto, indı́cios que os executivos em


média ganham mais do que as executivas.
Com relação à posição na empresa e experiência no cargo, nota-se pela
Figura 35 que os executivos ecupam em geral posições mais altas e têm
mais experiência do que as executivas. Os diagramas de dispersão entre

73
Tabela 17: Descrição dos salários médios anuais com os respectivos erros
padrão e do teste-t de igualdede de médias.

Gênero Amostra Média E.Padrão


Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferença Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padrão 1,77

25
8

20
6

Experiencia

15
Posicao

10
5
2

Feminino Masculino Feminino Masculino

Figura 35: Boxplots robustos da posição e da experiência segundo o gênero.

o salário anual e a posição para ambos os gêneros (Figura 36) descrevem


tendências crescentes, enquanto os diagramas de dispersão entre salário e
experiência indicam também tendências crescentes (Figura 37), porém com
menor intensidade.
Essas análises descritivas sugerem, em princı́pio, o seguinte modelo li-
near:
yi = β1 + β2 gêneroi + β3 experiênciai + β4 posiçãoi + i , (6)
iid
em que yi denota o salário do i-ésimo executivo da amostra com i ∼
N(0, σ 2 ), para i = 1, . . . , 220.

74
Feminino Masculino

170
170

160
160

150
150
Salário

Salário
140
140

130
130

120
120

2 4 6 8 110 2 3 4 5 6 7 8 9
Posição Posição

Figura 36: Diagrama de dispersão (com tendência) entre salário e posição


segundo o gênero.

Feminino Masculino
170
170

160
160

150
150
Salário

Salário
140
140

130
130

120
120

110

5 10 15 20 5 10 15 20 25
Experiência Experiência

Figura 37: Diagrama de dispersão (com tendência) entre salário e ex-


periência segundo o gênero.

75
As estimativas referentes ao modelo (6) estão descritas na Tabela 18 e
pode-se notar que todos os efeitos são marginalmente significativos. Em par-
ticular, nota-se que à medida que aumenta a posição na empresa espera-se
maior salário, fixados os demais efeitos. A experiência, segundo o modelo
ajustado, à medida que aumenta tende a reduzir o salário médio e as execu-
tivas, quando comparadas com os executivos nos mesmos nı́veis de posição e
experiência, têm um salário esperado maior. Esses resultados parecem con-
tradizer parte da análise descritiva, contudo são interpretações diferentes.
A análise descritiva faz comparações marginais, enquanto a análise de re-
gressão leva em conta todas as variáveis conjuntamente. Segundo as análises
de resı́duos (omitidas aqui) o modelo está bem ajustado, porém Foster et
al.(1998) sugerem a inclusão de interações para agregar mais interpretações.

Tabela 18: Estimativas dos parâmetros referentes ao modelo de regressão


linear múltipla (6) ajustado aos dados sobre salário de executivos.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 115,262 1,491 82,25 0,00
Experiência -0,472 0,113 -4,17 0,00
GêneroM -2,201 1,080 -2,04 0,04
Posição 6,710 0,313 21,46 0,00
s 6,77
R2 0,71
2
R 0,71

Tabela 19: Teste F para a inclusão de interação no modelo (6).

Interação valor-F valor-P


gênero*experiência 1,615 0,20
gênero*posicão 0,001 0,97
experiência*posição 7,594 0,00

A Tabela 19 apresenta os valores da estatı́stica F com os respectivos


valores-P para a inclusão de cada interação no modelo (6). Nota-se que ape-
nas a interação entre experiência e posição será incluı́da no modelo. Assim,
o seguinte modelo será considerado:

76
yi = β1 + β2 gêneroi + β3 experiênciai + β4 posiçãoi +
+γexperiênciai ∗ posiçãoi + i , (7)
iid
em que yi denota o salário do i-ésimo executivo da amostra com i ∼
N(0, σ 2 ), para i = 1, . . . , 220. Na Tabela 20 são apresentadas as estima-
tivas do ajuste do modelo (7) aos dados sobre salário de executivos. Nota-se
confirmação da inclusão da interação entre experiência e posição, contudo o
efeito principal de experiência ficou não significativo. Não houve variações
importantes nos coeficientes de determinação, indicando que a qualidade
do ajuste permanece a mesma. Confirma-se pela estimativa do coeficiente
de gênero que as executivas ganham em média mais do que os executivos,
fixando-se os nı́veis de posição e experiência.

Tabela 20: Estimativas dos parâmetros referentes ao modelo de regressão


linear múltipla (7) ajustado aos dados sobre salário de executivos.

Efeito Estimativa E.Padrão valor-t valor-P


Constante 108,042 2,961 36,48 0,00
Experiência 0,336 0,314 1,07 0,28
GêneroM -2,811 1,087 -2,59 0,01
Posição 8,096 0,590 13,73 0,00
Exper*Posição -0,135 0,049 -2,76 0,00
s 6,67
R2 0,72
2
R 0,72

Pela Figura 38 não há indı́cios de afastamentos da normalidade e da


constância de variância dos erros, bem como ausência de observações aber-
rantes. Contudo, pelo gráfico da distância de Cook com k = 4 (Figura 39)
três observações são destacadas como possivelmente influentes. Apenas as
observações #4 e #30 causam variações desproporcionais, respectivamente,
de -14% e 11% na estimativa do coeficiente de gênero, embora não ocorram
mudanças inferencias. A observação #4 é de uma executiva com salário
anual de USD 139 mil (média USD 140,5 mil), posição 7 (média 4,3) e 13,9
anos de experiência (média 7,3 anos), enquanto a observação #30 é de um
executivo com salário anual de USD 110 mil (média USD 144,1 mil), posição
2 (média 5,3) e 2,4 anos de experiência (média 12,2 anos).

77
4
2

2
Resíduo Studentizado
Resíduo Studentizado

0
−2

−2
−3 −2 −1 0 1 2 3
120 130 140 150 160
Percentil da N(0,1) Valor Ajustado

Figura 38: Análise de resı́duos referente ao modelo (7) ajustado aos dados
sobre salário de executivos.

30
0.05

4
0.04

144
Distância de Cook
0.03
0.02
0.01
0.00

0 50 100 150 200


Índice

Figura 39: Distância de Cook contra a ordem das observações referente ao


modelo (6) ajustado aos dados sobre salário de executivos.

O modelo ajustado fica então dado por


yb(x) = 108, 042 + 0, 336experiência − 2, 811gênero +
+8, 096posição − 0, 135posição ∗ experiência,

78
180
160

9
Salário Predito

8
7
6
140

5
4
3
2
1
120

0 5 10 15 20 25
Esperiência no Cargo

Figura 40: Salário médio estimado das executivas segundo a experiência e a


posição.
180
160

9
Salário Predito

8
7
140

6
5
4
3
2
120

0 5 10 15 20 25
Esperiência no Cargo

Figura 41: Salário médio estimado dos executivos segundo a experiência e a


posição.

em que x = (1, experiência, gênero, posição)> .


Finalmente, nas Figuras 40 e 41 tem-se os salários preditos para exe-

79
cutivas e executivos, conforme variam a experiência e a posição. Nota-se
que o salário predito para as executivas é sempre maior do que o salário
predito para os executivos, fixados os nı́veis de experiência e posição. Para
ambos os grupos o salário tende a crescer com o aumento do tempo no cargo
nas posições iniciais 1 e 2. Contudo, nas demais posições o salário tende a
decrescer com o aumento do tempo no cargo. Fixando-se a experiência o
salário aumenta à medida que aumenta a posição. Todavia, a diferença sa-
larial entre duas posições quaisquer tende a diminuir à medida que aumenta
a experiência. Portanto, uma conclusão que pode-se extrair da interação
entre posição e experiência é que não vale a pena do ponto de vista salarial
ficar muito tempo no mesmo cargo.

14 Regressão por Partes


Quando a relação entre a variável resposta e alguma variável explicativa
contı́nua é não linear, pode-se pensar em ajustar um polinômio a fim de ob-
ter um ajuste adequado, ou aplicar algum tipo de transformação na variável
explicativa de modo que a relação entre as duas variáveis fique aproximada-
mente linear. Nesse segundo caso, muda-se a escala da variável explicativa
dificultando a interpretação do coeficiente correspondente da regressão, con-
tudo implicando num modelo mais simples. No caso polinomial, à medida
que o grau do polinômio aumenta tem-se um modelo mais complexo com
possibilidade de multicolinearidade. Uma forma de amenizar a complexidade
desses polinômios, sem comprometer a aplicação do método de mı́nimos qua-
drados, é através da regressão por partes. Nesse procedimento, o domı́nio
da variável explicativa é dividido em partes através de nós (pontos de mu-
dança) escolhidos pelo analista, sendo ajustada uma regressão polinomial
de grau cúbico em cada uma das partes que são segmentadas formando um
único ajuste. Esse procedimento é intermediário entre a regressão tradicio-
nal paramétrica e a regressão não paramétrica ou aditiva, em que métodos
mais sofisticados são utilizados.
Como motivação, considere os dados do experimento em que a queda de
tensão da bateria (em voltagem) de um motor de mı́ssil guiado é observada
ao longo do tempo (em segundos), em 41 instantes (Montgomery et al., 2012,
Seção 7.2.2). Esses dados são descritos na Figura 42, e nota-se um compor-
tamente não linear, aumento da tensão da voltagem até aproximadamente
12 segundos seguido de uma queda até aproximadamente 20 segundos.
Pode-se propor para ajustar os dados o seguinte modelo:

yi = f (xi ) + i ,

80
14
12
Voltagem

10
8

0 5 10 15 20

Tempo

Figura 42: Diagrama de dispersão entre a queda da tensão da bateria (em


voltagem) e o tempo (em segundos).

em que yi denota a tensão da voltagem no i-ésimo instante, i ’s são erros


aleatórios, i = 1, . . . , 41, e f (x) uma função suave do tempo. Como men-
cionado anteriormente, pode-se dividir o domı́nio da variável explicativa X
em partes separadas por nós, sendo em cada parte ajustada uma curva de
regressão. Depois junta-se as curvas.
Para um único ponto de mudança t, define-se o seguinte tipo de função:

(x − t)r se x > t

r
(x − t)+ =
0 se x ≤ t,

para r = 0, 1, 2, . . .. Como ilustração de um exemplo com um único ponto de


mudança t, supor o ajuste de duas retas com inclinações diferentes através
do modelo
y = f (x) + ,
em que f (x) = β0 +β1 x+γ(x−t)+ . Logo, para x ≤ t tem-se f1 (x) = β0 +β1 x
e para x > t tem-se f2 (x) = (β0 − γt) + (β1 + γ)x. Note que quando x = t
tem-se f1 (x) = f2 (x), portanto há continuidade das duas retas. Assim, um

81
modelo de regressão linear seria dado por

yi = β0 + β1 xi + γ(xi − t)+ + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 , a matriz modelo fica dada por
 
1 x1 0
 .. .. .. 
 . . . 
 
 1 xs 0 
X=  .
 1 x s+1 (x s+1 − t) 

 .. .. .. 
 . . . 
1 xn (xn − t)

Uma proposta mais flexı́vel, para um único ponto de mudança t, é con-


siderar a seguinte função cúbica:

f (x) = β0 + β1 x + β2 x2 + β3 x3 + γ0 (x − t)0+ + γ1 (x − t)1+ +


+γ2 (x − t)2+ + γ3 (x − t)3+ .

Contudo, é necessário impor condições de continuidade para f (x), f 0 (x) e


f 00 (x) em x = t, que implica nas restrições γ0 = 0, γ1 = 0 e γ2 = 0. Assim,
tem-se uma função cúbica mais simples

f (x) = β0 + β1 x + β2 x2 + β3 x3 + γ3 (x − t)3+ .

O modelo correspondente de regressão linear fica dado por

yi = β0 + β1 xi + β2 x2i + β3 x3i + γ3 (xi − t)3+ + i ,

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo x1 < x2 < · · · < xn e que
xs ≤ t < xs+1 a matriz modelo fica dada por

x21 x23
 
1 x1 0
 .. .. .. .. .. 
 . . . . . 
2 3
 
 1 x s x s x s 0 
X=  1 xs+1 x2 3
.
 s+1 x s+1 (xs+1 − t)3 

 .. .. .. .. .. 
 . . . . . 
1 xn x2n x3n (xn − t)3

82
Generalizando, para h pontos de mudança t1 < t2 < · · · < th a função
cúbica fica dado por
h
X
2 3
f (x) = β0 + β1 x + β2 x + β3 x + γ` (x − t` )3+ .
`=1

Assim, uma regressão linear parcial aditiva em que k variáveis explicativas


contı́nuas são ajustadas através de funções por partes pode ser expressa na
forma
yi = x >
i β + f1 (u1 ) + · · · + fk (uk ) + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Nesse tipo de modelo há dois com-
ponentes, o primeiro referente a variáveis explicativas discretas ou contı́nuas
cujos coeficientes são intepretáveis e o segundo formado por um conjunto de
funções aditivas cujos coeficientes não são diretamente interpretáveis, con-
tudo procuram captar da melhor maneira os efeitos não lineares de variáveis
explicativas contı́nuas. Em muitas situações práticas U1 , . . . , Uk são variáveis
de controle, tais como tempo e temperatura, havendo interesse principal na
interpretação dos coeficientes do componente linear.
Voltando ao experimento sobre a queda de tensão da bateria de um
motor de mı́ssil, considere os pontos de mudança t1 = 6, 5 e t2 = 13 (vide
Figura 43) propostos por Montgomery et al. (2012, Seção 7.2.2).
Tem-se portanto a seguinte regressão linear por partes:
yi = β0 + β1 xi + β2 x2i + β3 x3i + γ1 (xi − 6, 5)3+ + γ2 (xi − 13)3+ + i , (8)
para i = 1, . . . , 41 e cuja matriz modelo fica dada por

x21 x31
 
1 x1 0 0
 .. .. .. .. .. .. 
 . . . . . . 
x2r x3r
 
 1 xr 0 0 
 
 1
 xr+1 x2r+1 x3r+1 (xr+1 − t1 )3 0 

X =  ... .. .. .. .. ..
,
 
 . . . . . 
 1
 xs x2s x3s (xs − t1 )3 0 

 1
 xs+1 x2s+1 x3s+1 (xs+1 − t1 )3 3
(xs+1 − t2 )  
 .. .. .. .. .. .. 
 . . . . . . 
1 xn x2n x3n (xn − t1 )3 (xn − t2 )3

em que r = 14 e s = 27. Supondo erros independentes e homocedásticos


as estimativas de mı́nimos quadrados são apresentadas na Tabela 21. Nota-
de que todos os coeficientes são altamente significativos com coeficiente de

83
14
12
Voltagem

10
8

0 5 10 15 20

Tempo

Figura 43: Diagrama de dispersão entre a queda da tensão da bateria (em


voltagem) e o tempo (em segundos) com os pontos e mudança.

determinação bastante alto. Os gráficos de resı́duos da Figuras 44 indicam


para um ajuste adequado. Mesmo o gráfico do resı́duo Studentizado contra
o tempo (omitido nas análises) não indica erros correlacionados. Na Figura
45 tem-se a curva ajustada aos dados.

15 Métodos Robustos
Quando aparecem observações suspeitas de serem atı́picas (alavanca, aber-
rante ou influente) num ajuste de regressão, deve-se através de algum pro-
cedimento de análise confirmatória verificar se de fato essas observações são
mesmo atı́picas. O procedimento mais utilizado é avaliar o impacto dessas
observações nos coeficientes estimados da regressão através, por exemplo, de
comparações com observações não destacadas como atı́picas. Se for confir-
mado que as observações suspeitas de serem atı́picas apresentam variações
desproporcionais nos coeficientes estimados da regressão ou causam mu-
danças inferencias, deve-se inicialmente tentar amenizar ou mesmo eliminar
esses impactos sem mudar o procedimento de estimação. Contudo, quando

84
3
3
2

2
Resíduo Studentizado

Resíduo Studentizado
1

1
0

0
−1

−1
−2
−3

−2
−2 −1 0 1 2 8 10 12 14
Quantil da N(0,1) Valor Ajustado

Figura 44: Análise de resı́duos referente ao ajuste da regressão por partes


(8) aos dados sobre a queda de tensão da bateria de um motor de mı́ssil.

Tabela 21: Estimativas dos parâmetros referentes ao modelo de regressão


por partes (8) ajustado aos dados sobre a queda de tensão da bateria de um
motor de mı́ssil.

Parâmetro Estimativa E.Padrão valor-t valor-P


β0 8,4657 0,2005 42,22 0,00
β1 -1,4531 0,1816 -8,00 0,00
β2 0,4899 0,0430 11,39 0,00
β3 -0,0294 0,0028 -10,35 0,00
γ1 0,0247 0,0040 6,12 0,00
γ2 0,0271 0,0036 7,58 0,00
s 0,268
R2 0,990
2
R 0,989

essas medidas tornam-se inócuas a aplicação de métodos de estimação ro-


busta (ou resistente) pode ser uma opção a ser considerada. Neste tópico

85
16
14
12
Voltagem

10
8
6

0 5 10 15 20

Tempo

Figura 45: Curva ajustada pela regressão por partes (8) aos dados sobre a
queda de tensão da bateria de um motor de mı́ssil.

será apresentado apenas um tipo de estimador robusto, conhecido como


estimador-M na classe de regressão linear múltipla. Este tipo de estimador
é resistente a observações aberrantes e eventualmnte pode também funcionar
para outros tipos de observações atı́picas.

15.1 Estimadores-M
Considere o modelo de regressão linear
yi = β1 xi1 + β2 xi2 + · · · + βp xip + i ,
em que i , para i = 1, . . . , n, são variáveis aleatórias independentes de média
zero e variância σ 2 . Note que está sendo relaxada a suposição de erros
normais. Os estimadores-M são obtidos através da minimização de funções
do tipo
Xn
Sρ (β) = ρ(i ), (9)
i=1
em que i = yi − x>
i β,
para i = 1, . . . , n e ρ() é uma função diferenciável
em β. Dependendo da escolha da função ρ() e da distribuição dos erros, a

86
minimização de (9) pode levar ao estimador de máxima verossimilhança. Por
2
exemplo, se ρ() = 2 (erros normais), tem-se em (9) o estimador de máxima
verossimilhança (mı́nimos quadrados). Esse estimador é conhecido como
estimador L2 . Quando ρ() = || 2 a minimização de (9) leva ao estimador de
máxima verossimilhança da distribuição exponencial dupla ou distribuição
de Laplace. O estimador obtido nesse caso é conhecido como estimador L1 .
Um dos estimadores mais conhecidos em métodos robustos é o estimador
de Huber que é uma mistura entre os estimadores L1 e L2 , sendo definido
por
1 2

2 para || ≤ c
ρ() =
c{|| − 2c } para || > c,
em que c > 0 é uma consante apropriada. Quando c → ∞ tem-se o estimador
L2 e quando c → 0 tem-se o estimador L1 . Outros estimadores robustos,
tais como estimadores de Ramsay, de Andrews ou de Hampel são descritos
em Montgomery et al. (2021, Cap. 15).

15.2 Estimação
Um problema com a minimização de (9) é que a solução pode não ser inva-
riante com mudanças de escala dos regressores. Ou seja, se os regressores
forem multiplicados por constantes a solução pode não continuar sendo a
mesma. Assim, uma solução proposta é considerar no lugar de (9) a se-
guinte função objetivo:
Xn
Sρ (β) = ρ(zi ), (10)
i=1
i
em que zi = s, com s sendo uma estimativa robusta de escala de modo que
a solução em (10) seja invariante com mudanças de escala nos regressores.
Uma escolha bastante conhecida para s é o desvio absoluto da mediana (vide
Montogomery et al., 2021, Cap. 15) defindo por

s = mediana|i − mediana(i )|/0, 6745,

para i = 1, . . . , n. A constante 0, 6745 faz com que s seja um estimador não


tendencioso de σ se os erros são assumidos normais.
O estimador tipo M é obtido minimizando (10) cujas equações de es-
timação são dadas por
∂Sρ (β)
Uβ = = 0.
∂β

87
Definindo ψ(z) = ρ0 (z) = dρ(z)/dz, então para cada componente βj tem-se
o seguinte:
∂Sρ (β)
Uβj =
∂βj
n
X dρ(zi ) ∂zi
=
dzi ∂βj
i=1
n
X
= − xij ψ(zi )/s
i=1
Xn
= − xij ωi (yi − x>
i β),
i=1

para j = 1, . . . , p, em que ωi > 0 é um peso correspondente à i-ésima


observação definido por
y −x> β (y −x> β )
(  
ψ i si / i si se yi 6= x>
i β
ωi =
1 >
se yi = xi β,
para i = 1, . . . , n. Esses pesos serão estimados para cada observação no
processo de estimação.
Em forma matricial as equações de estimação ficam dadas por
Uβ = X> W{y − X> β}
b = 0,

em que W = diag{ω1 , . . . , ωn }. Essas equações são resolvidas através do


processo iterativo de mı́nimos quadrados reponderados
β (m+1) = {X> W(m) X}−1 X> W(m) y,
para m = 0, 1, 2, . . .. Valor inicial β (0) pode ser a estimativa da regressão
L2 . Para n grande tem-se que β b ∼ Np (β, Var(β)),
b em que

b = fatorc {σ 2 (X> X)−1 },


Var(β)
com
E{ψ 2 (/σ)}
fatorc = .
[E{ψ 0 (/σ)}]
Uma estimativa para a matriz de variância-covariância de β b descrita em
Montgomery et al. (2021, Cap. 15) é dada por
Pn 2 >b
nŝ2 i=1 ψ {(yi − xi β)/ŝ}
Var(β) =
d b Pn (X> X)−1 , (11)
n − p [ i=1 ψ 0 {(yi − x>
i β)/ŝ}]
b 2

88
em que ŝ é a estimativa robusta de escala. As estimativas assintóticas das
variâncias e covariâncias de β
b devem ser extraı́das de (11).

15.3 Função de Influência


A função ψ(z) = ρ0 (z), também conhecida como função de influência, de-
senpenha um papel importante em estimação robusta, uma vez que avalia o
comportamento de ρ0 (z) à medida que |z| aumenta. Assim, espera-se para
os estimadores robustos que ψ(z) fique limitada para valores altos de |z|.
Por exemplo, para o estimador L1 a função de influência fica dada por
d
ψ(z) = ρ0 (z) = (|z|) = sinal(z),
dz
sendo portanto uma função limitada em [−1, 1] (Figura 46). Para a regressão
L2 tem-se que
d 1 2
ψ(z) = ρ0 (z) = ( z ) = z.
dz 2
Ou seja, ψ(z) é uma reta passando pela origem, logo é ilimitada (Figura 47).
1
ψ(z)

0
−1

Figura 46: Função de influência para o estimador L1 .

Para o estimador de Huber a função de influência fica expressa na forma



z para |z| ≤ c
ψ(z) =
c ∗ sinal(z) para |z| > c.

Portanto, ψ(z) é uma função limitada em [−c, c] (Figura 48).

89
ψ(z)

Figura 47: Função de influência para o estimador L2 .


c
ψ(z)

0
−c

−c 0 c

Figura 48: Função de influência para o estimador de Huber.

15.4 Pesos
Os pesos ωi0 s, que são estimados através do processo iterativo de mı́nimos
qudrados reponderados, indicam a importância de cada observação no pro-
cesso de estimação. Esses pesos agora são estimados ao invés de serem
prédeterminados como no caso da regressão linear ponderada (Seção 9).

90
Por exemplo, na regressão L2 os pesos ficam dados por

(yi − x>
i β)/s
ωi = >
= 1, ∀i.
(yi − xi β)/s
Logo, todas as observações recebem o mesmo peso. Na regressão L1 os pesos
assumem a forma
sinal(yi − x>i β)/s
ωi = >
(yi − xi β)/s
= 1/|yi − x>
i β|,

supondo yi 6= x> i β, para i = 1, . . . , n. Portanto, o peso de cada observação


é o inverso do valor absoluto do resı́duo ordinário. Finalmente, na regressão
de Huber tem-se que
(
1 se |yi − x>i β|/s ≤ c
ωi = cs >
se |yi − xi β|/s > c,
|y −x> β|
i i

para i = 1, . . . , n. Nesse caso os pesos são uma mistura entre os pesos das
regressões L1 e L2 . Portanto, tem-se que os estimadores L1 e de Huber são
resistentes a observações aberrantes.

15.5 Aplicação
Como ilustração neste tópico considere o exemplo descrito em Montgomery
et al. (2021, Cap.2) em que uma engarrafadora de refrigerantes está anali-
sando o serviço de abastecimento das máquinas de refrigerantes atendidas
pela empresa. O serviço de abastecimento inclui o estoque das garrafas nas
máquinas e pequenas manutenções feitas pelo próprio motorista do veı́culo
com os carregamentos. O engenheiro industrial responsável pela logı́stica da
distribuição dos refrigerantes acredita que o tempo gasto (em minutos) pelo
motorista para o abastecimento das máquinas pode estar relacionado com
a distância percorrida pelo motorista do veı́culo até as máquinas (em pés)
e pelo número de caixas de produtos estocados. Uma amostra aleatória de
25 abastecimentos foi considerada para análise.
Na Figura 49 tem-se os diagramas de dispersão entre o tempo gasto
pelo motorista e o número de caixas estocadas e a distância percorrida pelo
motorista, respectivamente. Nota-se tendências aproximadamente lineares,
sugerindo o seguinte modelo:

yi = β1 + β2 ncaixasi + β3 distânciai + i , (12)

91
para i = 1, . . . , 25, em que yi denota o tempo gasto pelo i-ésimo motorista
iid
com i ∼ N(0, σ 2 ). Na Tabela 22 tem-se as estimativas do ajuste e nota-se
que todos os efeitos são altamente significtivos.
80

80
70

70
60

60
50

50
Tempo Gasto

Tempo Gasto
40

40
30

30
20

20
10

10

5 10 15 20 25 30 0 200 400 600 800 1000 1200 1400


Número de Caixas Distância Percorrida

Figura 49: Diagramas de dispersão (com tendência) entre o tempo gasto pelo
motorista e o número de caixas estocadas (esquerdo) e a distância percorrida
pelo motorista (direito).

Na Figura 50 tem-se os gráficos de diagnóstico com a observação #9


sendo destacada como aberrante e influente. Refere-se ao abastecimento
com os maiores valores para a resposta e para as variáveis explicativas. A
fim de reduzir a influência dessa observação nas estimativas dos parâmetros
o método de Huber é aplicado com c = 1, 345 cujas estimativas são apresen-
tadas na Tabela 23. Todos os efeitos são altamente significativos.
Nota-se pela Tabela 24 que a observação #9 recebe o menor peso através
do processo de estimação, porém outras observações também têm o peso al-
terado com relação ao procedimento de mı́nimos quadrados. Na Figura 51
tem-se o gráfico do resı́duo Studentizado da regressão L2 contra os pesos es-
timados pelo método de Huber, e pode ser observado que as observações com
resı́duos altos em geral recebem pesos menores, confirmando a resistência
do procedimento de estimação com relação a observações aberrantes.

92
Tabela 22: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de mı́nimos quadrados aos dados sobre abastecimento de refri-
gerantes.

Efeito Estimativa Erro padrão valor-t valor-P


Constante 2,341 1,097 2,13 0,044
Ncaixas 1,616 0,171 9,47 0,001
Distância 0,014 0,004 3,89 0,000
s 3,259
R2 0,96
2
R 0,96

3.5

9
4

3.0
2.5
2
Resíduo Studentizado

Distância de Cook
2.0
1.5
0

1.0
−2

0.5
0.0

−2 −1 0 1 2 5 10 15 20 25
Quantil da N(0,1) Índice

Figura 50: Gráfico normal de probabilidades e distância de Cook (k=2)


referentes ao ajuste do modelo (12) aos dados sobre abastecimento de refri-
gerantes.

Finalmente, tem-se na Tabela 25 a comparação entre estimativas e nota-


se que as maiores correções pelo método de Huber com relação ao método
de mı́nimos quadrados ocorrem na estimativa do intercepto e do coeficiente

93
Tabela 23: Estimativas dos parâmetros referentes ao modelo (12) ajustado
pelo método de Huber aos dados sobre abastecimento de refrigerantes.

Efeito Estimativa Erro padrão valor-z valor-P


Constante 3,469 0,841 4,12 0,000
Ncaixas 1,465 0,131 11,19 0,000
Distância 0,015 0,003 5,27 0,000
s 1,536

Tabela 24: Pesos estimados das observações do exemplo sobre abastedimento


de refrigerantes através do processo iterativo pelo método de Huber.

Obs Peso Obs Peso Obs Peso


1 0,395 2 1 3 1
4 0,472 5 1 6 1
7 1 8 1 9 0,197
10 1 11 0,614 12 1
13 1 14 1 15 1
16 1 17 1 18 0,618
19 1 20 0,456 21 0,912
22 1 23 0,461 24 0,446
25 1

do número de caixas. Esta última estimativa muito similar à estimativa de


mı́nimos quadrados quando a observação #9 é excluı́da.

Tabela 25: Comparação das estimativas dos parâmetros pelos métodos de


mı́nimos quadrados e Huber referentes ao exemplo sobre abastecimento de
refrigerantes.

Efeito L2 L2 (-#9) Huber


Constante 2,341 4,447 3,469
Ncaixas 1,616 1,498 1,465
Distância 0,014 0,010 0,015

94
9
4
3
Resíduo Studentizado
2
1
0
−1
−2

0.2 0.4 0.6 0.8 1.0


Peso

Figura 51: Gráfico entre o resı́duo Studentizado do ajuste de mı́nimos qua-


drados do modelo (12) aos dados sobre abastecimento de refrigerantes e os
pesos estimados pelo método de Huber.

16 Regressão Não Linear


Os modelos de regressão não linear podem ser expressos na seguinte forma:

y = f (θ; x) + , (13)

em que y denota o valor observado da variável resposta, f (θ; x) é uma


função não linear nos parâmetros θ = (θ1 , . . . , θp )> , x contém valores de
variáveis explicativas e  é um erro aditivo. Recupera-se o modelo linear
quando f (θ; x) = x> θ. Diferentemente dos modelos lineares, os modelos não
lineares descritos em (13) apresentam algumas caracterı́sticas particulares:

• A função f (θ; x) é conhecida e em geral desenvolvida através de su-


posições teóricas, por exemplo equações diferenciais.

• Os parâmetros têm alguma interpretação, por exemplo fı́sica, biológica


ou econométrica. Logo, a aproximação dessas funções por outras
funções mais simples pode levar à perda da interpretação paramétrica.

95
• Essas funções podem ter formas equivalentes obtidas através de re-
parametrizações de θ. Essas reparametrizações são utilizadas para
reduzir o viés dos estimadores de θ.

• A estimação de θ é obtida através de procedimentos iterativos.

• As propriedades dos estimadores de θ são em geral assintóticas.

Alguns exemplos de modelos não lineares são descritos a seguir.

16.1 Modelo de von Bertalanffy


Este modelo, que é uma curva de crescimento, tem sido aplicado na área
de Ecologia para explicar o comprimento esperado de uma espécie de peixe
dada sua idade. Uma das formas mais utilizadas do modelo é a seguinte:

y = θ1 [1 − exp{−θ2 (x − θ3 )}] + ,

em que y denota o comprimento do peixe, x denota a respectiva idade,


enquanto θ1 > 0 representa o comprimento máximo esperado para a espécie
(assı́ntota), θ2 > 0 denota a taxa média de crescimento e θ3 é um valor
nominal em que o comprimento esperado da espécie é zero. Tem-se na
Figura 52 a descrição de um exemplo da curva de von Bertalanffy.
As curvas de crescimento apresentam formas equivalentes obtidas através
de reparametrizações, que podem ser aplicados dependendo da área de inte-
resse ou mesmo para reduzir o viés da estimativa de máxima verossimilhança
de θ. As funções abaixo, extraı́das do livro de Fox e Weisberg (2019), são
formas equivalentes de curvas de crescimento que recebem nomes diferentes
dependendo da área:

1. f1 (θ; x) = θ1 − θ3 θ2x

2. f2 (θ; x) = θ1 − θ3 exp(−θ2 x)

3. f3 (θ; x) = θ1 + (θ3 − θ1 )θ2x

4. f4 (θ; x) = θ1 + (θ3 − θ1 )exp(−θ2 x)

5. f5 (θ; x) = θ1 − exp{−(θ3 + θ2 x)}

6. f6 (θ; x) = θ1 + θ3 {1 − exp(−θ2 x)},

96
250
Comprimento Espeado (em cm)
200
150
100

0 1 2 3 4 5 6 7
Idade do Peixe (em anos)

Figura 52: Curva de von Bertalanffy para θ1 = 275, θ2 = 0.5 e θ3 = −0.5.

em que θ1 denota a assı́ntota (valor esperado quando x → ∞) e θ2 denota


a taxa média de crescimento em todos os modelos. Nos modelos 1,2 e 6
tem-se θ3 = θ1 − µ, em que µ denota o valor esperado E(Y |x) quando x = 0,
enquanto nos modelos 3 e 4 tem-se θ3 = µ e no modelo 5 θ3 = log(θ1 − µ).
Se qualquer um desses 6 modelos for ajustado ao mesmo conjunto de
dados, a curva ajustada será a mesma (invariância dos valores preditos),
contudo as estimativas dos parâmetros, respectivos erros padrão e vieses
deverão ser diferemtes. Assim, pode-se optar pelo modelo cujas estimativas
tenham os menores vieses. Nesse tipo de modelo há dois tipos de não lineari-
dade, paramétrica e intrı́nseca. A principal diferenca é que a não linearidade
paramétrica pode sempre ser reduzida com reparametrizações, enquanto a
não linearidade intrı́nseca é invariante com reparametrizações.
Uma sugestão de valores inciais para o modelo de von Bertalanffy é
(0)
considerar θ1 ∼ = ymax , com os parâmetros θ2 e θ3 sendo definidos através
da relação
(0)
log(1 − y/θ1 ) ∼= γ + ηx,
(0) (0)
em que γ = θ2 θ3 e η = −θ2 . Os valores iniciais θ2 e θ3 podem ser obtidos
(0)
do ajuste de mı́nimos quadrados de z = log{1 − y/θ1 } contra γ + ηx.

97
16.2 Modelo de Crescimento Logı́stico
Esse modelo sigmoidal é frequentemente aplicado para estudar o crescimento
populacional. Sua forma mais conhecida é dada por
θ1
y= + ,
1 + exp{−(θ2 + θ3 x)}

em que y denota o tamanho da população num dado ano x. O parâmetro


θ1 > 0 representa o tamanho máximo esperado para a população (assı́ntota),
θ3 controla o crescimento da curva no intervalo (0, θ1 ). Pode-se mostrar que
a curva é simétrica em x = −θ2 /θ3 . Ou seja, E(Y |x = −θ2 /θ3 ) = θ21 que
corresponde ao ponto médio entre as duas assı́ntotas. Um exemplo da curva
logı́stica é descrito na Figura 53.
1.0
0.8
0.6
y
0.4
0.2
0.0

−4 −2 0 2 4
x

Figura 53: Curva Logı́stica para θ1 = 1, θ2 = −1 e θ3 = 1.

(0)
Para valores iniciais a sugestão é considerar θ1 ∼ = ymax com os parâmetros
θ2 e θ3 sendo definidos tais que
!
(0)
y/θ1 ∼ θ2 + θ3 x.
log (0)
=
1 − y/θ1

98
(0) (0)
Logo, os valores iniciais θ2 e θ3 podem ser obtidos do ajuste de mı́nimos
(0) (0)
quadrados de z = log{(y/θ1 )/(1 − y/θ1 )} contra θ2 + θ3 x.

16.3 Modelo de Mistura de Duas Drogas


O modelo de Finney para mistura de drogas tem sido aplicado na área de
Farmacologia para avaliar a interação de duas drogas A e B de mesmo tipo,
porém com princı́pios ativos diferentes. Assume a seguinte forma:

y = α + δ log(x1 + ρx2 + κ ρx1 x2 ) + ,

em que y denota o valor observado da resposta, x1 e x2 representam, res-


pectivamente, as doses das drogas A e B, δ é a relação comum log(dose)
e resposta, ρ é a potência da droga B em relação à droga A e κ denota
a interação entre as duas drogas, sendo interpretado da seguinte maneira:
κ = 0 efeitos aditivos, κ > 0 sinergismo e κ < 0 antagonismo.

16.4 Modelo de Michaelis-Menten


O modelo de Michaelis-Menten é muito aplicado em cinética quı́mica para
relacionar a velocidade inicial de uma reação enzimática (Y) (contagem/min)
dada a concentração de um substrato (X) (em ppm), sendo expresso na
forma
θ1 x
y= + ,
x + θ2
em que θ1 denota a velocidade máxima obtida e θ2 é conhecido como a
constante de Michaelis. A curva de Michaelis-Menten é ilustrada na Figura
54 para um caso particular.
Para valores iniciais para o modelo de Michaelis-Menten utiliza-se a apro-
ximação
1 ∼ 1 θ2 1
= + .
y θ1 θ1 x
(0) (0)
Assim, os valores iniciais θ1 e θ2 podem ser obtidos do ajuste de mı́nimos
quadrados de y −1 contra β2 + β2 x, em que β1 = 1/θ1 e β2 = θ2 /θ1 .

16.5 Estimação
Considere agora o modelo de regressão não linear

yi = f (θ; xi ) + i , (14)

99
150
Reação Enzimática
100
50
0

0.0 0.2 0.4 0.6 0.8 1.0 1.2


Concentração Substrato

Figura 54: Curva de Michaelis-Menten para θ1 = 200 e θ2 = 0, 10.

em que y1 , . . . , yn denotam os valores observados da variável resposta, f (θ; xi )


é uma função não linear nos parâmetros θ = (θ1 , . . . , θp )> , xi contém valores
iid
de variáveis explicativas e i ∼ N(0, σ 2 ), para i = 1, . . . , n. Similarmente à
regressão linear, a estimação de θ em (14) é obtida minimizando a seguinte
função objetivo:
n
X n
X
S(θ) = 2i = {yi − f (θ; xi )}2 = {y − f (θ)}> {y − f (θ)},
i=1 i=1

em que y = (y1 , . . . , yn )> e f (θ) = {f (θ; x1 ), . . . , f (θ; xn )}> .


A derivada parcial de S(θ) com relação a θ fica dada por
∂S(θ)
= −2J(θ)> {y − f (θ)},
∂θ
em que J(θ) é a matriz Jacobiana de dimensão n × p da transformação de
f (θ) com relação a θ, sendo denotada por
 ∂f (θ;x ) ∂f (θ;x1 )

1
∂θ1 · · · ∂θp
J(θ) = 
 .. .. 
.
 . ··· . 
∂f (θ;xn ) ∂f (θ;xn )
∂θ1 ··· ∂θp

100
Portanto, como J(θ) depende de θ o estimador de mı́nimos quadrados
(máxima verossimilhança) deve ser obtido iterativamente. O processo itera-
tivo de Newton-Raphson fica dado por

θ (m+1) = θ (m) + {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> {y − f (θ (m) )}
= {J(θ (m) )> J(θ (m) )}−1 J(θ (m) )> z(θ (m) ), (15)

para m = 0, 1, 2, . . . e z(θ) = y − {f (θ) − J(θ)θ} é uma pseudo resposta ou


variável dependente modificada. Ou seja, θ b é obtido através de um processo
iterativo de mı́nimos quadrados, contudo valores iniciais θ (0) são necessário
para iniciar o processo iterativo.

16.6 Inferência
Mostra-se para n grande que θb segue aproximadamente distribuição normal
p-variada de média θ e matriz de variância-covariância dada por
b = σ 2 {J(θ)> J(θ)}−1 ,
Var(θ)

sendo o estimador para σ 2 definido por


Pn b xi )}2
2 {yi − f (θ;
b = i=1
σ .
n−p
Se o interesse é testar as hipóteses H0 : Rθ = 0 contra H1 : Rθ 6= 0, em que
R é uma matriz de dimensão r × p e posto linha completo r ≤ p, tem-se sob
H0 e para n grande que
b > [R{J(θ)
(Rθ) b > J(θ)}
b −1 R> ]−1 (Rθ)
b
F= 2
∼ Fr,(n−p) .
rbσ
Logo, para um nı́vel de significância 0 < α < 1, rejeita-se H0 se F >
F(1−α),(p−1),(n−p) , em que F(1−α),(p−1),(n−p) denota o quantil (1 − α) de uma
distribuição F com (p − 1) e (n − p) graus de liberdade.

16.7 Métodos de Diagnóstico


Na convergência do processo iterativo (15) tem-se que
b > J(θ)}
b = {J(θ)
θ b −1 J(θ)
b > z(θ).
b

Portanto, similarmente à regressão linear, pode-se escrever J(θ)


b θb = H(θ)z(
b θ),b
em que
H(θ)
b = J(θ){J(
b b > J(θ)}
θ) b −1 J(θ)
b >.

101
Ou seja, H(θ) b é um projetor linear da pseudo resposta z(θ)
b no plano ex-
plicado pelas colunas da matriz J(θ), conhecido como plano tangente à
b
superfı́cie f (θ) em θ. b Os elementos da diagonal principal da matriz H, b
h11 , . . . , hnn , podem ser considerados como medidas de ponto de alavanca.
b b
O resı́duo padronizado
{yi − f (θ;
b xi )}
ti = q
b 1−b
σ hii
seria uma extensão natural do resı́duo Studentizado da regressão linear para
a regressão não linear, contudo esse resı́duo não tem distribuição conhe-
cida sendo necessário no gráfico normal de probabilidades a inclusão de
bandas empı́ricas de confiança. Para detectar observações influentes, uma
aproximação da distância de Cook para a regressão não linear é dada por
Di = t2i b
hii /p(1 − b
hii ), para i = 1, . . . , n.

16.8 Aplicação
Como ilustração considere o arquivo lakemary da biblioteca alr4 do R, em
que são descritos o comprimento em mm e a idade em anos de uma amostra
de n = 78 peixes de uma espécie de água doce. Ajustar aos dados o modelo
não linear de von Bertalanffy
yi = θ1 [1 − exp{−θ2 (xi − θ3 )}] + i ,
em que yi e xi denotam, respectivamente, o comprimento (em mm) e a idade
iid
(anos) do i-ésimo peixe, enquanto i ∼ N(0, σ 2 ), para i = 1, . . . , 78.
Os dados estão descritos na Figura 55 e o ajuste da curva de von Berta-
lanffy é apresentado na Figura 56. Nota-se pelas estimativas que o parâmetro
θ3 não é significativo, sugerindo que os dados podem ser ajustados com um
modelo mais simples envolvendo apenas os parâmetros θ1 e θ2 . Para ilustrar,
uma estimativa intervalar de 95% para o comprimento máximo esperado
para a espécie fica (em mm) dada por [191, 809 ± 1, 96 × 13, 079]. Análise
de resı́duos descrita na Figura 57 sugere adequação da suposição de nor-
malidade e homocedasticidade dos erros. As variações dos resı́duos dentro
da banda de confiança é muito provavelmene devido ao fato de termos para
uma mesma idade do peixe várias réplicas.

17 Erros Auregressivos AR(1)


Em algumas situações práticas em que a regressão linear é aplicada pode
haver suspeita de correlação temporal nas observações. Isso ocorre em par-

102
180
160
Comprimento do Peixe
140
120
100
80
60

1 2 3 4 5 6
Idade do Peixe

Figura 55: Diagrama de dispersão entre o comprimento e a idade do peixe


do arquivo lakemary da biblioteca alr4.

Tabela 26: Estimativas dos parâmetros referentes ao modelo de von Berta-


lanffy ajustado aos dados do arquivo lakemary da biblioteca alr4.

Parâmetro Estimativa Erro padrão valor-z valor-P


θ1 191,809 13,079 14,74 0,000
θ2 0,406 4,593 9,47 0,000
θ3 0,081 0,240 0,34 0,737
s 10,960

ticular quando as unidades experimentais são coletadas de forma temporal,


por exemplo, diariamente, semanalmente, mensalmente ou anualmente. O
gráfico temporal do resı́duo Studentizado pode revelar a necessidade de in-
clusão de alguma estrutura nos errros para acomodar a correlação temporal.
Testes mais formais, como por exemplo o teste clássico de Durbin-Watson
pode ser aplicado para avaliar se há correlação autoregressiva de ordem 1.
Nesta seção será discutido o caso mais simples em que há suspeita de auto-

103
200
150
Comprimento do Peixe
100
50

1 2 3 4 5 6
Idade do Peixe

Figura 56: Curva ajustada de von Bertalanffy aos dados do arquivo lake-
mary da biblioteca alr4.

correlação AR(1) nos erros. Embora procedimentos de máxima verossimi-


lhança possam ser aplicados de uma forma geral, como ilustração de solução
mais simples para o caso AR(1) será discutido o método de Cochrane-Orcutt,
que procura reduzir o modelo linear normal com erros autoregressivos a um
modelo com erros independentes e igualmente distribuı́dos.
Assim, considere o seguinte modelo de regressão linear:

yt = x >
t β + t , (16)
iid
em que t = φt−1 + et com |φ| < 1 e et ∼ N(0, σ 2 ), para t = 1, . . . , T .
Substituindo t , t−1 , t−2 na expressão t = φt−1 + et obtém-se

t = φ2 {φt−3 + et−2 } + φet−1 + et


= φ3 t−3 + φ2 et−2 + φet−1 + et .

E assim sucessivamente segue que



X
t = φj et−j .
j=1

104
2

3
2
1
Resíduo Padronizado

Residuo Padronizado
1
0

0
−1
−1

−2
−3
−2

−2 −1 0 1 2
60 80 100 120 140 160 180
Quantil da N(0,1)
Valor Ajustado

Figura 57: Análise de resı́duos do ajuste do modelo de von Bertalanffy aos


dados do arquivo lakemary da biblioteca alr4.

E dessa relação obtém-se os resultados


   
2 1 j 2 1
E(t ) = 0, Var(t ) = σ e Cov(t , t±j ) = φ σ ,
1 − φ2 1 − φ2
para j = 0, 1, 2, . . . . Logo, a autocorrelação entre os erros t e t+1 fica dada
por
Cov(t , t+1 )
ρt = p p
Var(t ) Var(t+1 )
 
1
φσ 2 1−φ 2
= r  r  
1 1
σ 2 1−φ 2 σ 2 1−φ 2

= φ.
Pode-se mostrar de forma similar que a autocorrelação entre os erros t e t+k
fica dada por ρk = φk . Em particular, quando φ é positivo a magnitude da
autocorrelação entre dois erros decresce à medida que a distância temporal
entre os erros aumenta.

105
17.1 Teste de Durbin-Watson
Em geral, na prática, tem-se autocorrelação positiva entre os erros e um teste
bastante conhecido para avaliar a necessidade de inclusão de uma estrutura
de correlação AR(1) é o teste de Durbin-Watson (DW). Mais especificamente
o teste de DW considera as hipóteses H0 : φ = 0 contra H1 : φ > 0, sendo a
estatı́stica do teste definida por
PT
(rt − rt−1 )2
d = t=2PT ,
2
t=1 rt

em que rt = yt − ybt é o resı́duo ordinário da regressão de mı́nimos quadrados


com erros independentes e igualmente distribuı́dos. Há tabelas disponı́veis
para avaliar o teste de DW que levam em conta o tamanho amostral, o
nı́vel de significância do teste e o número de variáveis explicativas no modelo
(vide, por exemplo, Tabela A.6 de Montgomery et al.(2021)). Nessas tabelas
são apresentados valores crı́ticos dU e dL para a estatı́stica do teste com o
seguinte critério de decisão:

• Se d < dL rejeitar H0

• Se d > dU não tejeitar H0

• Se dL ≤ d ≤ dU inconclusivo.

Há também bibliotecas que calculam diretamente o teste de DW com o


respectivo valor-P, como por exemplo a biblioteca lmtest do R.

17.2 Método de Cochrane-Orcutt


Do modelo de regressão linear com erros AR(1) descrito em (16) segue que

yt−1 = x>
t−1 β + t−1 .

Logo, obtém-se t−1 = yt−1 − x>


t−1 β e portanto pode-se escrever

yt = x>
t + φt−1 + et
= x> >
t β + φyt−1 − φxt−1 β + et
yt − φyt−1 = {xt − φxt−1 }> β + et .

Implicando para φ fixo na seguinte regressão linear:

ut = z>
t β + et ,

106
iid
em que ut = yt − φyt−1 e zt = xt − φxt−1 com et ∼ N(0, σ 2 ), para t =
1, . . . , T . Portanto, para φ fixo, pode-se estimar β através do procedimento
de mı́nimos quadrados
b = (U> U)−1 U> z,
β (17)
em que U é uma matriz n × p de linhas u> >
t e z = (z1 , . . . , zT ) . Porém,
na prática φ não é fixo, podendo ser estimado através de um estimador de
momentos dado por φb = Tt=2 rt rt+1 / Tt=1 rt2 com rt = yt − ybt . Assim, um
P P
procedimento iterativo para obter uma estimativa de mı́nimos quadrados
para β fica dado por

1. Fornecer uma estimativa para φ.

2. Obter β
b de (17).

3. Aplicar o teste de DW.

4. Se H0 não for for rejeitada, parar. Caso contrário, atualizar a estima-


tiva para φ e repetir (1)-(3). Parar quando o teste for rejeitado e não
for mais possı́vel mudar a estimativa de β. Nesse último caso prova-
velmente uma estrutura de erros de ordem maior deve ser considerada
em (16).

O processo iterativo acima pode ser aplicado através, por exemplo, da bi-
blioteca orcutt do R.

18 Estimação por Máxima Verossimilhança


Como visto anteriormente o modelo de regressão linear múltipla assume que
ind
Yi |xi ∼ N(µi , σ 2 ) com µi = x> > >
i β, xi = (xi1 , . . . , xip ) e β = (β1 , . . . , βp ) ,
> > 2
para i = 1, . . . , n. Denotando θ = (β , φ) , em que φ = σ , a função
densidade de probabilidade de Yi |xi fica expressa na forma
   
1 1 > 2
f (yi ; xi , θ) = √ exp − (yi − xi β) ,
2πφ 2φ

107
para i = 1, . . . , n. Assim, o logaritmo da função de verossimilhança fica
dado por

L(θ) = log[Πni=1 {f (yi ; xi , θ)}]


  n
1 1 X
= n log √ − (yi − x>
i β)
2
2πφ 2φ
i=1
n
n 1 X
= − log(2πφ) − (yi − x> 2
i β) .
2 2φ
i=1

Para obter as estimativas de máxima verossimilhança de β e φ é preciso


derivar a função escore
  ∂L(θ)
!
∂L(θ) Uβ ∂β
Uθ = = = ∂L(θ) .
∂θ Uφ
∂φ

As estimativas de máxima verossimilhança são obtidas resolvendo-se as


equações Uβ = 0 e Uφ = 0.
A derivada parcial de L(θ) com relação a βj fica dada por
n
∂L(θ) 1X
= xij (yi − x>
i β),
∂βj φ
i=1

para j = 1, . . . , p. Em forma matricial obtém-se


∂L(θ) 1
Uβ = = X> (y − Xβ),
∂β φ

em que y = (y1 , . . . , yn )> e X é a matriz modelo. A estimativa de máxima


verossimilhança β
b é obtida tal que

Uβ = 0 ⇒ X> (y − Xβ)
b = 0.

Então, se X é uma matriz de posto coluna completo tem-se solução única


b = (X> X)−1 X> y,
β

que coincide com a estimativa de mı́nimos quadrados. Por outro lado, a


derivada parcial de L(θ) com relação a φ fica dada por
n
∂L(θ) n 1 X
Uφ = =− + (yi − x> 2
i β) ,
∂φ 2φ 2φ2
i=1

108
e fazendo Uφ = 0 obtém-se
Pn
i=1 (yi − ybi )2
b2 =
φb = σ ,
n

em que ybi = x> b2 = (n−p)


i β. Portanto, tem-se que σ
b 2
n s e E(b σ 2 ) = (n−p) 2
n σ .
b2 é um estimador tendencioso de σ 2 .
Logo, σ
A matriz de informação de Fisher para θ = (β > , φ)> é definada como
sendo o valor esperado da curvatura de L(θ)
 2   
∂ L(θ) Kββ Kβφ
Kθθ = E − = ,
∂θ∂θ > Kφβ Kφφ

em que Kββ e Kφβ são submatrizes de informação de Fisher, respectiva-


mente, de β e de β e φ simultaneamente, enquanto Kφφ é a informação de
Fisher de φ.
As submatrizes Kββ e Kφβ ficam dadas por

∂ 2 L(θ)
 
Kββ = E −
∂β∂β >
1 >
= (X X) e
φ
 2 
∂ L(θ)
Kβφ = E −
∂β∂φ
1
= E{X> (Y − Xβ)|X}
φ
= X> E{(Y − Xβ)|X} = 0.

Assim, os parâmetros β e φ são ortogonais. Ainda tem-se que


 2 
∂ L(θ)
Kφφ = E −
∂φ2
n
n 1 X
= − 2+ 3 E{(Yi − x> 2
i β) }
2φ φ
i=1
n n n
= − 2 + 2 = 2.
2φ φ 2φ
Logo, a matriz de informação de Fisher para θ assume a forma bloco diagonal
 
Kββ 0
Kθθ = ,
0 Kφφ

109
e pelas propriedades de estimação por máxima verosimilhança, tem-se para
n grande que β b ∼ Np (β, K−1 ) e σb2 ∼ N(σ 2 , K−1 b b2 são
ββ φφ ). Além disso, β e σ
independentes. No caso de β b o resultado vale para todo n. Similarmente,
segue que (n − p)s2 /σ 2 ∼ χ2(n−p) .

Exercı́cios
1. Seja T um estimador do parâmetro θ e supor a existência dos dois
primeiros momentos de T. Mostre que

E{(T − θ)2 } = E[{T − E(T )}2 ] + {E(T) − θ}2 .

Ou seja, EQM(T) = Var(T) + {Viés(T)}2 .

2. Com base numa amostra independente de n = 3 de uma variável


2 foram propostos para µ os
aleatória X de média µX e variância σX X
seguintes estimadores:
1 1
T1 = (X1 + 3X2 + X3 ), T2 = (X1 + 2X3 ),
5 2
1 1
T3 = (2X1 + X2 + X3 ) e T4 = (X1 + X2 + X3 ).
4 3
Obtenha o erro quadrático médio, a variância e o viés de cada estima-
dor. Entre os não tendenciosos qual escolher? Justifique.

3. Considere a seguinte regressão linear simples:

yi = β1 + β2 xi + i ,
iid
em P que i ∼ N(0, σ 2 ), P
i = 1, . . . , n. Mostre
Pnque: (i) Cov(ȲP
, β̂2 ) = 0,
(ii) i=1 ri ŷi = 0, (iii) i=1 ri xi = 0, (iv) i=1 ri = 0 e (v) ni=1 yi =
n n
P n
i=1 ŷi , em que ri = yi − ŷi .

4. Supor que foi ajustado através de mı́nimos quadrados o modelo de


regressão ŷ = β̂1 + β̂2 x2 , porém o modelo verdadeiro é dado por

y = β1 + β2 x2 + β3 x3 + ,

em que  ∼ N(0, σ 2 ). Mostre que o estimador β̂2 obtido no primeiro


ajuste é tendencioso. Expresse o viés de β̂2 .

110
5. Supor uma amostra aleatória de tamanho n e o seguinte modelo de
regressão:
yi = β1 + β2 xi + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , n. Supondo β1 conhecido ob-
tenha o estimador de mı́nimos quadrados de β2 e o respectivo erro
padrão. Compare esse estimador com o estimador de mı́nimos qua-
drados de β2 quando β1 é desconhecido. Comente.

6. Supor o modelo de regressão linear múltipla yi = x>


i β + i , em que
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n. Mostre que uma estimativa intervalar
de menor comprimento para σ 2 pode ser expressa na forma

(n − p)s2 (n − p)s2
 
; ,
a b

em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distri-
buição χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento
do intervalo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados
Rb
(em b) a equação a g(n−p) (t)dt = (1 − α) com a = a(b).

7. Considere agora o modelo de regressão linear múltipla yi = x>


i β + i ,
iid
em que i ∼ N(0, σ 2 ), xi = (1, xi2 , . . . , xip )> e β = (β1 , . . . , βp )> , para
i = 1, . . . , n. Mostre que a estatı́stica F para testar H0 : β2 = · · · = βp
contra H1 : βj 6= 0, para pelo menos algum j = 2, . . . , p, pode ser
expressa na forma
R2 (n − p)
F= .
(p − 1)(1 − R2 )

8. São apresentados na tabela abaixo o consumo (galão/milha)(Y) e a


cilindrada (polegadas3 ) (X) de uma amostra de n = 32 automóveis de
marcas diferentes (Montgomery et al., 2021, Tabela B3).

111
y x y x y x y x
18,90 350,0 17,00 350,0 20,00 250,0 18,25 351,0
20,07 225,0 11,20 440,0 22,12 231,0 21,47 262,0
34,70 89,7 30,40 96,9 16,50 350,0 36,50 85,3
21,50 171,0 19,70 258,0 20,30 140,0 17,80 302,0
14,39 500,0 14,89 440,0 17,80 350,0 16,41 318,0
23,54 231,0 21,47 360,0 16,59 400,0 31,90 96,9
29,40 140,0 13,27 460,0 23,90 133,6 19,73 318,0
13,90 351,0 13,27 351,0 13,77 360,0 16,50 350.0

Responda às seguintes questões: (i) construir o diagrama de dispersão


entre o consumo e a cilindrada dos automóveis, comente; (ii) obter
a correlação linear amostral de Pearson; (iii) ajustar o modelo de re-
gressão linear simples de mı́nimos quadrados, obtendo as estimativas
β̂1 e β̂2 e os respectivos erros padrão; (iv) traçar a reta de regressão no
diagrama de dispersão; (v) interpretar a estimativa β̂2 ; (vi) obter as
estimativas intervalares de 95% para β1 e β2 e (vii) obter a estimativa
intervalar de 97% para o consumo de um automóvel com cilindrada
de x = 300 polegadasP 3 . Resultados úteis: ȳ = 20, 2231, x̄ = 284, 7312,

yi2 = 14324, 74. x2i = 3019001 e


P P
xi yi = 164118, 10. Este
exercı́cio deve ser feito manualmente. O diagrama de dispersão pode
ser feito no R.

9. No arquivo capm.txt estão os seguintes dados (Ruppert, 2004, Cap.7):


Tbill (taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno
do mercado), retorno GE e retorno FORD de janeiro de 2002 a abril
de 2003. Todos os retornos são diários e estão em porcentagem. Cons-
truir inicialmente os diagramas de dispersão (com tendência) entre o
excesso de retorno (yrt − rf t ) de cada uma das empresas Microsoft,
GE e FORD e o excesso de retorno do mercado (rmt − rf t ), em que yrt
denota o retorno da ação da empresa, rmt é o retorno do mercado e rf t
indica a taxa livre de risco durante o t-ésimo perı́odo. Posteriormente,
ajustar o seguinte modelo de regressão linear simples para cada ação:

yt = α + βxt + t ,
iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é maior

112
do que o excesso de retorno do mercado (ação mais volátil do que o
mercado), e se β < 1 o excesso de retorno é menor do que o excesso
de retorno do mercado (ação menos volátil do que o mercado). O
intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.
Para ler o arquivo no R use os comandos
capm = read.table("capm.txt", header=TRUE).
Para deixar o arquivo disponı́vel use o comando
attach(capm).
Por exemplo, para ajustar o excesso de retorno da Microsoft use os
comandos
ymsf = rmsf - tbill
xmerc = sp500 - tbill
ajuste.msf = lm(ymsf ∼ xmerc)
summary(ajuste.msf).
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado
o excesso de retorno do mercado.
10. Suponha o modelo de comparação de médias
yij = µi + ij ,
iid
em que ij ∼ N(0, σ 2 ), i = 1, . . . , k e j = 1, . . . , ni . Mostre que µ̂i = ȳi
e Var(rij ) = σ 2 (1 − 1/ni ), em que rij = yij − ȳi .
11. Considere o modelo de regressão linear múltipla
yi = x>
i β + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que o critério de Akaike é
equivalente a minimizar a quantidade
 
SQRes
AIC = n log + 2p,
n
com SQRes = ni=1 (yi − ŷi )2 .
P

113
12. Na tabela abaixo (Lawless, 1992, Seção 6.8) são apresentados os re-
sultados de um experimento em que a resistência (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nı́veis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus).

Voltagem(kV)
Temperatura (o C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588

180 959 216 241 241


1065 315 315 241
1065 455 332 435
1087 473 380 455

Esses dados estão também disponı́veis no arquivo vidros.txt. Na


primeira coluna do arquivo tem-se o tempo de resistência, na segunda
coluna a voltagem (1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e
na terceira coluna a temperatura (1: 170o C e 2: 180o C). Seja Yijk o
tempo de resistência da k-ésima amostra de vidro submetida à i-ésima
voltagem e à j-ésima temperatura.
Para ler o arquivo no R use os comandos
vidros = read.table("vidros.txt", header=TRUE)
voltagem = factor(voltagem)
temperatura = factor(temperatura).
Faça inicialmente uma análise descritiva dos dados, por exemplo apre-
sentando os perfis médios da resistência segundo a voltagem para os
dois nı́veis de temperatura. Comente e verifique se há indı́cios de in-
teração entre temperatura e voltagem.
Supor inicialmente o seguinte modelo:

yijk = α + βi + γj + ijk ,

em que βi denota o efeito da i-ésima voltagem e γj o efeito da j-


ésima temperatura em relação à casela de referência, sendo assumido

114
iid
β1 = 0, γ1 = 0 e ijk ∼ N(0, σ 2 ), para i = 1, 2, 3, 4 e j = 1, 2. Testar
a inclusão de interação entre temperatura e voltagem. Construir a
tabela ANOVA. Para ajustar os modelos sem interação e com interação
e gerar a tabela ANOVA use os comandos
fit1 = lm(resistencia ∼ voltagem + temperatura)
fit2 = lm(resistencia ∼ voltagem + temperatura +
temperatura*voltagem)
anova(fit1,fit2).
Fazer análises de resı́duos e de sensibilidade. Construir o gráfico dos
perfis ajustados. Comente.

13. Considere o arquivo BigMac2003 da biblioteca alr4 do R, em que


são descritas as seguintes variáveis de 69 cidades de diversos paı́ses:

• BigMac: minutos de trabalho para comprar um Big Mac


• Bread: minutos de trabalho para comprar 1kg de pão
• Rice: minutos de trabalho para comprar 1kg de arroz
• FoodIndex: ı́ndice de preços de alimentos
• Bus: valor da passagem de ônibus (em USD)
• Apt: valor do aluguel (em USD) de um apartamento padrão de 3
dormitórios
• TeachGI: salário bruto anual (em 1000 USD) de um professor de
ensino fundamental
• TeachNI: salário lı́quido anual (em 1000 USD) de um professor
de ensino fundamental
• TaxRate: imposto pago (em porcentagem) por um professor de
ensino fundamental
• TeachHours: carga horária semanal (em horas) de um professor
de ensino fundamental.

Para disponibilizar e visualizar um resumo dos dados use na sequência


os seguintes comandos do R:
require(alr4)
require(MASS)
attach(BigMac2003)
summary(BigMac2003).

115
O objetivo principal do estudo é relacionar a variável BigMac com
as demais variáveis explicativas. A fim de obter uma melhor apro-
ximação para a normalidade considere log(BigMac) como variável res-
posta. Apresente os diagramas de dispersão (com tendência) entre
a variável resposta e cada uma das variáveis explicativas e comente.
Padronize as variáveis explicativas. Por exemplo, para padronizar a
variável explicativa Bread use o comando
sBread = scale(Bread, center = TRUE, scale = TRUE).
Através do procedimento stepAIC fazer uma seleção das variáveis ex-
plicativas. Para o modelo selecionado aplicar análises de resı́duos e de
sensibilidade. Comente. Classifique as variáveis explicativas segundo
o impacto na explicação da média da variável resposta.

14. No arquivo motorins da biblioteca faraway do R são descritas in-


formações relacionadas a 1797 grupos de apólices de seguro de au-
tomóvel no ano de 1977 na Suécia. Em particular, há interesse em
saber se há diferenças significativas entre o seguro médio pago por
sinistro em 7 regiões do paı́s. Para ler o arquivo no R utilize os co-
mandos
require(faraway)
summary(motorins)
attach(motorins).
Considere as variáveis Zone (região do paı́s) e perd valor pago por sinis-
tro (em coroas suecas). A fim de obter uma melhor aproximação para
a normalidade considere como resposta a variável log(perd). Construir
boxplots de log(perd) segundo a região. Comente. Aplique em seguida
um ajuste de comparação de médias através do comando
fit1.motor = lm(log(perd) ∼ Zone).
Construa a tabela ANOVA através do comando
fit2.motor = aov(log(perd) ∼ Zone).
Se for rejeitada a hipótese de homogeneidade de médias, aplique o
método de Tukey para verificar quais contrastes são significativos através
do comando
TukeyHSD(fit2.motor)
plot(TukeyHSD(fit2.motor),las=2).
Comente.

116
15. No arquivo fuel2001.txt da biblioteca alr4 do R, estão descritas as
seguintes variáveis referentes aos 50 estados norte-americanos mais o
Distrito de Columbia no ano de 2001:

• UF: unidade da federação


• Drivers: número de motoristas licenciados
• FuelC: total de gasolina vendida (em mil galões)
• Income, renda per capita em 2000 (em mil USD)
• Miles, total de milhas em estradas federais
• MPC, milhas per capita percorridas
• Pop, população ≥ 16 anos
• Tax, taxa da gasolina (em cents por galão).

A fim de possibilitar uma comparação entre as UFs duas novas variáveis


são consideradas Fuel = 1000*FuelC/Pop e Dlic = 1000*Drivers/Pop,
além da variável Miles ser substituı́da por log(Miles). Para ler o ar-
quivo no R use os comandos
require(alr4)
require(MASS)
attach(fuel2001)
summary(fuel2001).
Considere como resposta a variável Fuel e como variáveis explicativas
Dlic, log(Miles), Income e Tax. Faça inicialmente uma análise descri-
tiva dos dados. Por exemplo, boxplot robusto para a variável resposta
e diagramas de dispersão (com tendência) entre cada variável explica-
tiva e a variável resposta. Comente. Aplique o procedimento stepAIC
para selecionar as variáveis explicativas. Verifique se é possı́vel in-
cluir alguma interação. Com o modelo selecionado faça uma análise
de diagnóstico: análise de resı́duos, pontos de alavanca, distância de
Cook e DFFITS. Avalie o impacto dos pontos destacados. Interprete
os coeficientes estimados.

16. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)

117
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos
wine = read.table("wine.txt", header=TRUE).
A variável região é categórica com três nı́veis. Assim é possı́vel através
do comando factor do R transformá-la em duas variáveis binárias:
regiao2 = 1 para região 2 e 0 caso contrário e regiao3 = 1 para
região 3 e 0 em caso contrário. A casela de referência será a região 1.
Para acionar o procedimento use o comando
regiao = factor(regiao).
Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão (com tendência)
entre a variável resposta e variáveis explicativas. Calcule também
as correlações lineares de Peasorn entre as variáveis (exceto região).
Selecione incialmente um submodelo através dos métodos de maior
R2k , menor sk , menor Ck e menor Pressk . Em seguida selecione outro
submodelo através do procedimento stepwise usando PE=PS=0,15.
Compare os submodelos escolhidos e para o submodelo selecionado
aplicar análise de resı́duos e sensibilidade. Interpretar os coeficientes
estimados.
17. Considere o modelo linear simples
yi = β1 + β2 (xi − x̄) + i ,
iid
para i = 1, . . . , n com i ∼ N(0, σ 2 ). Encontrar os estimadores ridge
β̂R1 e β̂R2 como também suas variâncias e covariância assintóticas
Var(β̂R1 ), Var(β̂R2 ) e Cov(β̂R1 , β̂R2 ). Expresse os estimadores ridge
em função dos estimadores de mı́nimos quadrados e mostre que são
estimadores tendenciosos.
18. Para avaliar a relação entre a energia necessária diária e a produção
de carne, uma amostra aleatória de 64 ovelhas em fase de crescimento
foi considerada, sendo observado para cada animal o consumo médio
diário de energia (mcal) e o peso (em kg). Esses dados estão descritos
no arquivo sheep.txt (vide Lindsey, 1997, Seção 9.4). Para ler o
arquivo no R use os comandos
sheep = read.table("sheep.txt", header=TRUE).
Fazer inicialmente uma análise descritivia dos dados, boxplot robusto
da variável resposta (peso) e diagrama de dispersão entre o peso do ani-
mal e o consumo diário de energia (variável explicativa). Ajustar um

118
modelo linear normal aos dados e verificar que há indı́cios de variância
não constante dos erros. Ajustar um modelo normal ponderado com
pesos apropriados. Fazer uma análise de diagnóstico e interpretar as
estimativas.

19. Considere o modelo de regressão linear múltipla

yi = x>
i β + i ,

iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre que SQRes(k) ≥ SQRes,
em que SQRes(k) = (y −Xβ̂ R )> (y −Xβ̂ R ) e SQRes = (y −Xβ̂)> (y −
Xβ̂) denotam, respectivamente, as somas de quadrados de resı́duos da
regressão ridge e da regressão de mı́nimos quadrados.
ind
20. Supor o modelo linear ponderado yi = α + βxi + i , em que i ∼
N(0, di σ 2 ), di > 0, para i = 1, . . . , n. Obter β̂ e ASQ(β = 0).

21. Considere os dados do arquivo Rateprof da biblioteca alr4 do R,


referentes a notas médias recebidas por 364 instrutores de uma uni-
versidade norte americana durante um perı́odo de 10 anos. O objetivo
do estudo é relacionar o interesse do avaliador (RaterInterest) (es-
core de 1 a 5) com as seguintes avaliações feitas pelo avaliador:

• Quality: qualidade das aulas do instrutor (escore de 1 a 5)


• Helpfulness: prestatividade do instrutor (escore de 1 a 5)
• Clarity: clareza das aulas do instrutor (escore de 1 a 5)
• Easiness: facilidade que o instrutor tem com a matéria (escore
de 1 a 5).

Inicialmente centralize as 5 variáveis através do comando


cvariavel = variavel - mean(variavel).
Fazer uma análise descritiva com os dados apresentando a matriz
de correlações lineares de Pearson e os diagramas de dispersão (com
tendência). Comente. Ajustar agora um modelo de regressão linear da
variável resposta centralizada contra as demais variáveis explicativas
centralizadas e passando pela origem. Use o comando
fit1 = lm(cresposta ∼ cv1 + cv2 + cv3 + cv4 -1).
Verifique se há indı́cios de multicolineridade através do VIF. Tente
contornar o problema através de componentes principais, considerando

119
apenas o 1o componente. Qual a explicação desse componente? Ex-
presse esse componente em função das 4 variáveis explicativas cen-
tralizadas. Fazer um ajuste da regressão linear da variável resposta
centralizada contra esse componente e passando pela origem. Inter-
prete o coeficiente estimado e apresente análises de diagnóstico.

22. Considere o arquivo oldfaith da biblioteca alr4 do R, em que a


duração (em segundos) da erupção da fonte termal “Old Faithful Gey-
ser”no lançamento de água e o intervalo (em minutos) até a próxima
erupção foram observados n = 270 vezes em 1980. O principal obje-
tivo do estudo é fazer predições para o intervalo até a próxima erupção
dado o tempo que durou a erupção anterior. Para disponibilizar e vi-
sualizar um resumo dos dados use na sequência os seguintes comandos
do R:
require(alr4)
attach(oldfaith)
summary(oldfaith).
Faça a transformação nDuration = Duration/100 e apresente os gráficos
de densidade e boxplot para a variável resposta bem como o dia-
grama de dispersão (com tendência usando df = 5) entre Interval e
nDuration. Tente identificar 1 ponto de mudança (por exemplo nDu-
ration=2.2) e proponha uma regressão por partes. Faça uma análise
de diagnóstico e apresente a banda de confiança de 95% para prever o
intervalo até a próxima erupção dado o tempo de duração da última
erupção.

23. No arquivo ginidh.txt constam o ı́ndice de GINI de 2013 e o IDH de


2017 dos 26 estados brasileiros mais o distrito federal. Construir inici-
almente o diagrama de dispersão entre GINI(X) e IDH(Y) e comente.
Ajustar através de uma regressão linear simples o IDH contra o ı́ndice
de GINI. Aplicar procedimentos de diagnóstico, análise de resı́duos e
distância de Cook e comente. Elimine a UF discrepante e reajuste o
modelo. Tente agora acomodar a UF discrepante através do seguinte
modelo:
yi = β1 + β2 xi + γzi + i ,
em que zi é uma variável explicativa com zeros e valor 1 na posição da
UF discrepante. Refazer a análise de resı́duos e a distância de Cook
para esse modelo e comente. Finalmente, aplicar para o modelo inicial

120
o procedimento de Huber para tentar acomodar a UF discrepante.
Compare os 4 ajustes e comente.

24. Na tabela abaixo tem-se a quantidade de água (em mm) na raiz e o


comprimento (em cm) de 15 tipos de feijoeiros. Propor valores inicias
e ajustar um modelo de crescimento logı́stico aos dados. Obter as
estimativas intervalares para os parâmetros e construir os gráficos de
resı́duos. Comente. Qual a quantidade de água necessária para o
feijoeiro alcançar metade do comprimento?

Comprimento 1,3 1,3 1,9 3,4 5,3 7,1 10,6 16,0


Água 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5
Comprimento 16,4 18,3 20,9 20,5 21,3 21,2 20,9
Água 8,5 9,5 10,5 11,5 12,5 13,5 14,5

25. A tabela abaixo descreve a evolução da população brasileira (em milhões)


através dos censos realizados desde 1872. Apresentar inicialmente o
gráfico de dispersão da evolução da população brasileira. Propor valo-
res inicias e ajustar um modelo de crescimento logı́stico, apresentar as
análises de resı́duos e comentar. Encontre uma estimativa intervalar
aproximada de 90% para o valor esperado do máximo a ser alcançado
pela população brasileira. Estime o valor esperado para a população
brasileria em 2030, apresentando uma estiamtiva intervalar aproxi-
mada de 95%.

Censo População Censo População Censo População


1872 9.930478 1890 14.333915 1900 17.438434
1920 30.635605 1940 41.236315 1950 51.944397
1960 70.191370 1970 93.139037 1980 119.002706
1991 146.825475 2000 169.779170 2010 190.755799
2022 203.062512

Referências
Atkinson AC (1981) Two graphical display for outlying and influential
observations in regression. Biometrika 68:13-20.

Atkinson AC (1985) Plots, Transformations and Regressions. Oxford Sta-


tistical Science Series, Oxford.

121
Belsley DA, Kuh E, Welsch RE (1980) Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity. John Wiley, New York.
Cook RD (1977) Detection of influential observations in linear regressions.
Technometrics 19:15-18.
Cook RD, Weisberg S (1982) Residuals and Influence in Regression. Chap-
man and Hall/CRC.
Dunkler D, Plischke M, Leffondré K, Heinze G (2014) Augmented backward
elimination: a pragmatic and purposeful way to develop statistical
models. Plos One 9(11):e113677.
Faraway JJ (2016) Extending the Linear Model with R. Generalized Li-
near, Mixed Effects and Nonparametric Regression Models, 2nd Edi-
tion. Chapman and Hall/CRC.
Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Re-
gression. Springer.
Fox J, Weisberg S (2019) An R Companion to Applied Regression, 3nd
Edition. Sage, Thousand Oaks, CA.
Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.
Lawless JF (1982) Statistical Models and Methods for Lifetime Data. Wiley.
Lindsey JK (1997) Applying Generalized Linear Models. Springer, New
York.
Hubert M, Vandervierin E (2008) An adjusted boxplot for skewed distri-
butions. Computational Statistics and Data Analysis 32:5186-5201.
Montgomery DC, Peck EA, Vining GG (2021) Introduction to Linear Re-
gression Analysis, 6th Edition. Wiley.
Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied Linear
Statistical Models, 4th Edition. WCB McGraw-Hill.
Rao CR (1973) Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ruppert D (2004) Statistical and Finance. Springer, New York.
Weisberg S (2014) Applied Linear Regression, Fourth Edition. Wiley.

122

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy