Texto MLGs
Texto MLGs
Gilberto A. Paula
Instituto de Matemática e Estatı́stica
Universidade de São Paulo
e-mail:giapaula@ime.usp.br
Prefácio
i
rencial básico e várias aplicações. O texto tem sido também utilizado nas dis-
ciplinas Análise de Dados Categorizados e Modelos de Regress~
ao II
ministradas aos alunos do Bacharelado em Estatı́stica do IME-USP.
No Capı́tulo 1 a classe dos modelos lineares generalizados (MLGs) é des-
crita juntamente com alguns conceitos básicos. Em seguida são discutidos
a estimação dos parâmetros, propriedades assintóticas dos estimadores de
máxima verossimilhança e a aplicação de alguns testes estatı́sticos mais co-
nhecidos. Uma revisão de métodos de diagnóstico é apresentada na sequência,
inicialmente fazendo-se uma sı́ntese para o modelo normal linear com ex-
tensões para a classe dos MLGs. Discute-se também a seleção de modelos e
sempre que possı́vel as metodologias são apresentadas em separado para os
modelos normais lineares e posteriormente estendidas para toda a classe dos
MLGs. O capı́tulo é concluı́do com a análise de 6 conjuntos de dados através
de MLGs apropriados.
O Capı́tulo 2 é dedicado aos modelos com resposta gama e resposta nor-
mal inversa para a análise de dados assimétricos positivos. Inicialmente
aborda-se os modelos com resposta gama sendo apresentados alguns resul-
tados inferenciais e técnicas de diagnóstico. Três conjuntos de dados são
analisados. Em seguida, alguns modelos usualmente aplicados em Econome-
tria são discutidos e um exemplo é apresentado. Em seguida são discutidos
modelos com resposta normal inversa, alguns resultados teóricos são apre-
sentados e 2 conjuntos de dados são analisados. No final do capı́tulo são
apresentados os MLGs duplos, em que a média e a dispersão são ajusta-
dos conjuntamente. Apresenta-se o processo de estimação conjunto, alguns
procedimentos de diagnóstico e um exemplo ilustrativo.
No Capı́tulo 3 discute-se modelos para a análise de dados binários, com
ênfase para os modelos logı́sticos lineares. Inicialmente uma revisão de pro-
cedimentos tradicionais para a análise de tabelas de contigência 2 × 2 é apre-
sentada. Duas aplicações são descritas nesta primeira parte do capı́tulo. Em
ii
seguida o modelo logı́stico linear é apresentado. Alguns procedimentos são
revisados, tais como seleção de modelos, análise de dados retrospectivos, qua-
lidade do ajuste e técnicas de diagnóstico. Quatro conjuntos de dados são
analisados. Discute-se no final do capı́tulo modelos de dose-resposta, sobre-
dispersão e modelos logı́sticos aplicados na análise de dados emparelhados e
mais quatro aplicações são apresentadas.
No Capı́tulo 4 são discutidos alguns modelos para a análise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresenta-se uma revisão de
metodologias tradicionais para a análise da tabelas de contingência do tipo
2 × 2 com dados de contagem. Uma aplicação é apresentada. Em seguida
discute-se modelos de Poisson para a análise de dados de seguimento e mode-
los log-lineares de Poisson. Dois exemplos são apresentados. Na sequência são
derivados modelos com resposta binomial negativa para a análise de dados
de contagem com sobredispersão. Um processo iterativo para a estimação
dos parâmetros, resultados assintóticos e metodologias de diagnóstico são
apresentados, bem como 3 aplicações. Modelos log-lineares com resposta
de Poisson são comparados com modelos log-lineares com resposta multino-
mial, sendo 2 conjuntos de dados analisados. Finalmente, uma breve resenha
dos modelos com excesso de zeros é apresentada, em particular, os modelos
ajustados em zero (modelos de fronteira) e os modelos inflacionados de zeros.
O Capı́tulo 5 é dedicado aos modelos de quase-verossimilhança e às equações
de estimação generalizadas. Inicia-se o capı́tulo com a introdução do con-
ceito de quase-verossimilhança. Em seguida são apresentados os modelos de
quase-verossimilhança para respostas independentes juntamente com o pro-
cesso de estimação, alguns resultados assintóticos e técnicas de diagnóstico.
Três aplicações são apresentadas. Na sequência deriva-se as equações de
estimação generalizadas para a análise de dados correlacionados não gaussi-
anos. Apresenta-se o processo de estimação, alguns resultados assintóticos
iii
e metodologias de diagnóstico. Esse subtópico é ilustrado com 3 aplicações.
No Apêndice A são descritos os conjuntos de dados usados nas aplicações e
nos exercı́cios propostos e no Apêndice B são descritos alguns códigos em R.
No final de cada capı́tulo são propostos exercı́cios teóricos e aplicados e ao
longo do texto são apresentados códigos e subrotinas em R, particularmente
na análise dos exemplos. Procura-se diversificar as aplicações com conjun-
tos de dados das diversas áreas do conhecimento, tais como Agricultura,
Biologia, Ciências Atuariais, Ciências Sociais, Economia, Engenharia, Geo-
grafia, Medicina, Nutrição, Pesca e Odontologia. Alguns conjuntos de dados
são oriundos de trabalhos desenvolvidos no Centro de Estatı́stica Aplicada
(CEA) do IME-USP. Página na Web onde estão disponı́veis informações sobre
este texto: http://www.ime.usp.br/∼giapaula/textoregressao.htm.
Finalizando, fica um agradecimento aos alunos que cursaram as discipli-
nas Modelos Lineares Generalizados e Tópicos de Regress~
ao e contri-
buiram com suas sugestões para o aprimoramento dos primeiros manuscritos.
iv
Sumário
Prefácio i
Sumário v
v
1.6.3 Distribuição assintótica . . . . . . . . . . . . . . . . . . 29
1.7 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.7.1 Hipóteses simples . . . . . . . . . . . . . . . . . . . . . 30
1.7.2 Modelos encaixados . . . . . . . . . . . . . . . . . . . . 33
1.7.3 Modelo de análise de variância . . . . . . . . . . . . . . 38
1.7.4 Regressão linear simples . . . . . . . . . . . . . . . . . 40
1.7.5 Hipóteses restritas . . . . . . . . . . . . . . . . . . . . 40
1.8 Bandas de confiança . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 42
1.8.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 42
1.9 Técnicas de diagnóstico modelo normal linear . . . . . . . . . 43
1.9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 44
1.9.3 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9.4 Outra interpretação para t∗i . . . . . . . . . . . . . . . 49
1.9.5 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.9.6 Ilustração . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.9.7 Influência local . . . . . . . . . . . . . . . . . . . . . . 55
1.9.8 Gráfico da variável adicionada . . . . . . . . . . . . . . 60
1.9.9 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 61
1.10 Técnicas de diagnóstico MLGs . . . . . . . . . . . . . . . . . . 64
1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 64
1.10.2 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.10.3 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.10.4 Influência local . . . . . . . . . . . . . . . . . . . . . . 72
1.10.5 Gráfico da variável adicionada . . . . . . . . . . . . . . 73
1.10.6 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 75
1.11 Seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . 76
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 76
vi
1.11.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 78
1.12 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 79
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 84
1.12.3 Sobrevivência de bactérias . . . . . . . . . . . . . . . . 87
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustı́vel . . . . . . . . . . . . . . . . . 93
1.12.6 Salário de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
vii
2.9.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 164
2.9.2 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 166
2.9.3 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
viii
3.7 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.8 Modelos de dose-resposta . . . . . . . . . . . . . . . . . . . . . 246
3.8.1 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 248
3.8.2 Estimação da dose letal . . . . . . . . . . . . . . . . . 254
3.8.3 Modelos de retas paralelas . . . . . . . . . . . . . . . . 256
3.9 Sobredispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 259
3.9.1 Caso I . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
3.9.2 Caso II . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
3.9.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 262
3.9.4 Teste de ausência de sobredispersão . . . . . . . . . . . 265
3.9.5 Modelo beta-binomial . . . . . . . . . . . . . . . . . . 266
3.9.6 Quase-verossimilhança . . . . . . . . . . . . . . . . . . 266
3.9.7 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 268
3.10 Modelo logı́stico condicional . . . . . . . . . . . . . . . . . . . 272
3.10.1 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 274
3.10.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 276
3.10.3 Emparelhamento 1:M . . . . . . . . . . . . . . . . . . . 278
3.11 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
ix
4.3.4 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 318
4.3.5 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 318
4.3.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 320
4.4 Modelos com resposta binomial negativa . . . . . . . . . . . . 324
4.4.1 Distribuição binomial negativa . . . . . . . . . . . . . . 324
4.4.2 Modelos de regressão com resposta binomial negativa . 326
4.4.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 330
4.4.4 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 331
4.4.5 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 332
4.4.6 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 333
4.4.7 Sobredispersão e quase-verossimilhança . . . . . . . . . 341
4.5 Relação entre a multinomial e a Poisson . . . . . . . . . . . . 346
4.5.1 Modelos log-lineares hierárquicos . . . . . . . . . . . . 349
4.5.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 351
4.6 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 356
4.6.1 Modelos ajustados em zero . . . . . . . . . . . . . . . . 356
4.6.2 Modelos de regressão ajustados em zero . . . . . . . . 358
4.6.3 Modelos inflacionados de zeros . . . . . . . . . . . . . . 359
4.6.4 Modelos de regressão inflacionados de zeros . . . . . . 361
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
x
5.2.6 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.2.7 Seleção de Modelos . . . . . . . . . . . . . . . . . . . . 381
5.2.8 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 391
5.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 394
5.4.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 397
5.4.2 Estruturas de correlação . . . . . . . . . . . . . . . . . 398
5.4.3 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 399
5.4.4 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 400
5.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
5.5.1 Ataques epilépticos . . . . . . . . . . . . . . . . . . . . 401
5.5.2 Condição Respiratória . . . . . . . . . . . . . . . . . . 408
5.5.3 Placas dentárias . . . . . . . . . . . . . . . . . . . . . . 412
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
Apêndice A 428
Apêndice B 438
Bibliografia 449
xi
Capı́tulo 1
Modelos Lineares
Generalizados
1.1 Introdução
Durante muitos anos os modelos normais lineares foram utilizados na ten-
tativa de descrever a maioria dos fenômenos aleatórios. Mesmo quando o
fenômeno sob estudo não apresentava uma resposta para a qual fosse razoável
a suposição de normalidade, algum tipo de transformação era sugerida a fim
de alcançar a normalidade procurada. Provavelmente a transformação mais
conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
y λ −1
se λ 6= 0
z= λ
logy se λ = 0,
sendo λ uma constante desconhecida. O objetivo da transformação de Box
e Cox, quando aplicada a um conjunto de valores observados, é produzir
aproximadamente a normalidade, a constância de variância e também a li-
nearidade E(Z) = η, em que η = β1 x1 + β2 x2 + · · · + βp xp . No entanto, isso
raramente ocorre para um único valor de λ (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na década de 70, alguns
1
modelos que exigiam a utilização de processos iterativos para a estimação
dos parâmetros começaram a ser mais aplicados, como por exemplo o mo-
delo normal não linear. Todavia, a proposta mais interessante e pode-se
dizer inovadora no assunto foi apresentada por Nelder e Wedderburn (1972),
que propuseram os modelos lineares generalizados (MLGs). A ideia básica
consiste em abrir o leque de opções para a distribuição da variável resposta,
permitindo que a mesma pertença á famı́lia exponencial linear de distri-
buições, bem como dar maior flexibilidade para a relação funcional entre a
média da variável resposta e o preditor linear η. Assim, por exemplo, para
√
dados de contagem, em vez de aplicar a transformação y no sentido de
buscar a normalidade dos dados e constância de variância, pode-se supor que
a distribuição de Y é Poisson e que a relação funcional entre a média de Y
e o preditor linear é dada por log(µ) = η. Essa relação funcional é conveni-
ente, uma vez que garante para quaisquer valores dos parâmetros do preditor
linear um valor positivo para µ. Similarmente, para proporções, pode-se pen-
sar na distribuição binomial para a resposta e numa relação funcional do tipo
log{µ/(1 − µ)}, em que 0 < µ < 1 denota a proporção esperada de sucessos.
Nelder e Wedderburn propuseram também um processo iterativo para a
estimação dos parâmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliação da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resı́duos e medidas de diagnóstico. Inúmeros
trabalhos relacionados com modelos lineares generalizados foram publica-
dos desde 1972 bem como a implementação dos MLGs em alguns softwa-
res. Neste texto as saı́das e gráficas foram desenvolvidos no software R
(http://CRAN.R-project.org).
Os modelos de quase-verossimilhança, que estendem a ideia dos MLGs
para situações mais gerais incluindo dados correlacionados, foram propos-
2
tos por Wedderburn (1974). Os modelos de dispersão (Jørgensen, 1983)
ampliam o leque de opções para a distribuição da variável resposta. Li-
ang e Zeger (1986) estendem os modelos de quase-verossimilhança propondo
as equações de estimação generalizadas (EEGs) que permitem o estudo de
variáveis aleatórias correlacionadas não gaussianas. Os modelos não linea-
res de famı́lia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem
preditor não linear nos parâmetros. Tem-se ainda os modelos aditivos gene-
ralizados (Hastie e Tibshirani, 1990; Green e Silverman, 1994; Wood, 2017)
que supõem preditor linear formado também por funções aditivas e parciais
aditivas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993
e McCulloch e Searle, 2001) que admitem a inclusão de efeitos aleatórios
gaussianos no preditor linear. Mais recentemente, Lee e Nelder (1996, 2001)
estenderam o trabalho de Breslow e Clayton propondo modelos lineares ge-
neralizados hierárquicos em que o preditor linear pode ser formado por efei-
tos fixos e efeitos aleatórios não gaussianos. Muitos desses resultados são
discutidos no livro de Lee et al. (2006). Extensões de MLGs para séries
temporais, análise de dados de sobrevivência, modelos de espaço de estado e
outros modelos multivariados são descritas, por exemplo, em Fahrmeir e Tutz
(2001). Os modelos aditivos generalizados de localização, escala e forma pro-
postos por Rigby e Stasinopoulos (2005) contemplam as diversas extensões
dos MLGs. Referências de texto no assunto são os livros de McCullagh e
Nelder (1989) e Cordeiro (1986).
Neste capı́tulo os modelos lineares generalizados são introduzidos junta-
mente com vários resultados relacionados com estimação, teste de hipóteses,
métodos de diagnóstico e seleção de modelos. Algumas aplicações são apre-
sentadas no final do capı́tulo, como também vários exercı́cios teóricos e
práticos.
3
1.2 Definição
Sejam Y1 , . . . , Yn variáveis aleatórias independentes, cada uma com função
densidade de probabilidade ou função de probabilidade na forma dada abaixo
4
em que ηi = x> >
i β é o preditor linear, β = (β1 , . . . , βp ) , p < n, é um vetor
Poisson
No caso de Y ∼ P(µ), a função de probabilidade fica dada por
Binomial
Seja Y ∗ a proporção de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrência µ. Denota-se nY ∗ ∼ B(n, µ). A função de
5
probabilidade de Y ∗ fica então expressa na forma
n ny ∗ n−ny ∗ n ∗ µ
µ (1−µ) = exp log + ny log + n log(1 − µ) ,
ny ∗ ny ∗ 1−µ
Gama
Seja Y uma variável aleatória com distribuição gama de média µ e coeficiente
1
de variação φ− 2 , denota-se Y ∼ G(µ, φ). A função densidade de probabili-
dade de Y é dada por
φ
1 φy φy
exp − d(logy) = exp[φ{(−y/µ) − log(µ)} − log(Γ(φ)) +
Γ(φ) µ µ
φlog(φy) − log(y)],
R∞
em que y > 0, φ > 0, µ > 0 e Γ(φ) = 0
tφ−1 e−t dt é a função gama. Logo,
fazendo θ = −1/µ, b(θ) = − log(−θ) e c(y; φ) = (φ − 1) log(y) + φ log(φ) −
log(Γ(φ)) obtém-se (1.1).
Para 0 < φ < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y → ∞. A exponencial é um caso especial quando
φ = 1. Para φ > 1 a função densidade assume zero na origem, tem um
máximo em y = µ − µ/φ e depois decresce para y → ∞. A χ2k é um outro
caso especial quando φ = k/2 e µ = k. A distribuição normal é obtida
fazendo φ → ∞. Isto é, quando φ é grande Y ∼ N(µ, φ−1 V (µ)). Tem-se que
φ = E2 (Y )/Var(Y ) é o inverso do coeficiente de variação de Y ao quadrado,
p
ou seja, φ = 1/(CV(Y ))2 , em que CV(Y ) = Var(Y)/E(Y ). A função de
variância da gama é dada por V (µ) = µ2 .
6
Normal inversa
Seja Y uma variável aleatória com distribuição normal inversa de média µ e
parâmetro de precisão φ, denotada por Y ∼ NI(µ, φ) e cuja função densidade
de probabilidade é dada por
s
φ(y − µ)2
φ y 1 1 3 φ
exp − = exp φ − 2 + − log(2πy /φ) + ,
2πy 3 2µ2 y 2µ µ 2 y
Tabela 1.1
Principais distribuições pertencentes à famı́lia exponencial linear.
Distribuição b(θ) θ φ V (µ)
2 −2
Normal θ /2 µ σ 1
θ
Poisson e log(µ) 1 µ
Binomial log(1 + eθ ) log{µ/(1 − µ)} n µ(1 − µ)
Gama − log(−θ)
√ −1/µ 1/(CV(Y ))2 µ2
N.Inversa − −2θ −1/2µ2 φ µ3
7
L(β) fica dado por
n p p n
X X X X
L(β) = φ{yi xij βj − b( xij βj )} + c(yi , φ).
i=1 j=1 j=1 i=1
Pn
Definindo a estatı́stica Sj = φ i=1 Yi xij , L(β) fica então reexpresso na forma
p n p n
X X X X
L(β) = sj βj − φ b( xij βj ) + c(yi , φ).
j=1 i=1 j=1 i=1
8
em que Φ(·) é a função de distribuição acumulada da normal padrão.
F (y) = 1 − exp{−exp(y)}.
1.0
Logistica
V.Extremo
0.8
0.6
F(y)
0.4
0.2
0.0
-3 -2 -1 0 1 2 3
9
O modelo binomial com ligação complemento log-log é definido tal que
µ = 1 − exp{−exp(η)},
ou, equivalentemente,
log{−log(1 − µ)} = η.
Ligação de Box-Cox
Uma classe importante de ligações, pelo menos para observações positivas, é
a classe de ligações de Box-Cox definida por
η = (µλ − 1)/λ,
10
30
λ = 0.3
25
λ = 0.5
λ = 0.8
20
15
µ
10
5
0
−2 0 2 4 6
η
Ligação de Aranda-Ordaz
Uma outra transformação importante foi proposta por Aranda-Ordaz (1981)
para dados binários. A transformação é dada por
(1 − µ)−α − 1
η = log ,
α
em que 0 < µ < 1 e α é uma constante desconhecida. Quando α = 1 tem-se a
ligação logito η = log{µ/(1−µ)}. Quando α → 0 tem-se {(1−µ)−α −1}/α →
11
1.0
α = 0.5
α=1
0.8
α=2
0.6
µ
0.4
0.2
−2 −1 0 1 2 3
η
12
tem-se um resumo dos resultados do ajuste.
13
(p = n), respectivamente, tem-se que a função D(y; µ̂) (não escalonada por
φ) fica, alternativamente, dada por
n
X
D(y; µ̂) = 2 {yi (θ̃i − θ̂i ) + (b(θ̂i ) − b(θ̃i ))}.
i=1
Normal
Aqui θi = µi , logo θ̃i = yi e θ̂i = µ̂i . O desvio fica portanto dado por
n
X n
X
D(y; µ̂) = 2 {yi (yi − µ̂i ) + µ̂2i /2 − yi2 /2} = (yi − µ̂i )2 ,
i=1 i=1
Poisson
Neste caso tem-se θi = log(µi ), o que implica em θ̃i = log(yi ) para yi > 0 e
θ̂i = log(µ̂i ). Assim,
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1
14
Binomial
No caso binomial em que Yi ∼ B(ni , µi ), i = 1, . . . , k, obtém-se θ̃i = log{yi /(ni −
yi )} e θ̂i = log{µ̂i /(1 − µ̂i )} para 0 < yi < ni . Logo, o desvio assume a se-
guinte forma:
k
X
D(y; µ̂) = 2 [yi log(yi /ni µ̂i ) + (ni − yi )log{(1 − yi /ni )/(1 − µ̂i )}].
i=1
Gama
No caso gama, θ̃i = −1/yi e θ̂i = −1/µ̂i . Assim, segue que o desvio (quando
todos os valores são positivos) pode ser expresso na forma
n
X
D(y; µ̂) = 2 {−log(yi /µ̂i ) + (yi − µ̂i )/µ̂i }.
i=1
em que C(y) é uma função arbitrária, porém limitada. Pode-se, por exemplo,
usar C(y) = ni=1 yi /(1 + yi ).
P
15
Normal inversa
Para este caso θ̃i = −1/2yi2 e θ̂i = −1/2µ̂2i . A função desvio fica então dada
por
n
X
D(y; µ̂) = (yi − µ̂i )2 /(yi µ̂2i ).
i=1
1.4.1 Medida R2
Na regressão normal linear, como é bem conhecido, uma medida de qualidade
do ajuste é dada pelo coeficiente de determinação, definido por
Pn
2 SQRes (yi − ŷi )2
R =1− = 1 − Pi=1
n 2
,
SQT i=1 (yi − ȳ)
16
2
R2 = 1 − {L(ȳ; y)/L(µ̂; y)} n . A ideia aqui é subtrair de 1 a n-ésima raiz
de duas vezes a razão entre o menor valor e o valor ajustado do logaritmo
da função de verossimilhança. Como essa quantidade em geral não alcança
o valor 1, Nagelkerke, Cragg e Uhler propõem uma correção R2 = [1 −
2 2
{L(ȳ; y)/L(µ̂; y)} n ]/[1−L(ȳ; y) n ]. Esss duas quantidades podem ser obtidas
na biblioteca GAMLSS do R (ver, por exemplo, Stasinopoulos et al., 2017)
através dos comandos
require(gamlss)
ajuste = gamlss(resp ∼ cov1 + cov2, family=PO)
Rsq(ajuste, type="both").
Isto é, quando a dispersão é pequena, fica razoável comparar os valores ob-
servados de D∗ (y; µ̂) com os quantis da χ2n−p . Em particular, para o caso
17
Pn
normal linear, o resultado acima diz que i=1 (yi − µ̂i )2 /σ 2 ∼ χ2n−p quando
σ 2 → 0. No caso do modelo gama, o desvio estará bem aproximado por uma
qui-quadrado com n − p graus de liberdade à medida que o coeficiente de
variação ficar próximo de zero.
isto é, a diferença entre dois desvios. Como é conhecido, sob a hipótese nula,
ξRV ∼ χ2q quando n → ∞. De forma similar, pode-se definir a estatı́stica
{D(y; µ̂0 ) − D(y; µ̂)}/q
F= , (1.4)
D(y; µ̂)/(n − p)
cuja distribuição nula assintótica é uma Fq,(n−p) quando o denominador de
(1.4) é uma estimativa consistente de φ−1 (ver, por exemplo, Jørgensen,
1987). A vantagem em utilizar (1.4) em relação a (1.3) é que a estatı́stica F
não depende do parâmetro de dispersão. O resultado (1.4) também é verifi-
cado quando φ → ∞ e n é arbitrário. Quando φ é desconhecido a estatı́stica
do teste da razão de verossimilhanças assume uma expressão diferente de
(1.3). A estatı́stica F acima fica, no caso normal linear, reduzida à forma
conhecida dada abaixo
Pn Pn
i=1 (yi − µ̂0i )2 − i=1 (yi − µ̂i )2
F= ,
qs2
18
Pn
em que s2 = 2
i=1 (yi − µ̂i ) /(n − p) é o erro quadrático médio do modelo com
p parâmetros. A forma da estatı́stica F dada em (1.4) pode ser obtida, em
particular, quando tem-se uma hipótese de igualdades lineares num modelo
de regressão normal linear. Como ilustração, supor o modelo
y = Xβ + Wγ + ,
H0 : Cθ = 0 contra H1 : Cθ 6= 0,
em que θ̂ = (Z> Z)−1 Z> y e Z = (X, W). A estatı́stica F para testar H0 fica
então dada por
ASQ(Cθ = 0)/k
F= ,
D(y; µ̂)/(n − p − q)
em que D(y; µ̂) é o desvio do modelo completo com p + q parâmetros e
ASQ(Cθ = 0) = D(y; µ̂0 ) − D(y; µ̂), com D(y; µ̂0 ) sendo o desvio do modelo
sob H0 . Portanto, F assume a forma
{D(y; µ̂0 ) − D(y; µ̂)}/k
F= ,
D(y; µ̂)/(n − p − q)
e segue, sob H0 , uma distribuição Fk,(n−p−q) . No caso de testar H0 : γ = 0
contra H1 : γ 6= 0, a matriz C tem dimensão q × (p + q) com a i-ésima
linha tendo o valor 1 na posição p + i e zeros nas demais posições. Essa
formulação pode também ser aplicada quando há interesse na inclusão de
novas covariáveis num modelo de regressão normal linear.
19
Tabela 1.2
Análise do desvio (ANODEV) supondo dois fatores na parte sistemática.
Modelo Desvio Diferença G.L. Testando
Constante D0
D0 − DA n(A) − 1 A ignorando B
D0 − DB n(B) − 1 B ignorando A
+A DA
DA − DA+B n(B) − 1 B|A ignorando AB
+B DB
DB − DA+B n(A) − 1 A|B ignorando AB
+A+B DA+B
DA+B − DAB {n(A) − 1}× AB|A + B
{n(B) − 1}
+A+B+AB DAB
20
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os três fatores.
Como aplicação do ANODEV, considere o exemplo descrito na Seção 1.12.2
em que um modelo logı́stico com resposta Bernoulli é ajustado para explicar a
ocorrência de câncer de pulmão numa amostra de 175 pacientes com processo
infeccioso pulmonar, em que foram observadas as variáveis explicativas SEXO
e IDADE e a intensidade das células HF e FF. A parte sistemática do modelo
é representada abaixo
Tabela 1.3
Análise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo Desvio Diferença G.L. Testando
Constante 236,34 - - -
21
1.3, pode-se aplicar o comando pchisq(dv,q) do R. Por exemplo, para cal-
cular o nı́vel descritivo referente ao efeito do fator SEXO, aplica-se
1 - pchisq(1.14,1)
obtendo-se P = 0, 285. Similarmente, para testar a inclusão de FF dado que
já temos no modelo 1+SEXO+IDADE+HL, aplica-se
1 - pchisq(5.15,3)
e obtém-se P = 0, 1611, indicando que o fator FF é não significativo a 10%.
22
A matriz de informação de Fisher para o parâmetro β é obtida derivando-
se novamente L(θ) com relação aos coeficientes
n 2
d2 θi
2
X dµi
∂ L(θ)/∂βj ∂β` = φ (yi − µi ) 2 xij xi`
i=1
dµi dηi
n
X dθi d2 µi
+φ (yi − µi ) x x
2 ij i`
i=1
dµ i dηi
n 2
X dθi dµi
−φ xij xi` ,
i=1
dµ i dη i
23
1.5.2 Escore e Fisher para φ
A função escore para o parâmetro φ fica dada por
∂L(θ)
Uφ (θ) =
∂φ
Xn n
X
= {yi θi − b(θi )} + c0 (yi ; φ),
i=1 i=1
1.5.3 Ortogonalidade
Pn p
Tem-se que ∂ 2 L(θ)/∂β∂φ = i=1 ωi Vi−1 (yi − µi )xi . Portanto, verificamos
facilmente que β e φ são ortogonais, isto é, Kβφ (θ) = E[−∂ 2 L(θ)/∂β∂φ] = 0.
Logo, segue que a matriz de informação de Fisher para θ é bloco diagonal
sendo dada por Kθθ = diag{Kββ , Kφφ }. A função escore para θ fica dada
por Uθ = (U> >
β , Uφ ) . A seguir são discutidos alguns casos particulares.
24
como é conhecido. Segue ainda o resultado
n n
µ2i
X X
Uφ = yi µi − + c0 (yi ; φ),
i=1
2 i=1
em que c0 (yi ; φ) = 1/2φ − yi2 /2. Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
Kφφ = − ni=1 E{c00 (Yi ; φ)} = n/2φ2 .
P
Poisson
Aqui a função de variância é dada por V (µ) = µ. Logo, ω = µ(dθ/dη)2 .
Para ligação canônica (log(µ) = η) os pesos são as próprias médias, isto é
√
ω = µ. Em particular, para ligação raiz quadrada ( µ = η), obtém-se ω = 4.
1
Assim, Uβ = X> V− 2 (y − µ) e Kββ = X> X.
Binomial
No caso binomial, a função de variância é definida por V (µ) = µ(1 − µ), em
que 0 < µ < 1. Portanto, segue que ω = µ(1 − µ)(dθ/dη)2 . Por convenção é
assumido que ω = nµ(1 − µ)(dθ/dη)2 e φ = 1. No caso de ligação canônica
(log{µ/(1 − µ)} = η) os pesos são as variâncias das binomiais, isto é ω =
nµ(1 − µ). As matrizes Uβ e Kββ ficam nesse caso dadas por
Gama
Para o caso gama V (µ) = µ2 . Logo, ω = µ2 (dθ/dη)2 . Em particular, para
um modelo log-linear (log(µ) = η), obtém-se dµ/dη = µ, o que implica em
ω = 1. Assim, Uβ = φX> V−1/2 (y − µ) e Kββ = φX> X, similarmente ao
25
caso normal. Para ligação canônica, ω = µ2 . A função escore para φ fica
dada por
n Xn
X yi
Uφ = − + log(µi ) + c0 (yi ; φ),
i=1
µi i=1
Normal inversa
Neste caso a função de variância é dada por V (µ) = µ3 . Assim, ω =
µ3 (dθ/dη)2 . Pode ser muito razoável aplicar aqui um modelo log-linear, uma
vez que as respostas são sempre positivas. No entanto, diferente dos modelos
log-lineares com resposta de Poisson, os pesos aqui são inversamente pro-
porcionais às médias, isto é ω = µ−1 . Em particular para ligação canônica,
ω = µ3 , e portanto Uβ = φX> (y − µ) e Kββ = φX> VX. Tem-se ainda o
resultado n n
X 1 yi X
Uφ = − 2 + c0 (yi ; φ),
i=1
µi 2µi i=1
em que c (yi ; φ) = 1/2φ − 1/2yi . Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
0
26
torno de um valor inicial β (0) , tal que
0 (0)
Uβ ∼
(0)
= Uβ + Uβ (β − β (0) ),
27
Observa-se que o lado direito de (1.5) não depende de φ. Portanto, para
obter β̂ não é preciso conhecer φ.
1.6.2 Estimação de φ
Igualando a função escore Uφ a zero chega-se à seguinte solução:
n n
X
0 1 X
c (yi ; φ̂) = D(y; µ̂) − {yi θ̃i − b(θ̃i )},
i=1
2 i=1
em que D(y; µ̂) denota o desvio do modelo sob investigação. Verifica-se que
a estimativa de máxima verossimilhança para φ nos casos normal e normal
inversa, igualando Uφ a zero, é dada por
n
φ̂ = .
D(y; µ̂)
Para o caso gama, a estimativa de máxima verossimilhança de φ sai da
equação
2n{logφ̂ − ψ(φ̂)} = D(y; µ̂).
A equação acima pode ser resolvida diretamente pelo R através da biblioteca
MASS (Venables e Ripley, 1999). Como ilustração, supor que os resultados do
ajuste sejam guardados em fit.model. Então, para encontrar a estimativa
de máxima verossimilhança de φ com o respectivo erro padrão aproximado
deve-se aplicar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para φ (de momentos) que não envolve
processo iterativo é baseado na estatı́stica de Pearson, sendo dado por
(n − p)
φ̂ = Pn (y −µ̂ )2 .
i=1 { V (µ̂i ) }
i i
28
1.6.3 Distribuição assintótica
Para mostrar que β̂ e φ̂ são assintoticamente normais e independentes, con-
sidere os resultados abaixo
q n
X
−1
Uiβ = φ ωi Vi (yi − µi )xi e Uφ = Uiφ ,
i=1
com Uiφ = {yi θi − b(θi )} + c0 (yi ; φ). Portanto, para n grande, segue pelo
Teorema Central do Limite que Uθ ∼ Np+1 (0, Kθθ ). Em particular, assinto-
ticamente Uβ ∼ Np (0, Kββ ) e Uφ ∼ N(0, Kφφ ) e Uβ e Uφ são independentes.
Expandindo Uθ̂ em série de Taylor em torno de θ obtém-se
Uθ̂ ∼
= Uθ + U0θ (θ̂ − θ),
em que U0θ = ∂Uθ /∂θ > . Assim, como θ̂ é o estimador de máxima verossimi-
lhança de θ tem-se que Uθ̂ = 0 e daı́ segue a relação
θ̂ ∼
= θ + (−U0θ )−1 Uθ .
29
1.7 Teste de hipóteses
1.7.1 Hipóteses simples
Buse (1982) apresenta de uma forma bastante didática a interpretação geométrica
dos testes da razão de verossimilhanças, escore e Wald para o caso de hipóteses
simples. A seguir são apresentadas as generalizações para os MLGs. Supor,
inicialmente, a seguinte situação de hipóteses simples:
H0 : β = β 0 contra H1 : β 6= β 0 ,
Essa estatı́stica pode também ser expressa, para os MLGs, como a diferença
entre duas funções desvio
Teste de Wald
O teste de Wald é definido, nesse caso, por
30
em que V̂ar(β̂) denota a matriz de variância-covariância assintótica de β̂
estimada em β̂. Para os MLGs, V̂ar(β̂) = K−1 (β̂). Assim, a estatı́stica de
Wald fica reexpressa na forma
Teste de escore
O teste de escore, também conhecido como teste de Rao, é definido quando
Uβ (β̂) = 0 por
ξSR = Uβ (β 0 )> V̂ar0 (β̂)Uβ (β 0 ),
em que V̂ar0 (β̂) denota que a variância assintótica de β̂ está sendo estimada
sob H0 . Para os MLGs tem-se que
31
que a estatı́stica de escore fica expressa na forma
Teste F
A estatı́stica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipóteses simples:
32
das estatı́sticas invariantes. Em particular, se a estatı́stica da razão de ve-
rossimilhanças for escolhida, a região assintótica fica dada por
e
[β; 2{L(β̂) − L(β, β̂ 2 (β))} ≤ χ2q (1 − α)],
33
ajustar o modelo e armazenar os resultados em fit1.poisson deve-se aplicar
o comando
fit1.poisson = glm(resp ∼ cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso é muito utilizado em estudos de seguimento em que cada
indivı́duo é observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustração, supor um MLG com distribuição normal inversa, ligação
canônica e preditor linear dado por η = β1 + β2 cov2 + β3 cov3 e que o interesse
é testar H0 : β2 = b, em que b é uma constante diferente de zero, contra
H1 : β2 6= b. Os ajustes correspondentes a H0 e H1 são, respectivamente,
dados por
fit1.ni = glm(resp ∼ cov3 + offset(b*cov2),
family=inverse.gaussian)
fit2.ni = glm(resp ∼ cov2+cov3, family=inverse.gaussian).
Logo, de (1.4), a estatı́stica F para testar H0 : β2 = b contra H1 : β2 6= b fica
dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm(resp ∼ cov3, family=inverse.gaussian).
Teste de Wald
Para testar H0 , a estatı́stica de Wald fica expressa na forma
34
> >
em que β̂ 1 sai do vetor β̂ = (β̂ 1 , β̂ 2 )> . Usando resultados conhecidos de
álgebra linear, mostra-se que a variância assintótica de β̂ 1 é dada por
1 1
Var(β̂ 1 ) = φ−1 [X> −1
1 W M 2 W X1 ] ,
2 2
Teste de escore
1 1
A função escore pode ser expressa na forma Uβ = φ 2 X> W 2 rP , em que
1 1
rP = φ 2 V− 2 (y − µ) é conhecido como resı́duo de Pearson. Observe que rP
tem a mesma distribuição de Y, no entanto, E(rP ) = 0 e Var(rP ) = In . O
teste de escore é definido por
0 0
ξSR = Uβ1 (β̂ )> V̂ar0 (β̂ 1 )Uβ1 (β̂ ),
1 1 0 0>
em que Uβ1 (β) = ∂L(β)/∂β 1 = φX>
1W V
2
−2
(y − µ), β̂ = (β 0> >
1 , β̂ 2 ) e
0
β̂ 2 é a estimativa de máxima verossimilhança de β 2 sob o modelo com parte
sistemática η = η̂ 01 + η 2 , isto é, sob H0 , em que η̂ 01 = X1 β 01 e η 2 = X2 β 2 .
Trabalhando um pouco mais a expressão para Var(β̂ 1 ), chega-se ao seguinte
resultado:
Var(β̂ 1 ) = φ−1 (R> WR)−1 ,
35
aos resı́duos ordinários da regressão linear (com pesos W) da j-ésima coluna
de X1 sobre X2 . Assim, o teste de escore fica reexpresso na forma (vide
Cordeiro, et al., 1993)
1 1
ξSR = r̂> > −1 >
P0 Ŵ0 X1 (R̂0 Ŵ0 R̂0 ) X1 Ŵ0 r̂P0 ,
2 2
0
com as quantidades r̂P0 , Ŵ0 e R̂0 sendo avaliadas em β̂ .
Para ilustrar o cálculo da estatı́stica de escore, supor um MLG com pre-
ditor linear dado por η = β1 + β2 cov2 + β3 cov3 + β4 cov4 e que o interesse
é testar H0 : β3 = β4 = 0. As matrizes X1 e X2 serão então dadas por
X1 = [cov3 , cov4 ] e X2 = [1 , cov2 ]. Para um modelo de Poisson, por exem-
plo com ligação canônica, tem-se que ω = µ. Logo, Ŵ0 = diag{µ̂01 , . . . , µ̂0n },
em que µ̂01 , . . . , µ̂0n são os pesos sob H0 , ou seja, os pesos do modelo ajustado
de Poisson com preditor linear η = β1 + β2 cov2 . Portanto, é preciso apenas
fazer esse ajuste e computar Ŵ0 , R̂0 , r̂P0 e finalmente ξSR . Chamando no R
os pesos por w, Ŵ0 por W, r̂P0 por rp e R̂0 por R, os passos para o cálculo de
ξSR são dados abaixo
X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm(resp ∼ cov2, family=poisson)
rp = resid(fit.poisson, type=‘‘pearson’’)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C
36
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.
(y − µ)/σ. Logo, ξSR = σ −2 (y − µ̂0 )> X1 (R> R)−1 X1 >(y − µ̂0 ), em que
R = X1 − X2 (X> −1 >
2 X2 ) X2 X1 = (In − H2 )X1 . Aqui, também as estatı́sticas
φ desconhecido
No caso de φ ser desconhecido e o interesse for testar H0 : β 1 = β 01 contra
H1 : β 1 6= β 01 , as estatı́sticas ξRV , ξSR e ξW assumem formas diferentes
daquelas apresentadas para o caso de φ ser conhecido. Em particular, denote
por φ̂0 e φ̂ as estimativas de máxima verossimilhança de φ sob H0 e H1 ,
respectivamente. Para facilitar a notação da estatı́stica ξRV usa-se o resultado
c(y, φ) = d(φ) + φa(y) + u(y) válido para algumas distribuições da famı́lia
exponencial dada em (1.1) (por exemplo normal, gama e normal inversa), em
37
que a(·), d(·) e u(·) são funções diferenciáveis. Assim, a estatı́stica da razão
de verossimilhanças fica expressa na forma
φ log(φ) − log{Γ(φ)}. A estatı́stica de Wald fica, por sua vez, dada por
−1
ξW = [β̂ 1 − β 01 ]> V̂ar (β̂ 1 )[β̂ 1 − β 01 ]
= φ̂[β̂ 1 − β 01 ]> (R̂> ŴR̂)[β̂ 1 − β 01 ].
q
0 0>
em que r̂P0 = φ̂0 V̂0−1 (y − µ̂0 ) e θ̂ = (β̂ , φ̂0 )> é a estimativa de máxima
verossimilhança de θ sob H0 . As três estatı́sticas seguem assintoticamente e
sob H0 distribuição χ2q .
38
C = ω2 /(ω1 + ω2 ) e consequentemente
mω1 ω2
R> WR = ,
(ω1 + ω2 )
em que ω1 e ω2 são os pesos correspondentes aos dois grupos. A estatı́stica
de escore fica então dada por
m
!2
2 X 0
ξSR = r̂ ,
m j=1 P2j
Tabela 1.4
Expressões para as estatı́sticas de escore e de Wald.
Distribuição ξSR ξW
m 2 m 2
Normal (ȳ − ȳ2 )
2σ 2 1 2σ 2
β̂
m mȳ1 ȳ2 2
Poisson (ȳ
2ȳ 1
− ȳ2 )2 (ȳ1 +ȳ2 )
β̂
φm φm(ȳ1 ȳ2 )2 2
Gama (ȳ
2ȳ 2 1
− ȳ2 )2 (ȳ12 +ȳ22 )
β̂
φm φm(ȳ1 ȳ2 )3 2
Normal inversa (ȳ
2ȳ 3 1
− ȳ2 )2 (ȳ13 +ȳ23 )
β̂
1
no caso binomial tomar ȳi = yi /m e V (ȳ) = ȳ(1 − ȳ)
39
Similarmente, pode-se mostrar que a estatı́stica de Wald fica dada por
φmω̂1 ω̂2 2
ξW = β̂ , (1.7)
(ω̂1 + ω̂2 )
g(µi ) = α + βxi , i = 1, . . . , n,
40
que C é uma matriz k × p de posto linha completo e k ≤ p. A estimativa de
máxima verossimilhança sob a hipótese alternativa coincide com a estimativa
de máxima verossimilhança irrestrita β̂. No entanto, obter a estimativa de
máxima verossimilhança sob H0 pode ser mais complexo, requerendo o uso de
algum procedimento iterativo. Nyquist (1991) propõe um processo iterativo
para a obtenção da estimativa de máxima verossimilhança em MLGs com
parâmetros restritos na forma Cβ = 0. O processo iterativo é dado abaixo
(m+1) (m+1)
β (m+1)
c = β̃ − (X> W(m) X)−1 C> {C(X> W(m) X)−1 C> }−1 Cβ̃ ,
(m+1)
m = 0, 1, . . ., em que β̃ é (1.5) avaliado na estimativa restrita β (m)
c . A
Var(β̂ c ) = φ−1 (X> WX)−1 [In − C> {C(X> WX)−1 C> }−1 C(X> WX)−1 ].
41
H0 : Cβ = 0 contra H1 − H0 , em que H1 : Cβ ≥ 0, é uma mistura de
distribuições do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs.
42
1 − α para µ(z), dada por
p 1
g −1 [z> β̂ ± φ−1 cα {z> (X> WX)−1 z} 2 ] ∀z ∈ IRp .
43
1.9.2 Pontos de alavanca
O resı́duo para a i-ésima observação pode ser definido como uma função do
tipo ri = r(yi , µ̂i ) que procura medir a discrepância entre o valor observado e
o valor ajustado da i-ésima observação. O sinal de ri indica a direção dessa
discrepância. A definição mais usual de resı́duo é dada por ri = yi − µ̂i
(resı́duo ordinário), todavia há outras formas de definir resı́duo que serão
discutidos mais adiante. O vetor de resı́duos ordinários é definido por r =
(r1 , . . . , rn )> . Logo, da regressão normal linear segue que r = y − µ̂ =
y − Hy = (In − H)y, em que H = X(X> X)−1 X> é a matriz de projeção
ortogonal de vetores do Rn no subespaço gerado pelas colunas da matriz X.
A matriz H é simétrica e idempotente e é conhecida como matriz hat,
uma vez que faz µ̂ = Hy. Por ser idempotente, tem-se que posto(H) =
Pn > > −1
tr(H) = i=1 hii = p. O elemento hii = xi (X X) xi desempenha um
44
ou seja, hii corresponde à variação em ŷi quando yi é acrescido de um infi-
nitésimo.
Supondo que todos os pontos exerçam a mesma influência sobre os valores
tr(H)
ajustados, pode-se esperar que hii esteja próximo de n
= np . Convém então
examinar, por exemplo, aqueles pontos tais que hii ≥ 2pn
, que são conhecidos
como pontos de alavanca ou de alto leverage e geralmente estão localizados
em regiões remotas no subespaço gerado pelas colunas da matriz X. Esses
pontos podem ser também informativos com relação a β̂.
Uma outra maneira de entender hii é construindo a matriz Jacobiana de
alavancas (ver, por exemplo, St. Laurent e Cook, 1993) quando a i-ésima
observação é perturbada de modo que o novo valor observado seja dado por
yi (b) = yi + b, em que b é uma constante real. O novo vetor de valores
ajustados fica dado por
45
cov2 e que os resultados do ajuste são armazenadas em fit.model. Esse
modelo pode ser ajustado de duas formas
fit.model = lm(resp ∼ A + B + cov1 + cov2)
ou, alternativamente, como um MLG
fit.model = glm(resp ∼ A + B + cov1 + cov2,
family=gaussian).
É claro que a primeira maneira é mais simples. Para gerar a matriz modelo
(incluindo a constante) deve-se considerar
X = model.matrix(∼ A + B + cov1 + cov2).
Assim, tem-se em X a matriz modelo correspondente. O cálculo da matriz
de projeção H pode ser feito seguindo os passos descritos abaixo
H = X% ∗ %solve(t(X)% ∗ %X)% ∗ %t(X).
Logo, pode-se obter hii extraindo os elementos da diagonal principal de H
h = diag(H).
Outras maneiras mais ágeis de extrair os elementos h0ii s de uma regressão
linear são através dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construir um gráfico de ı́ndices para hii , a fim de detectar pontos de
alavanca, deve-se usar o comando
plot(h, xlab=‘‘Índice’’, ylab= ‘‘Alavanca’’).
1.9.3 Resı́duos
Dos resultados descritos na seção anterior segue que E(r) = (In −H)E(Y) = 0
e Var(r) = σ 2 (In − H). Isto é, ri tem distribuição normal de média zero e
variância Var(ri ) = σ 2 (1 − hii ). Além disso, a covariância entre ri e rj , i 6= j,
fica dada por Cov(ri , rj ) = −σ 2 hij .
46
Como os ri0 s têm variâncias diferentes, é conveniente expressá-los em
forma padronizada a fim de ser possı́vel uma comparação entre os mesmos.
Uma definição natural seria dividir ri pelo respectivo desvio padrão. Obtém-
se assim o resı́duo studentizado
ri
ti = p , i = 1, . . . , n,
s(1 − hii )
Pn
em que s2 = 2
i=1 ri /(n − p).
No entanto, como ri não é independente de s2 , ti não segue uma dis-
tribuição t de Student como se poderia esperar. Cook e Weisberg (1982)
1
mostram que t2i /(n − p) segue uma distribuição beta com parâmetros 2
e
(n − p − 1)/2. Logo, tem-se que E(ti ) = 0, Var(ti ) = 1 e Cov(ti , tj ) =
p
−hij / (1 − hii )(1 − hjj ), i < j. O problema da dependência entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrático médio cor-
respondente ao modelo sem a i-ésima observação. O ı́ndice (i) indica que a
i-ésima observação foi excluı́da. Mostra-se que
47
segue uma distribuição tn−p−1 . Se ainda (1.11) fou substituı́do na expressão
acima mostra-se que t∗i é uma transformação monótona de ti ,
12
n−p−1
t∗i = ti .
n − p − t2i
O resı́duo ti pode ser calculado pela sequência de comandos
lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/s*sqrt(1-h).
Logo, o resı́duo t∗i fica dado por
tsi = ti*sqrt((n-p-1)/(n-p-ti2 )).
Deve-se substituir n e p pelos respectivos valores numéricos.
Várias quantidades do modelo linear normal ajustado podem ser obtidas
diretamente no R através do uso de algumas funções apropriadas, as quais
são úteis na aplicação das técnicas de diagnóstico. Há um resumo na Tabela
1.5 de alguns casos.
Tabela 1.5
Quantidades úteis para diagnóstico obtidas no R.
Sı́mbolo Descrição Função Elemento
h Alavanca lm.influence() hat
β̂ Coeficientes coef()
r Resı́duos resid()
s Desvio padrão summary() sigma
amostral
s(i) Desvio padrão lm.influence() sigma
sem observação i
β̂ (i) Coeficiente sem lm.influence() coef
observação i
(X> X)−1 Covariância de β̂ summary() cov.unscaled
2
sem s
48
Como ilustração, supor um ajuste com resultados no objeto fit.model
e que o interesse é obter a estimativa do desvio padrão da variável res-
posta Yi sem considerar a i-ésima observação. Aplicando em R a função
lm.influence(fit.model)$sigma obtém-se um vetor de dimensão n com
todas as estimativas do desvio padrão de Yi excluindo cada observação cor-
respondente. Como é mostrado a seguir o resı́duo t∗i pode ser interpretado
como uma estatı́stica para avaliar se a i-ésima observação é aberrante.
0
em que γ̂ = ri (1 − hii )−1 e ri = yi − x>
i β̂. Assim, uma vez que D(y; µ̂ ) =
49
Portanto, valores altos para |t∗i | indicam, significativamente, que o i-ésimo
ponto é aberrante.
1.9.5 Influência
Supor φ conhecido. Então, o logaritmo da função de verossimilhança fica
agora expresso na forma
n
X
Lδ (β) = δj Lj (β), (1.13)
j=1
(1 − δ)ri
β̂ δ = β̂ − (X> X)−1 xi . (1.14)
{1 − (1 − δ)hii }
Para δ = 0, significa que o i-ésimo ponto foi excluı́do, então (1.14) fica
expressa na forma simplificada
ri
β̂ (i) = β̂ − (X> X)−1 xi , (1.15)
(1 − hii )
que é bastante conhecida da regressão normal linear (ver, por exemplo, Cook
e Weisberg, 1982).
50
A medida de influência mais conhecida é baseada na região de confiança
de coeficiente (1 − α) para o parâmetro β,
51
compensação por parte de hii , Di pode ficar pequeno. Uma medida mais
apropriada foi proposta por Belsley et al.(1980), definida por
12
|ri | hii
DFFITSi = 1
s(i) (1 − hii ) 2 (1 − hii )
12
hii
= |t∗i | .
(1 − hii )
O DFFITSi é calculado conforme abaixo
dfit = abs(tsi)*sqrt(h/(1-h)).
Como o valor esperado de hii é np , é razoável dar mais atenção àqueles pontos
tais que
12
p
DFFITSi ≥ 2 .
(n − p)
Aparentemente Di e DFFITSi seriam medidas de influência competitivas,
uma vez que DFFITSi parece ser mais adequada para avaliar a influência
nas estimativas dos coeficientes de um ponto aberrante com hii pequeno.
No entanto, como mostram Cook et al.(1988) Di e DFFITSi medem coi-
sas diferentes. Ambas podem ser expressas a partir da medida mais ge-
ral de influência denominada afastamento pela verossimilhança (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida Di mede
essencialmente a influência das observações nos parâmetros de posição, en-
quanto DFFITSi tem o propósito de medir a influência das observações nos
parâmetros de posição e escala. Como é pouco provável que um ponto com
ri alto e hii pequeno seja influente nas estimativas dos coeficientes, o uso de
Di não compromete a detecção de observações influentes. Cook et al.(1988)
observam também que DFFITSi não é um medida completa de influência nos
parâmetros de posição e escala simultaneamente, podendo falhar em algumas
situações. Uma medida mais geral nesse caso é proposta pelos autores.
52
Atkinson (1985) propôs uma outra medida de influência que é um aper-
feiçoamento do DFFITSi , definida por
12
(n − p) hii
Ai = |t∗i |.
p (1 − hii )
Aqui, quando o experimento for balanceado, isto é, todos os h0ii s forem iguais,
obtemos Ai = |t∗i |. A vantagem de Ai é que a mesma pode ser utilizada em
gráficos normais de probabilidade.
1.9.6 Ilustração
As Figuras 1.4a-1.4d ilustram as diferenças entre pontos aberrantes, de ala-
vanca e influentes. Na Figura 1.4a tem-se os pontos alinhados sem nenhum
tipo de perturbação. Na Figura 1.4b perturba-se o ponto #3 fazendo-o aber-
rante. Note que a exclusão do mesmo (reta pontilhada) altera apenas o
intercepto, isto é, os valores ajustados. É um ponto que não está muito
afastado dos demais, logo tem um valor para hii relativamente pequeno. Já
na Figura 1.4c, perturba-se o ponto #5 de modo que o mesmo fique mais
afastado no subespaço gerado pelas colunas da matriz X. É um ponto de
alavanca, todavia a eliminação do mesmo não muda praticamente nada nas
estimativas dos parâmetros. Como é um ponto com hii relativamente alto, as
variâncias dos valores ajustados dos pontos próximos ao mesmo serão mai-
ores do que as variâncias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturba-se novamente o ponto #5
fazendo-o agora influente e também alavanca. O mesmo, além de mudar a
estimativa da inclinação da reta ajustada, continua mais afastado do que os
demais.
As possı́veis situações discutidas acima, quando detectadas num ajuste de
regressão, devem ser examinadas cuidadosamente antes de qualquer decisão.
53
Encontrar razões que expliquem o fato dos pontos terem um comportamento
atı́pico com relação aos demais pontos podem ajudar a entender melhor a
relação entre as variáveis explicativas e o fenômeno sob investigação como
também a traçar uma estratégia de utilização do modelo ajustado, que não
necessariamente implica na eliminação de tais pontos.
5
5
3
4
4
3
3
y
y
2
2
1
1 2 3 4 5 1 2 3 4 5
x x
(a) (b)
5 5
7
8
6
5
6
y
y
4
4
3
2
2
1
1 2 3 4 5 6 7 1 2 3 4 5 6 7
x x
(c) (d)
54
et al., 2021, Cap.15). Uma estratégia interessante é diferenciar mudanças
numéricas de mudanças inferenciais nas estimativas quando as abservaçõeas
atı́picas não são consideradas no ajuste.
Curvatura normal
Para formalizar o método de influência local denote por L(θ) o logaritmo da
função de verossimilhança do modelo postulado e θ um vetor r-dimensional.
55
No caso de MLGs pode-se ter θ = (β > , φ)> e r = p+1 ou simplesmente θ = β
quando φ for conhecido. Seja δ um vetor q × 1 de perturbações, restritas a
um conjunto aberto Ω ⊂ IRq . Em geral tem-se q = n. As perturbações
são feitas no logaritmo da verossimilhança de modo que o mesmo assume
a forma L(θ|δ). Denotando o vetor de não perturbação por δ 0 , tem-se que
L(θ|δ 0 ) = L(θ). A fim de verificar a influência das perturbações na estimativa
de máxima verossimilhança θ̂, considere o afastamento pela verossimilhança
56
i = 1, . . . , r e j = 1, . . . , q.
Tem-se que o máximo de `> B`, em que B = ∆> (−L̈θ̂θ̂ )−1 ∆, corresponde
ao maior autovalor (em valor absoluto) de B. Portanto, C`max corresponde
ao maior autovalor da matriz B e `max denota o autovetor correspondente.
Assim, o gráfico de |`max | contra a ordem das observações pode revelar
aqueles pontos com maior influência na vizinhança de LD(δ0 ). Tais pon-
tos podem ser responsáveis por mudanças substanciais nas estimativas dos
parâmetros sob pequenas perturbações no modelo ou nos dados. Seria, por-
tanto, prudente olhar com mais cuidado esses pontos a fim de entender me-
lhor a influência dos mesmos e consequentemente tentar propor uma forma
segura de usar o modelo ajustado. Quando C`max não for muito maior do que
o segundo autovalor, pode ser informativo olhar também os componentes do
segundo autovetor. É provável, nesse caso, que o segundo autovetor destaque
algum tipo de influência particular das observações nas estimativas. O maior
autovalor da matriz B pode ser obtido pelo comando abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor abso-
luto é obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Gráficos alternativos, tais como de C`i contra a ordem das observações, em
que `i denota um vetor n × 1 de zeros com um na i-ésima posição têm sido
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
Nesse caso deve-se padronizar Ci = Ci / nj=1 Cj . Uma sugestão é olhar com
P
mais atenção aqueles pontos tais que Ci > C̄ + kDP{Ci )}, para k = 1, 2, 3
dependendo do tamanho amostral, em que C̄ = n1 ni=1 Ci .
P
Por outro lado, se o interesse está num subvetor θ 1 de θ = (θ > > >
1 , θ2 ) ,
57
então a curvatura normal na direção ` fica dada por
sendo !
0 0
B1 = −1 ,
0 L̈θ̂ θ̂
2 2
Ponderação de casos
Para ilustrar uma aplicação particular considere o modelo normal linear com
σ 2 conhecido e esquema de perturbação ponderação de casos, em que
n
1 X
L(β|δ) = − 2 δi (yi − x>
i β)
2
2σ i=1
com 0 ≤ δi ≤ 1. A matriz ∆ nesse caso fica dada por X> D(r)/σ 2 em que
D(r) = diag{r1 , . . . , rn } com ri = yi −ŷi . Logo, desde que L̈ββ = −σ −2 (X> X)
a curvatura normal na direção unitária ` fica dada por
2 >
C` (β) = |` D(r)HD(r)`|,
σ2
com H = X(X> X)−1 X> . Portanto, `max é o autovetor correspondente ao
maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se for
58
considerada a direção `i correspondente à i-ésima observação, a curvatura
2
normal assume a forma simplificada Ci = h r2 .
σ 2 ii i
Os gráficos de ı́ndices de
`max e Ci podem revelar aquelas observações mais sensı́veis ao esquema de
perturbação adotado.
Cálculos similares para σ 2 desconhecido levam ao seguinte ∆ = (∆> > >
1 , ∆2 )
59
do ajuste estão armazenados em fit.model. Para extrair o vetor r pode-se
aplicar o comando
r = resid(fit.model).
Se o modelo tem as covariáveis cov1 e cov2 além dos fatores A e B, o vetor
`max correspondente, por exemplo à covariável cov1, sai de
fit = lm(cov1 ∼ A + B + cov2 - 1)
v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).
60
Portanto, um gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação e quais observações que estão se desviando da mesma. Esse gráfico,
conhecido como gráfico da variável adicionada, pode revelar quais pontos que
estão influenciando (e de que maneira) a inclusão da nova variável no modelo.
Para ilustrar a construção do gráfico da variável adicionada, supor nova-
mente o modelo com duas covariáveis e dois fatores. O gráfico da variável
adicionada para avaliar a influência das observações no coeficiente de cov1,
pode ser construı́do com os comandos
fit = lm(resp ∼ cov2 + A + B)
r = resid(fit)
fit1 = lm(cov1 ∼ cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= ‘‘residuo v’’, ylab= ‘‘residuo r’’).
61
0
esperados das estatı́sticas de ordem da normal padrão, Z(i) s. Tem-se que
i − 38
∼
E(Z(i) ) = Φ −1
,
n + 14
em que Φ(·) é a função de distribuição acumulada da N(0, 1). Portanto, na
prática, é o gráfico dos quantis amostrais do resı́duo t∗(i) contra os quantis
teóricos da normal padrão.
Há também o gráfico meio-normal de probabilidades, definido como sendo
o gráfico de |t∗(i) | contra os valores esperados de |Z(i) |. Tem-se a aproximação
∼ −1 n + i + 1/2
E(|Z(i) |) = Φ .
2n + 9/8
Em particular, o gráfico de Ai contra E(|Z(i) |) pode ser indicado para detec-
tarmos simultaneamente pontos aberrantes e/ou influentes. O gráfico normal
de probabilidades com a reta ajustada pode ser construı́do com os comandos
dados abaixo
qqnorm(tsi , ylab= ‘‘Residuo Studentizado’’)
qqline(tsi).
O comando qqline() traça uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resı́duos e da distribuição normal padrão. Devido
à dificuldade de avaliar se o gráfico normal de probabilidades se afasta efetiva-
mente da reta ajustada, a construção de um tipo de banda de confiança para
os resı́duos pode ser muito útil para detectar afastamentos importantes da
normalidade. Esse gráfico pode também ser informativo sobre a existência
de pontos discrepantes ou mesmo sobre a falta de linearidade. Todavia,
como a distribuição conjunta das estatı́sticas de ordem dos resı́duos t∗(i) 0 s
é bastante complicada e o uso simples das variâncias dos t∗i 0 s para a cons-
trução de tais bandas pode introduzir algum viés no cálculo do coeficiente de
confiança, Atkinson (1985) sugere a construção de um tipo de banda de con-
fiança através de simulações, a qual denominou envelope. O procedimento
62
consiste basicamente em gerar resı́duos que tenham média zero e matriz de
variância-covariância (In − H). O método é descrito a seguir.
3. Obter t∗i = √ ri , i = 1, . . . , n.
1−hii
63
em que envel norm é o nome do arquivo externo onde deve estar o programa
para geração dos gráficos (ver Apêndice B).
em que N = diag{dµ1 /dη1 , . . . , dµn /dηn }. Substituindo −L̈ββ pelo seu valor
esperado φ(X> WX), obtém-se aproximadamente
c ∼
GL = N̂X(X> ŴX)−1 X> V̂−1 N̂.
Assim, o elemento GL
c ii pode ser expresso na forma
c ii ∼
GL = ω̂i x> > −1
i (X ŴX) xi ,
64
Outra definição de pontos de alavanca que tem sido utilizada na classe
dos MLGs, embora não coincida exatamente com a expressão acima, exceto
no caso de resposta contı́nua e ligação canônica, é construı́da fazendo uma
analogia entre a solução de máxima verossimilhança para β̂ num MLG e a
solução de mı́nimos quadrados de uma regressão normal linear ponderada.
Considerando a expressão para β̂ obtida na convergência do processo itera-
tivo dado em (1.5), tem-se que
65
algum cuidado em regressão logı́stica e que as interpretações são diferentes
daquelas do caso normal linear.
1.10.2 Resı́duos
A definição de um resı́duo studentizado para os MLGs pode ser feita analo-
gamente à regressão normal. Todavia, não necessariamente as propriedades
continuam valendo. Assim, torna-se importante a definição de outros tipos
de resı́duo cujas propriedades sejam conhecidas ou pelo menos estejam mais
próximas das propriedades de t∗i .
Uma primeira proposta seria considerar o resı́duo ordinário da solução
de mı́nimos quadrados da regressão linear ponderada de ẑ contra X, que é
definido por
1 1
r∗ = Ŵ 2 (ẑ − η̂) = V̂− 2 (y − µ̂).
Var(r∗ ) ∼
= φ−1 (In − Ĥ).
66
não são mais verificadas para tSi . Williams (1984) mostra através de estudos
de Monte Carlo que a distribuição de tSi é em geral assimétrica, mesmo para
grandes amostras.
Outros resı́duos cujas distribuições poderiam estar mais próximas da nor-
malidade têm sido sugeridos para os MLGs. Por exemplo, o resı́duo de Ans-
combe √
φ{ψ(yi ) − ψ(µ̂i )}
tAi = q ,
ψ 0 (µ̂i ) V̂ (µ̂i )
em que ψ(·) é uma transformação utilizada para normalizar a distribuição de
Y . Para os MLGs essa transformação é definida por
Z µ
1
ψ(µ) = V − 3 (t)dt.
0
Distribuição
Normal Binomial Poisson Gama N. Inversa
R µ −1 − 1 3 32 1
ψ(µ) µ 0
t 3 (1 − t) 3 dt 2
µ 3µ 3 log(µ)
67
distribuições dos demais resı́duos. McCullagh (1987, p. 214) mostra para os
MLGs que a distribuição de probabilidade de
d∗ (Yi ; µi ) + ρ3i /6
p
1 + (14ρ23i − 9ρ4i )/36
68
são extraı́dos através do comando fitted(fit.model). Como exemplo, a
matriz com as funções de variância estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
Em particular, a matriz Ŵ também depende dos valores ajustados, no en-
tanto, como é a matriz de pesos, pode ser obtida diretamente fazendo
w = fit.model$weights
W = diag(w).
Assim, uma vez obtida a matriz Ŵ pode-se obter os elementos ĥii com
os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa φ̂ (o R solta φ̂−1 ), os componentes do
desvio e os resı́duos studentizados são obtidos da seguinte maneira:
rd = resid(fit.model, type= ‘‘deviance’’)
td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= ‘‘pearson’’)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligações canônicas W e V coincidem.
Por fim, tem-se o resı́duos quantı́lico (Dunn e Smyth, 1996) que é definido
para variáveis contı́nuas por
69
1, . . . , n. Para n grande os resı́duos rq1 , . . . , rqn são independentes e igual-
mente distribuı́dos N (0, 1). Assim, o gráfico entre os quantis amostrais
rq(1) ≤ · · · ≤ rq(n) contra os quantis teóricos da normal padrão é recomen-
dado para avaliar afastamentos da distribuição postulada para a resposta
bem como a presença de observações aberrantes. Esse resı́duo é estendido
para o caso discreto, contudo o resı́duo não é único, e a sugestão é trabalhar
com resı́duos aleatorizados.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo. Além desse
painel gráfico, o GAMLSS também disponibiliza o worm plot que é o gráfico
entre rq(i) − E(Z(i) ) contra E(Z(i) ). Esse gráfico pode ser interpretado como
um refinamento do gráfico normal de probabilidades, podendo ser acionado
para variáveis contı́nuas através do comando
wp(ajuste).
No caso de variáveis discretas, a sugestão é gerar m gráficos, que são avaliados
conjuntamente. Por exemplo para m = 8 o gráfico pode ser realizado através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).
70
de forma complementar por tratar-se de um resı́duo condicional. Ou seja,
tem-se o componente do desvio para a localização fixando a dispersão, e de
forma similar pode-se ter o resı́duo componente do desvio para a dispersão
fixando a localização. Isso se estende para outros modelos de regressão em
que há mais de dois tipos de parâmetros para serem modelados.
1.10.3 Influência
Supondo φ conhecido, o afastamento pela verossimilhança quando elimina-se
a i-ésima observação é denotado por
LDi ∼
= (β − β̂)> {−L̈ββ (β̂)}(β − β̂).
Substituindo −L̈ββ (β̂) pelo correspondente valor esperado e β por β̂ (i) , obtém-
se
LDi ∼
= φ(β̂ − β̂ (i) )> (X> ŴX)(β̂ − β̂ (i) ). (1.17)
Assim, tem-se uma boa aproximação para LDi quando L(β) for aproxima-
damente quadrática em torno de β̂.
Como em geral não é possı́vel obter uma forma fechada para β̂ (i) , a apro-
ximação de um passo tem sido utilizada (ver, por exemplo, Cook e Weisberg,
1982), que consiste em tomar a primeira iteração do processo iterativo pelo
método escore de Fisher quando o mesmo é iniciado em β̂.
71
Essa aproximação, introduzida por Pregibon (1981), é dada por
1 1 1
β̂ (i) = β̂ + (X> ∆ŴX)−1 X> ∆Ŵ 2 V̂− 2 (y − µ̂),
p 1
∆ = φX> Ŵ 2 D(r̂P ),
√ p
em que D(r̂P ) = diag{r̂P1 , . . . , r̂Pn } e r̂Pi = φ(yi − µ̂i )/ V̂i é o i-ésimo
resı́duo de Pearson estimado. Assim, substituindo −L̈ββ por φ(X> WX)
tem-se que a curvatura normal na direção unitária ` assume a forma
72
Se o interesse é calcular a curvatura normal na direção `i da i-ésima ob-
servação, então pode-se avaliar o gráfico de ı́ndices de Ci = 2ĥii r̂P2 i .
Em particular, o vetor `max para avaliar a influência local das observações
nas estimativas dos parâmetros é o autovetor correspondente ao maior auto-
valor da seguinte matriz n × n:
B = D(r̂P )ĤD(r̂P ).
Para obter `max , a maneira mais simples é construir a matriz B e extrair o seu
autovetor correspondente ao maior autovalor. Os comandos são os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se há interesse em detectar observações influentes na estima-
tiva de um coeficiente particular, associado por exemplo à variável explicativa
X1 , o vetor `max fica dado por
!
v r̂ v r̂
`>
max = p1 P1 , . . . , pn Pn ,
C`max C`max
em que v1 , . . . , vn são agora obtidos da regressão linear de X1 contra as
1 1
colunas de X2 com matriz de pesos V̂, isto é v = V̂ 2 X1 − V̂ 2 X2 (X>
2
73
um coeficiente adicional γ relacionado a uma variável quantitativa Z está
sendo incluı́do no modelo. O interesse é testar H0 : γ = 0 contra H1 : γ 6= 0.
Seja η(β, γ) o preditor linear com p + 1 parâmetros, isto é
em que Ŵ, r̂P e M̂ são avaliados em β̂ (sob H0 ). Sob H0 , ξSR ∼ χ21 quando
n → ∞.
Wang (1985) mostra que a estatı́stica de escore acima coincide com a
estatı́stica F de uma regressão linear ponderada para testar a inclusão da
variável Z no modelo. Nessa regressão linear, o gráfico da variável adicionada
1 1
é formado pelos resı́duos r̂P e υ = φ 2 (In − Ĥ)Ŵ 2 Z. O resı́duo υ pode ser
obtido facilmente após a regressão linear ponderada (com pesos Ŵ) de Z
contra X. Tem-se que γ̂ = (υ > υ)−1 υ > r.
Logo, o gráfico de r̂P contra υ pode revelar quais observações estão con-
tribuindo mais na significância de γ. A principal dificuldade para construir o
gráfico da variável adicionada em MLGs é a obtenção do resı́duo υ, uma vez
74
que o resı́duo r̂P é obtido facilmente como visto anteriormente. Para ilustrar
o cálculo de υ num modelo particular, supor duas covariáveis e dois fatores e
que o interesse é construir o gráfico da variável adicionada correspondente à
covariável cov1. É preciso inicialmente ajustar o modelo com os dois fatores
e a outra covariável e calcular a matriz Ŵ cujos valores serão armazenados
em W. Lembrando que Ŵ é a matriz estimada de pesos. Supondo, por
exemplo, que tem-se um modelo de Poisson com ligação canônica, os passos
para construir o gráfico são os seguintes:
fit.poisson = glm( resp ∼ cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =‘‘pearson’’)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=‘‘Residuo v’’, ylab=‘‘Residuo rp’’).
75
da ligação, gráfico de ẑi contra η̂i (uma tendência linear indica adequação
da ligação) (exceto para o caso binomial); (vi) pontos influentes, gráficos de
LDi , Ci ou |`max | contra a ordem das observações e (vii) falta de alugm termo
extra numa variável explicativa quantitativa, gráfico da variável adicionada.
Os envelopes, no caso de MLGs com distribuições diferentes da normal, são
construı́dos com os resı́duos gerados a partir do modelo ajustado (ver, por
exemplo, Williams, 1987). No Apêndice B são relacionados programas para
gerar envelopes em alguns MLGs.
Método forward
Inicia-se o método pelo modelo µ = α. Ajustar então para cada variável
explicativa o modelo
µ = α + βj xj , (j = 1, . . . , q).
76
Testar H0 : βj = 0 contra H1 : βj 6= 0. Seja P o menor nı́vel descritivo dentre
os q testes. Se P ≤ PE , a variável correspondente entra no modelo. Supor
que X1 tenho sido escolhida. Então, no passo seguinte ajusta-se os modelos
µ = α + β1 x1 + βj xj , (j = 2, . . . , q).
Método backward
Iniciar o procedimento pelo modelo
µ = α + β1 x1 + · · · + βq xq .
µ = α + β2 x2 + · · · + βq xq .
Método stepwise
É uma mistura dos dois procedimentos anteriores. Iniciar o processo com o
modelo µ = α. Após duas variáveis terem sido incluı́das no modelo, verificar
se a primeira não sai do modelo. O processo continua até que nenhuma
variável seja incluı́da ou seja retirada do modelo. Geralmente adota-se 0, 15 ≤
PE , PS ≤ 0, 25. Uma sugestão seria usar PE = PS = 0, 20.
77
Método de Akaike
O método proposto por Akaike (1974) basicamente se diferencia dos procedi-
mentos anteriores por ser um processo de minimização que não envolve testes
estatı́sticos. A ideia básica é selecionar um modelo que seja parcimonioso, ou
em outras palavras, que esteja bem ajustado e tenha um número reduzido
de parâmetros. Como o logaritmo da função de verossimilhança L(β) cresce
com o aumento do número de parâmetros do modelo, uma proposta razoável
seria encontrar o modelo com menor valor para a função
Método de Schwartz
O método de Schwartz (1978) consiste em maximizar L(β) também minimi-
zando o número de coeficientes da regressão, porém com uma penalização
diferente. O método é equivalente a minimizar a função abaixo
Para a regressão linear múltipla tem-se que BIC ∝ nlog{D(y; µ̂)/n}+p log(n).
78
necessárias. Nos casos de regressão logı́stica e de Poisson o teste da razão
de verossimilhanças, pelo fato de ser obtido pela diferença de duas funções
desvio, aparece como o mais indicado. Para os casos de regressão normal,
normal inversa e gama o teste F, por não exigir a estimativa de máxima
verossimilança do parâmetro de dispersão, é o mais indicado. Isso não impede
que outros testes sejam utilizados.
Já o método de Akaike pode ser expresso numa forma mais simples em
função do desvio do modelo. Nesse caso, o critério consiste em encontrar o
modelo tal que a quantidade abaixo seja minimizada
1.12 Aplicações
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extraı́do do censo do IBGE de
2000, apresenta para cada unidade da federação o número médio de anos de
estudo e a renda média mensal (em reais) do chefe ou chefes do domicı́lio.
79
Esses dados estão também armazenados no arquivo censo.txt. O arquivo
pode ser lido no R através do comando
censo= read.table(‘‘censo.txt’’, header=TRUE).
Propor inicialmente um modelo normal linear simples em que Y denota a
renda e X a escolaridade. O modelo fica portanto dado por
yi = α + βxi + i ,
iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , 27. Supor que a amostra da Tabela 1.6
é um corte transversal, isto é, as informações sobre renda e escolaridade das
unidades da federação são referentes a um determinado instante do tempo.
Nesse caso, os erros são devidos à variabilidade da renda (dada a escolaridade)
nos diversos instantes do tempo. Assume-se que a relação funcional entre yi
e xi é a mesma num determinado intervalo do tempo.
Tabela 1.6
Escolaridade e renda média
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499
80
0.30
DF
0.25
1200
0.20
Medida h
Renda
0.15
800
0.10
600
0.05
400
4 5 6 7 8 0 5 10 15 20 25
Escolaridade Índice
(a) (b)
DF DF
2.5
Resíduo Studentizado
4
Distância de Cook
2.0
1.5
2
1.0
0
0.5
0.0
−2
0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)
81
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo num arquivo do tipo
data.frame, através dos comandos
censo = data.frame(censo)
fit1.censo = lm(renda ∼ escolar, data=censo)
summary(fit1.censo).
0.30
DF
0.25
1200
0.20
Medida h
Renda
0.15
800
0.10
600
0.05
400
MA
2
Resíduo Studentizado
0.4
Distância de Cook
1
0.3
0
0.2
−1
0.1
−2
0.0
0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)
82
um aumento da variabilidade com o aumento da escolaridade. Isso pode
também ser notado na Figura 1.5a. Assim, pode-se propor um modelo alter-
nativo, por exemplo, com efeitos multiplicativos conforme dado abaixo
µi = eα+βxi ei ,
iid
em que i ∼ G(1, φ), i = 1, . . . , 27. Pode-se ajustar esse modelo no R através
dos comandos
fit2.censo = glm(renda ∼ escolar, family=Gamma(link=log))
summary(fit1.censo).
Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observações mais discrepantes são excluı́das do modelo gama.
Estimativa Com todos Excluı́do Excluı́do Excluı́dos
os pontos DF MA DF e MA
α̂ 4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
β̂ 0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
φ̂ 192(52) 188(52) 223(62) 223(63)
Na Figura 1.6 tem-se o ajuste do modelo gama aos dados, bem como
alguns gráficos de diagnóstico que destacam DF como ponto de alavanca e
MA como ponto influente, enquanto na Tabela 1.7 tem-se uma análise confir-
matória em que verifica-se poucas variações nas estimativas dos parâmetros
com a eliminação dessas unidades da federação. Finalmente, na Figura 1.7
tem-se o gráfico normal de probabilidades para o modelo normal linear e
para o modelo gama log-linear. Nota-se uma melhor acomodação e distri-
buição dos pontos dentro do envelope gerado no segundo modelo. Pelo valor
da estimativa do parâmetro de dispersão conclui-se que o modelo gama log-
linear aproxima-se bem de um modelo normal de média µ e variância φ−1 µ2 .
83
Portanto, o modelo final ajustado fica dado por
ŷ = e4,98+0,28x .
3
2
4
1
Componente do Desvio
Resíduo Studentizado
2
0
0
−1
−2
−2
−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)
84
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da célula histiócitos-linfócitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da célula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). O arquivo
pode ser lido no R através do comando
canc3 = read.table(‘‘canc3.txt’’, header=TRUE).
Deve-se informar o sistema que as variáveis SEXO, HL e FF são qualitativas,
isto é, deve-se transformá-las em fatores. Os comandos são os seguintes:
attach(canc3)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que é optativo, cria uma variável binária
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variáveis binárias para os
nı́veis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformar todo fator
de k nı́veis em k − 1 variáveis binárias, denominado casela de referência, é
padrão em MLGs, porém pode não ser a modelagem mais conveniente em
outras situações de interesse prático. A casela de referência seria, nesses dois
casos, o nı́vel ausente.
Considere, como exemplo, a aplicação do modelo logı́stico com resposta
Bernoulli apenas com os efeitos principais, em que
Pr{Y = 1 | η} = {1 + exp(−η)}−1 ,
85
P4 P4
com η = β1 + β2 IDADE + β3 SEXO + i=1 β4i HLi + i=1 β5i FFi , SEXO, HLi
e FFi sendo variáveis binárias correspondentes aos nı́veis de SEXO, HL e FF,
respectivamente. Assume-se que β41 = β51 = 0. Uma observação importante
é que devido ao fato da amostragem ter sido retrospectiva, o uso do modelo
acima para fazer previsões somente é válido se a estimativa do intercepto
(β1 ) ser corrigida (ver, por exemplo, McCullagh e Nelder, 1989, p. 113). Isso
será discutido na Seção 3.6.6. Para ajustar o modelo acima, os passos são
dados abaixo
fit1.canc3 = glm( tipo ∼ sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).
Tabela 1.8
Estimativas dos parâmetros referentes ao modelo logı́stico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito Estimativa Efeito Estimativa Efeito Estimativa
Constante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)
Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)
Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)
86
1.12.3 Sobrevivência de bactérias
Na Tabela 1.9, extraı́da de Montgomery et al.(2001, pgs. 201-202), tem-se o
número de bactérias sobreviventes em amostras de um produto alimentı́cio
segundo o tempo (em minutos) de exposição do produto a uma temperatura
de 300o F . Na Figura 1.8a é apresentado o gráfico do número de bactérias so-
breviventes contra o tempo de exposição. Nota-se uma tendência decrescente
e quadrática.
Supondo que as amostras do produto enlatado submetidos à temperatura
ind
de 300o F têm o mesmo tamanho, pode-se pensar, em princı́pio, que Yi ∼
P(µi ), com Yi denotando o número de bactérias sobreviventes na i-ésima
amostra i = 1, . . . , 12. Para µi grande é razoável supor que Yi se aproxima
de uma distribuição normal (ver Seção 4.2.1). Assim, tem-se como proposta
inicial, os seguintes modelos:
yi = α + βtempoi + i e
yi = α + βtempoi + γtempo2i + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , 12.
Tabela 1.9
Número de bactérias sobreviventes e tempo de exposição.
Número 175 108 95 82 71 50 49 31 28 17 16 11
Tempo 1 2 3 4 5 6 7 8 9 10 11 12
87
8
8
150
6
Resíduo Studentizado
Resíduo Studentizado
4
Sobreviventes
4
100
2
0
50
0
−2
−2
2 4 6 8 10 12 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Tempo Quantil da N(0,1) Quantil da N(0,1)
(a) (b) (c)
3
6
2
4
Componente do Desvio
Resíduo Studentizado
Resíduo Studentizado
2
1
2
0
0
−1
0
−2
−2
−2
−3
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Quantil da N(0,1) Quantil da N(0,1) Quantil da N(0,1)
(d) (e) (f)
88
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivência
√ de bactérias.√
Parâmetro Linear-Y Quadrático-Y Linear- Y Quadrático- Y
α 142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51)
β -12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18)
γ 1,29(0,31) 0,04(0,01)
2
R 86,9% 95,5% 96,1% 97,8%
Nota-se uma melhora na qualidade do ajuste, particularmente no segundo
caso. Porém, ainda há indı́cios pelos gráficos de envelope (Figuras 1.8d e 1.8e)
de violação nas suposições para os modelos, além da presença da observação
#1 como ponto aberrante. Finalmente, propôem-se um modelo log-linear de
Poisson, em que
ind
• Yi |tempoi ∼ P(µi )
• log(µi ) = α + βtempoi ,
Tabela 1.11
Estimativas dos parâmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivência de bactérias.
Parâmetro Estimativa E/E.Padrão
α 5,30 88,34
β -0,23 -23,00
Desvio 8,42 (10 g.l.)
89
O modelo Poisson log-linear ajustado aos dados fica então dado por
µ̂(x) = e5,30−0,23x ,
Tabela 1.12
Número de ratos caquéticos (O) e ratos dias de
observação (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa Grupo de passagem
tumoral P0-P6 P7-P18 P19-P28
Sim O 6 13 8
R-D 2597 3105 2786
Não O 12 3 1
R-D 1613 411 232
90
Para ler os dados diretamente no R deve-se usar o comando
canc4a= scan(what=list(obs=0,rd=0))
1: 6 2597 13 3105 8 2786
2: 12 1613 3 411 1 232.
Agora, é necessário introduzir os fatores grupo de passagem e massa tumoral
fnames = list(gp=c(‘‘P0-P6’’, ‘‘P7-P18’’, ‘‘P19-P28’’),
mt=c(‘‘Sim’’, ‘‘N~
ao’’)).
Para informar o sistema a ordem em que os dados foram lidos, pode-se usar
o comando fac.design. Em seguida, é feito o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a)
rato.df = data.frame(obs,rd,rato.design).
As informações completas sobre os dados estão armazenadas no arquivo
rato.df. Para uma verificação basta usar o comando
rato.df.
Pode-se agora (opcionalmente) criar uma matriz modelo no padrão dos MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Supor que Oij , o número de ratos caquéticos no nı́vel i de massa tumoral
e grupo de passagem j, segue uma distribuição de Poisson de média λij tij ,
i = 1, 2 e j = 1, 2, 3. Tem-se que λij denota a taxa de caquexia (número
médio de mortes por unidade de tempo) e tij o total de ratos-dias no nı́vel
(i, j). Considere inicialmente o seguinte modelo de Poisson:
ind
• Oij ∼ P(λij tij )
• log(λij ) = α + βi + γj ,
91
em que i = 1, 2 e j = 1, 2, 3, β1 = 0 e γ1 = 0. A suposição do compo-
nente aleatório equivale à suposição de tempos exponenciais, como será visto
na Seção 4.2.2. Com essa notação, α será o efeito correspondente à classe
P0 − P6 com desenvolvimento de massa, β2 a diferença entre os efeitos dos
grupos sem e com o desenvolvimento de massa tumoral, γ2 a diferença entre
os efeitos das classes P7 − P18 e P0 − P6 e γ3 a diferença entre os efeitos das
classes P19 − P28 e P0 − P6. Em particular, quando os valores esperados de
mortes para tij são expressos na forma de um modelo log-linear, tem-se um
offset dado por log(tij ). Ou seja, o modelo que será ajustado no R tem parte
sistemática dada por log(µij ) = log(tij ) + α + βi + γj . Logo, é necessário
definir o offset no ajuste.
Os passos são os seguintes:
logt0 = log(rd)
canc4a.fit = glm(obs ∼ gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parâmetros (erro padrão aproximado) são dadas por
α̂ = −5, 875 (0, 312), γ̂2 = 0, 334 (0, 365), γ̂3 = −0, 040 (0, 434) e β̂2 =
0, 860 (0, 343). O desvio do modelo é dado por D(y; µ̂) = 0, 84 com 2 graus
de liberdade. Pelas estimativas acima nota-se que o fator grupo de passagem
não é significativo. O ajuste do modelo sem esse efeito levou às estimativas
α̂ = −5, 750 (0, 192) e β̂2 = 0, 802 (0, 315) com um desvio de D(y; µ̂) = 1, 99
(4 graus de liberdade). Logo, o teste da razão de verossimilhanças para testar
H0 : γ2 = γ3 = 0 vale 1, 99 − 0, 84 = 1, 15 com 2 graus de liberdade, o que
implica em não rejeitar a hipótese H0 .
Assim, o modelo adotado inclui somente o efeito massa tumoral. Tem-se
que β2 é significativamente diferente de zero. A estimativa β̂2 = 0, 802 indica
92
que os ratos que desenvolvem massa tumoral (tumor maligno) sobrevivem
mais do que os ratos que não desenvolvem o tumor! Esse resultado pode
parecer em princı́pio contraditório, todavia deve-se lembrar que todos os
ratos tiveram tumor inoculado mas nem todos desenvolveram massa tumoral.
Assim, pode ser razoável supor que aqueles ratos que não desenvolveram
massa tumoral teriam resistido muito para que a mesma não se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo médio de vida menor do que o tempo médio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliar a suposição de distribuição de Pois-
son para Oij com média λij tij é através da inclusão do termo log(tij ) como
covariável, em vez de offset. Isto é, supor a parte sistemática
log(µij ) = α + δ log(tij ) + βi + γj .
93
reg2 = read.table(‘‘reg2.txt’’, header=TRUE).
O modelo proposto é o seguinte:
Tabela 1.13
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustı́vel.
Efeito Estimativa E/E.Padrão
Constante 307,33 1,96
Taxa -29,48 -2,78
Licença 1374,77 7,48
Renda -0,07 -4,00
R2 0,675
s 8,12
94
CT NY
WY
TX
0.20
0.3
SD NV
Distância de Cook
0.15
Medida h
0.2
0.10
0.1
0.05
0.0
0 10 20 30 40 0 10 20 30 40
Índice Índice
(a) (b)
WY WY
4
4
Resíduo Studentizado
Resíduo Studentizado
3
3
2
2
1
1
0
0
−1
−1
95
erros, apesar da influência no gráfico do estado de WY. O gráfico sem esse
estado apresentado na Figura 1.10 (direita) confirma esse suposição.
3
4
2
1
2
Resíduo Studentizado
Resíduo Studentizado
0
0
−1
−2
−2
−3
−4
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)
96
mográfica de cada estado, conforme sugerido por Gray (1989), poderia expli-
car melhor o estado de WY pelo modelo proposto. Uma outra possibilidade
seria a inclusão no modelo de uma variável binária referente a esse estado.
97
Tabela 1.14
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 115,262 82,25
Experiência -0,472 -4,17
Sexo -2,201 -2,04
Posição 6,710 21,46
R2 0,71
s 6,77
170
170
160
Salário Mulheres
Salário Homens
150
150
140
130
130
120
110
5 10 15 20 25 5 10 15 20
Experiência Homens Experiência Mulheres
170
170
160
Salário Mulheres
Salário Homens
150
150
140
130
130
120
110
2 3 4 5 6 7 8 9 2 4 6 8
Posição Homens Posição Mulheres
98
Tabela 1.15
Testes F para avaliar a inclusão
de cada interação de 1a ordem no
modelo normal linear ajustado aos
dados sobre salário de executivos.
Interação F-valor valor-P
Sexo*Exper 1,615 0,20
Sexo*Posicão 0,001 0,97
Exper*Posição 7,594 0,00
191 30
0.10
0.05
213 144
0.04
0.08
139 178 4
Distância de Cook
30
Medida h
0.03
0.06
0.02
0.04
0.01
0.02
0.00
2
Resíduo Studentizado
Resíduo Studentizado
1
1
0
0
−1
−1
−2
−2
99
de experiência e posição as mulheres ganham em média mais do que os ho-
mens. Quando essas variáveis são ignoradas, ocorre o contrário, como foi
visto na análise descritiva. Experiência e posição são variáveis importantes
e devem também permanecer no modelo.
Verifica-se a seguir se é possı́vel incluir alguma interação de 1a ordem.
Essas interações são de interesse e também interpretáveis. Por exemplo,
presença de interação entre os fatores sexo e experiência significa que a dife-
rença entre os salários médios de executivos e executivas não é a mesma
à medida que varia o tempo de experiência. Na Tabela 1.15 são apre-
sentados os valores da estatı́stica F bem como o valor-P correspondente
para testar a ausência das interações sexo*experiência, sexo*posição e ex-
periência*posição, respectivamente, dado que estão no modelo constante +
sexo + experiência + posição. Portanto, será incluı́da no modelo apenas
a interação experi^ ao. As estimativas do modelo final com a
encia*posiç~
interação experiência*posição são apresentadas na Tabela 1.16.
Na Figura 1.12 são apresentados os gráficos de diagnóstico. Algumas ob-
servações aparecem como pontos de alavanca (Figura 1.12a), três observações
são destacadas como possivelmente influentes (Figura 1.12b) e não há indı́cios
de pontos aberrantes e variância não constante (Figuras 1.12c e 1.12d). Reti-
rando as observações mais influentes, #4 e #30, nota-se variações despropor-
cionais em algumas estimativas, embora não ocorram mudanças inferencias.
Esses pontos causam variações, respectivamente, de -14% e 11% na estima-
tiva do coeficiente de sexo. A observação #4 é uma executiva com salário
anual de USD 139 mil, posição 7 e 13,9 anos de experiência (salário rela-
tivamente baixo para essa posição e experiência) e a observação #30 é de
um executivo com salário anual de USD 110 mil, posição 2 e 2,4 anos de
experiência (menor salário entre os executivos).
100
Tabela 1.16
Estimativas dos parâmetros referentes
ao modelo normal linear final ajustado
aos dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 108,042 36,48
Experiência 0,336 1,07
Sexo -2,811 -2,58
Posição 8,096 13,73
Exper*Posição -0,135 -2,75
2
R 0,72
s 6,67
2
Resíduo Studentizado
0
−2
−4
−3 −2 −1 0 1 2 3
Quantil da N(0,1)
101
Por exemplo, desse modelo, qual o salário previsto para executivos com
5 anos de experiência e posição 4?
1.13 Exercı́cios
1. Se Y pertence à famı́lia exponencial de distribuições, então a função
densidade ou função de probabilidades de Y pode ser expressa na forma
102
em que b(·) e c(·; ·) são funções diferenciáveis. Supondo φ conhecido
seja L(θ) = log{f (y; θ, φ)} o logaritmo da função de verossimilhança.
Se L(θ) é pelo menos duas vezes diferenciável em θ mostre que
2 ( 2 )
∂L(θ) ∂ L(θ) ∂L(θ)
E =0 e E = −E .
∂θ ∂θ2 ∂θ
103
y
para y = r, r +1, . . . e 0 < π < 1. Mostre que Y ∗ = r
pertence à famı́lia
exponencial de distribuições. Encontre a função de variância V (µ), em
ind
que µ = E(Y ∗ ). Supor agora que Yi ∼ Pascal(r, πi ) para i = 1, . . . , n.
Obtenha os componentes d∗2 (yi ; π̂i ) da função desvio.
104
iid
8. Supor Yi ∼ Ge(π) em que π = exp(α)/{1 + exp(α)}, para i = 1, . . . , k.
Obter a estimativa de máxima verossimilhança α
b e a respectiva variância
assintótica Var(b
α). Mostre que a estatı́stica do teste da razão de veros-
similhanças para testar H0 : α = 0 contra H1 : α 6= 0 pode ser expressa
na forma
2
ξRV = 2n αb + ȳ log .
1 + eαb
Qual a distribuição nula assintótica da estatı́stca do teste? A função
de probabilidade de Yi é dada por f (yi ; π) = π(1 − π)(yi −1) , para yi =
1, 2, . . ., 0 < π < 1 e tem-se que E(Yi ) = 1/π = {1 + exp(α)}/exp(α).
Sugestão: expressar inicialmente o logaritmo da função de verossimi-
lhança em função de α, denote por L(α). Obter Uα e Kαα .
ind
9. Suponha o MLG em que Yi |xi ∼ FE(µi , φ) e parte sistemática dada por
g(µi ; λ) = ηi = x>
i β, com λ escalar desconhecido. Encontre as funções
yi = α + βxi + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre a equivalência entre as
estatı́sticas ξRV , ξW e ξSR para testar H0 : β = 0 contra H1 : β 6= 0.
Supor σ 2 conhecido.
105
temática µ1 = α + β e µ2 = α − β, mostre que a estatı́stica F para
testar H0 : β = 0 contra H1 : β 6= 0 pode ser expressa na forma
simplificada
(n − 2) n1nn2 (ȳ1 − ȳ2 )2
F= P ,
(yi − ȳ)2 − n1nn2 (ȳ1 − ȳ2 )2
em que ȳ, ȳ1 , ȳ2 são as respectivas médias amostrais.
em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distribuição
χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento do inter-
valo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados (em b) a
Rb
equação a g(n−p) (t)dt = (1 − α) com a = a(b).
106
15. Sejam Yij , i = 1, 2, 3 e j = 1, . . . , m, variáveis aleatórias mutuamente
independentes pertencentes à famı́lia exponencial tais que E(Yij ) = µij ,
Var(Yij ) = Vij φ−1 e parte sistemática dada por g(µ1j ) = α, g(µ2j ) =
α + ∆ e g(µ3j ) = α − ∆. Responda às seguintes questões:
107
18. (Pregibon, 1982). Mostre que a estatı́stica de escore para testar que o i-
ésimo ponto é aberrante num MLG com φ conhecido e parte sistemática
g(µi ) = x> 2
i β é dada por tSi , em que
√
φ(yi − µ̂i )
tSi = q ,
V̂i (1 − ĥii )
19. Em dados de contagem muitas vezes o interesse está apenas nas conta-
gens positivas e nesses casos a distribuição de Poisson truncada em zero
pode ser aplicada para ajustar os dados. A função de probabilidade da
Poisson truncada é expressa na forma
e−λ λy
f (y; λ) = ,
y!(1 − e−λ )
para y = 1, 2, . . ., em que λ > 0. Mostre que Y pertence à famı́lia expo-
nencial de distribuições. Obter E(Y ), a função de variância e Var(Y ).
ind
Supor agora que Yi ∼ PoissonTruncada(λi ) e obtenha os componentes
d∗2 (yi ; λ̂i ) da função desvio, para i = 1, . . . , n.
108
de estudantes que concluem o segundo grau 1970), (viii) ndias (número
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (área do estado em milhas
quadradas). Para ler o arquivo no R use o comando
Inicialmente faça uma análise descritiva dos dados, por exemplo com
boxplot e a densidade da variável resposta e com diagramas de dis-
persão com as respectivas tendências entre a variável resposta e as
variáveis explicativas. Comente essa parte descritiva. Posteriormente,
ajuste o modelo de regressão normal linear com todas as variáveis ex-
plicativas e através do método stepwise (com PE=PS=0,15) faça uma
seleção de variáveis. Uma vez selecionado o modelo faça uma análise
de diagnóstico e apresente as interpretações dos coeficientes estimados
do modelo final.
109
representar um aumento de alguns milhões de dolares no custo final da
produção. Assim, torna-se importante o controle dessa variável durante
o processo de produção. Para ler o arquivo no R use o comando
110
23. No arquivo fuel2001.txt (Weisberg, 2014, Cap.3) são descritas as se-
guintes variáveis referentes aos 50 estados norte-americanos mais o Dis-
trito de Columbia no ano de 2001: (i) UF, unidade da federação, (ii)
Drivers, número de motoristas licenciados, (iii) FuelC, total de gaso-
lina vendida (em mil galões), (iv) Income, renda per capita em 2000
(em mil USD), (v) Miles, total de milhas em estradas federais, (vi) MPC,
milhas per capita percorridas, (vii) Pop, população ≥ 16 anos e (viii)
Tax, taxa da gasolina (em cents por galão). A fim de possibilitar uma
comparação entre as UFs duas novas variáveis são consideradas Fuel =
1000*FuelC/Pop e Dlic = 1000*Drivers/Pop, além da variável Miles
ser substituı́da por log(Miles). Para ler o arquivo no R use o comando
111
e o excesso de retorno do mercado (rmt − rf t ), em que yrt denota o
retorno da ação da empresa, rmt é o retorno do mercado e rf t indica a
taxa livre de risco durante o t-ésimo perı́odo. Posteriormente, ajustar
o seguinte modelo de regressão linear simples para cada ação:
yt = α + βxt + t ,
iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é
maior do que o excesso de retorno do mercado (ação mais volátil do
que o mercado), e se β < 1 o excesso de retorno é menor do que o
excesso de retorno do mercado (ação menos volátil do que o mercado).
O intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.
attach(capm).
summary(ajuste.msf).
112
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado o
excesso de retorno do mercado.
25. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos
regiao = factor(regiao).
Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão entre a variável
resposta e variáveis explicativas. Selecione incialmente um submodelo
através através do procedimento stepwise usando PE=PS=0,15. Apli-
car análise de resı́duos e de sensibilidade. Interpretar os coeficientes
estimados.
113
Capı́tulo 2
2.1 Introdução
A classe de modelos para a análise de dados positivos assimétricos é bastante
ampla incluindo distribuições conhecidas para os erros, tais como gama, nor-
mal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders, dentre ou-
tras. Essas distribuições têm sido particularmente aplicadas na análise de
tempos de sobrevivência (ou duração) com forte ênfase nas áreas médica e
de engenharia (ver, por exemplo, Lawless, 2003). Todavia, dados positivos
assimétricos têm sido também comuns em outras áreas do conhecimento,
como por exemplo pesca, meteorologia, finanças, seguros e atuária (ver, por
exemplo, Jong e Heller, 2008). Um componente importante no estudo de
dados de sobrevivência é a possibilidade de incorporação nas análises de ob-
servações para as quais não foi possı́vel observar a falha (dados censurados).
Com os recentes avanços tecnológicos ocorridos principalmente na fabricação
de equipamentos, os tempos até a ocorrência de falhas estão ficando cada vez
mais longos, aumentando assim a porcentagem de dados censurados. Isso
também pode ser notado na área médica com os avanços nos tratamentos e
114
medicamentos. Todavia, a inclusão de dados censurados nos modelos envolve
um tipo de análise mais especı́fica que está além das metodologias discutidas
neste texto. Sugere-se ao leitor mais interessado consultar textos de análise
de dados de sobrevivência, como por exemplo os livros de Cox e Oakes (1978),
Lawless (2003), Collett (2003), Colosimo e Giolo (2006) e Leiva et al.(2009).
Portanto, neste capı́tulo será discutido apenas dados positivos assimétricos
não censurados sob modelos com resposta gama e normal inversa, os quais
já foram introduzidos no Capı́tulo 1.
115
para r = 1, 2, . . .. Assim, expandindo log(Y ) em série de Taylor em torno de
µ até 2a ordem, obtém-se
1 1
log(Y ) ∼
= log(µ) + (Y − µ) − 2 (Y − µ)2 .
µ 2µ
Portanto, para φ grande tem-se que
1
E{log(Y )} ∼
= log(µ) − 2 E(Y − µ)2
2µ
1 µ2
= log(µ) − 2
2µ φ
= log(µ) − (2φ)−1 e
Var{log(Y )} ∼
= φ−1 .
S(t) = P r{Y ≥ t} e
P r{t ≤ Y < t + δ|Y ≥ t}
h(t) = lim .
δ→0 δ
Em particular, tem-se que a função de risco pode ser expressa na forma
h(t) = f (t)/S(t) com f (y) denotando a função densidade de Y . No caso
116
φ = 0.5 φ=1 φ=2
1.5
0.8
0.6
0.6
1.0
0.4
fdp
fdp
fdp
0.4
0.5
0.2
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y
1.2
1.0
0.8
1.0
0.8
0.8
0.6
0.6
0.6
fdp
fdp
fdp
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y
117
2.3 Modelos com resposta gama
Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ G(µi , φ).
Ou seja, está sendo assumido que essas variáveis possuem médias diferentes
1
e mesmo coeficiente de variação φ− 2 . Ademais, supor que g(µi ) = ηi com
ηi = x > >
i β, xi = (xi1 , . . . , xip ) contendo valores de variáveis explicativas e
118
em modelos de regressão normal linear. Pode-se escolher formas apropria-
das para a matriz X, de modo que X> X = Ip , e assim obter estimativas
mutuamente independentes e de variância constante para os coeficientes do
preditor linear. Myers et al.(2002, Cap.6) discutem experimentos ortogonais
em MLGs e apresentam alguns exemplos. As ligações identidade (µ = η),
√ √
raiz quadrada ( µ = η) e arcoseno (sen−1 µ = η) produzem o mesmo efeito
em MLGs com resposta normal, Poisson e binomial, respectivamente.
Aplicando, para φ suficientemente grande, a transformação logarı́tmica
na resposta e ajustando E{log(Yi )} = x>
i β, tem-se de forma equivalente
log(µi ) = x> −1
i β + 2φ , ou seja, a menos da constante 2φ
−1
obtém-se as
mesmas estimativas para β de um modelo com resposta gama e ligação lo-
garı́tmica.
contém um intercepto. Nesse caso, a função desvio fica dada por D∗ (y; µ̂) =
2φ ni=1 log(µ̂i /yi ). O parâmetro φ pode ser estimado por máxima verossi-
P
119
que será discutida no Capı́tulo 5. Supondo que o modelo postulado está
correto tem-se, para φ grande, que o desvio D∗ (y; µ̂) segue distribuição qui-
quadrado com (n − p) graus de liberdade. Assim, valores altos para o desvio
podem indicar inadequação do modelo ou falta de ajuste.
Quando todas as observações são positivas o desvio D∗ (y; µ̂) deve ser
utilizado para avaliar a qualidade do ajuste e estimação de φ. Contudo, se
pelo menos uma observação for igual a zero D∗ (y; µ̂) torna-se inapropriado.
A estimativa para φ nesse caso fica indeterminada. Como foi mencionado na
Seção 1.4, McCullagh e Nelder (1989) sugerem substituir D∗ (y; µ̂) por
n
X n
X
D∗ (y; µ̂) = 2φ{C(y) + log(µ̂i ) + yi /µ̂i },
i=1 i=1
120
Quando a i-ésima observação é excluı́da a distância de Cook aproximada
fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i
Gráficos de tDi e ĥii contra os valores ajustados µ̂i como também gráficos de
ı́ndices de LDi são recomendados para a análise de diagnóstico.
2.4 Aplicações
2.4.1 Comparação de cinco tipos de turbina de avião
Na Tabela 2.1 são descritos os resultados de um experimento conduzido para
avaliar o desempenho de cinco tipos de turbina de alta velocidade para moto-
res de avião (ver Lawless 1982, p. 201). Foram considerados dez motores de
cada tipo nas análises e foi observado para cada um o tempo (em unidades de
milhões de ciclos) até a perda da velocidade. Esses dados estão disponı́veis
no arquivo turbina.txt.
Tabela 2.1
Tempo até a perda da velocidade de cinco
tipos de turbina de avião.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03 3,19 3,46 5,88 6,43
5,53 4,26 5,22 6,74 9,97
5,60 4,47 5,69 6,90 10,39
9,30 4,53 6,54 6,98 13,55
9,92 4,67 9,16 7,21 14,45
12,51 4,69 9,40 8,14 14,72
12,95 5,78 10,19 8,59 16,81
15,21 6,79 10,71 9,80 18,39
16,04 9,37 12,58 12,28 20,84
16,84 12,75 13,41 25,46 21,51
121
Denote por Tij o tempo até a perda da velocidade para o j-ésimo motor
de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo são apresentadas
as médias, desvios padrão e coeficientes de variação amostrais para os cinco
tipos de turbina. Nota-se que os coeficientes de variação parecem variar
menos do que os desvios padrão.
0.08
0.06
Densidade
0.04
0.02
0.00
0 5 10 15 20 25 30
Tempo
122
25
20
15
Tempo
10
5
I II III IV V
Tipo
123
propõem-se um modelo gama com ligação identidade, sendo a parte sis-
temática dada por
µi = µ + βi ,
As estimativas de máxima verossimilhança ficam dadas por µ̂ = 10, 693 (1, 543),
β̂2 = −4, 643 (1, 773), β̂3 = −2, 057 (1, 983), β̂4 = −0, 895 (2, 093) e β̂5 =
4, 013 (2, 623) indicando para o tipo II um tempo médio de sobrevivência sig-
nificativamente menor do que o tipo I ao nı́vel de 5%. Para o tipo V nota-se
um tempo médio maior do que o tipo I, enquanto que os outros três tipos
apresentam tempos médios pouco diferentes do tipo I. Esses resultados con-
firmam a análise descritiva apresentada na Figura 2.3. O desvio do modelo
foi de D∗ (y; µ̂) = 8, 862 × 5, 804 = 51, 43, com 45 graus de liberdade, que
leva a P = 0, 236 e indica um ajuste adequado.
Tem-se que D∗ (y; ȳ) = 12, 945, logo o coeficiente de determinação fica
8,862
dado por R2 = 1− 12,945 = 0, 3154. Levando-se em conta que é raro encontrar
MLGs (exceto caso normal) com R2 > 0, 40, tem-se indicação de um ajuste
adequado.
A estimativa de máxima verossimilhança (erro padrão aproximado) do
124
47
0.8
0.6
49
Distância de Cook
0.4
0.2
0.0
0 10 20 30 40 50
Índice
125
são dadas por µ̂ = 9, 71 (0, 81), β̂2 = −3, 66 (1, 19) e β̂5 = 5, 00 (2, 27).
Obtém-se φ̂ = 5, 66 (1, 10) e D∗ (y; µ̂) = 51, 47 para 47 graus de liberdade
com P = 0, 30.
3
2
Resíduo Componente do Desvio
1
0
−1
−2
6 8 10 12 14
Valor Ajustado
126
2
1
Componente do Desvio
0
−1
−2
−3
−2 −1 0 1 2
Quantil da N(0,1)
gura 2.5) indica que a variabilidade foi controlada, ou seja, é adequado supor
homogeneidade do coeficiente de variação nos 5 grupos. Já o gráfico normal
de probabilidades com envelope para o resı́duo componente do desvio é apre-
sentado na Figura 2.6 e pode-se notar que não há indı́cios de afastamentos
importantes da suposição de distribuição gama para os tempos até a perda
da velocidade dos motores. Portanto, pode-se concluir neste exemplo que
não há diferença significativa entre os tipos I, III e IV, enquanto os tipos II
e V aparecem de forma significativa com o menor e maior tempo médio até
a perda da velocidade, respectivamente.
127
da pesca artesanal a modernas pescarias mecanizadas. É adequado para
capturar peixes com distribuição dispersa ou com baixa densidade, além de
ser possı́vel utilizá-lo em áreas irregulares ou em grandes profundidades. É
um dos métodos que mais satisfazem às premissas da pesca responsável,
com alta seletividade de espécies e comprimentos, alta qualidade do pescado,
consumo de energia baixo e pouco impacto sobre o fundo oceânico. No
arquivo pesca.txt estão parte dos dados de um estudo sobre a atividade
das frotas pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no
litoral paulista (vide Paula e Oshiro, 2001). A espécie de peixe considerada é
o peixe-batata pela sua importância comercial e ampla distribuição espacial.
Uma amostra de n = 156 embarcações foi analisada no perı́odo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos.
0.004
0.003
Densidade
0.002
0.001
0.000
128
(Santos ou Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude (sul)1 (de
23,25o a 28,25o ), longitude (oeste)2 (de 41,25o a 50,75o ), dias de pesca, cap-
tura (quantidade de peixes batata capturados, em kg) e cpue (captura por
unidade de esforço, kg/dias de pesca). Um dos objetivos desse estudo é ten-
tar explicar a cpue méida pelas variáveis frota, ano, trimestre, latitude e
longitude. Estudos similares realizados em outros paı́ses verificaram que é
bastante razoável supor que a cpue tem distribuição assimétrica à direita,
como é o caso da distribuição gama (vide, por exemplo, Goni et al.,1999).
600
500
400
cpue
300
200
100
Santos Ubatuba
Frota
129
600
500
400
cpue
300
200
100
95 96 97 98 99
Ano
trimestre = factor(trimestre).
Tabela 2.2
Medidas resumo para a distribuição da cpue segundo a frota e o ano.
Frota Estatı́stica 95 96 97 98 99
Média 229,37 193,19 262,67 210,29 197,22
Santos D.Padrão 148,07 132,55 153,60 122,95 103,45
C. Variação 64,55% 68,61% 58,48% 58,44% 52,45 %
n 19 8 17 27 46
130
600
500
400
cpue
300
200
100
1 2 3 4
Trimestre
131
48
28
47
27
46
LOngitude
26
Latitude
45
44
25
43
24
42
41
Santos Ubatuba Santos Ubatuba
Latitude Longitude
132
casela de referência tem-se as restrições β1 = 0, γ1 = 0 e θ1 = 0. Latitudeijk`
e longitudeijk` denotam, respectivamente, a latitude e longitude da i-ésima
embarcação da frota j no k-ésimo ano e trimestre `.
600
600
500
500
400
400
cpue
cpue
300
300
200
200
100
100
24 25 26 27 28 41 42 43 44 45 46 47 48
Latitude Longitude
Ajustando aos dados o modelo gama com parte sistemática dada por
(2.2) e aplicando o método de Akaike (vide Seção 1.11.2) retira-se o fator
trimestre, permanecendo no modelo os fatores frota e ano além das variáveis
quantitativas latitude e longitude. Para ajustar o modelo e selecionar as
variáveis explicativas deve-se aplicar os seguintes comandos:
attach(pesca)
fit1.pesca = glm(cpue ∼ frota + ano + trimestre + latitude +
longitude, family=Gamma(link=log))
summary(fit1.pesca)
require(MASS)
133
stepAIC(fit1.pesca).
Tabela 2.3
Estimativas dos parâmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Efeito Estimativa E/E.Padrão
Constante 6,898 3,00
Latitude 0,204 2,81
Longitude -0,150 -1,97
Frota-Ubatuba -1,359 -3,68
Ano96 -0,064 -0,26
Ano97 0,141 0,74
Ano98 -0,043 -0,25
Ano99 -0,009 -0,06
FrotaUb*Ano96 0,806 1,77
FrotaUb*Ano97 1,452 3,20
FrotaUb*Ano98 1,502 3,32
FrotaUb*Ano99 1,112 2,76
φ 3,67 9,17
134
com 144 graus de liberdade e P = 0, 14, indicando um modelo bem ajustado.
D(y;µ̂)
Tem-se ainda que R2 = 1 − D(y;ȳ) = 49,464
59,362
= 0, 1667.
250
200
cpue estimada
150
100
Santos
Ubatuba
50
95 96 97 98 99
Ano
135
Santos. Contudo, a partir de 97 as diferenças entre os valores preditos para
as duas frotas diminuem. Os valores preditos para a frota de Santos variam
pouco no perı́odo 95-99, diferentemente dos valores preditos para a frota de
Ubatuba.
2
Componente do Desvio
1
0
−1
−2
136
1.2
8
1.0
17
52
0.8
Distância de Cook
0.6
0.4
0.2
0.0
0 50 100 150
Índice
137
3
2
1
Componente do Desvio
0
−1
−2
−3
−4
−2 −1 0 1 2
Quantil da N(0,1)
138
11
10
10
log(Valor do Seguro)
log(Valor do Seguro)
8
9
8
6
7
6
4
5
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Tempo Operacional Tempo Operacional
nota-se que o logaritmo do valor pago cresce linearmente com o tempo ope-
racional enquanto a variabilidade se mantém aproximadamente constante.
Nota-se também que os valores pagos de seguro são em geral maiores para o
grupo com representação legal.
Na Figura 2.18 tem-se a distribuição aproximada do valor pago de seguro
para os dois grupos, sem representação legal e com representação legal. Em
ambos os gráficos pode-se notar que a distribuição é fortemente assimétrica à
direita, sugerindo distribuições gama ou normal inversa para explicar o valor
pago de seguro.
Denote por Yij o valor pago de seguro para o j-ésimo indivı́duo do i-
ésimo grupo (i = 0, sem representação legal e i = 1 com representação
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pela
ind
Figura 2.18 será assumido inicialmente Yij ∼ G(µij , φi ) com componentes
139
0.00012
0.00012
0.00010
0.00010
0.00008
0.00008
Densidade
Densidade
0.00006
0.00006
0.00004
0.00004
0.00002
0.00002
0.00000
0.00000
0 10000 20000 30000 40000 50000 0 20000 40000 60000 80000 100000 120000
Valor do Seguro Valor do Seguro
140
gamma.shape(fit0.insurance)
gamma.shape(fit1.insurance).
Tabela 2.4
Estimativas dos parâmetros referentes
aos modelos com resposta gama ajustados
aos dados sobre seguro.
Parâmetro Estimativa E/E.Padrão
α0 7,223 44,13
β10 0,204 6,72
β20 -0,005 -5,08
φ0 0,779 12,55
α1 8,805 140,50
β11 0,023 5,48
φ1 2,225 17,66
As estimativas dos parâmetros dos modelos propostos, que foram ajusta-
dos separadamente, são descritas na Tabela 2.4. Nota-se pelas estimativas
que as tendências observadas na Figuras 2.17 foram confirmadas de forma
significativa. Contudo, pelos gráficos normais de probabilidade (Figura 2.19)
nota-se indı́cios de afastamentos da distribuição gama para o valor pago de
seguro, principalmente para o grupo com representação legal. Para o grupo
sem representação legal nota-se que os menores valores do seguro foram su-
perestimados pelo modelo.
Os desvios dos dois modelos foram, respectivamente, de D∗ (y; µ̂) = 0, 779×
347, 15 = 270, 70 com 224 graus de liberdade e D∗ (y; µ̂) = 2, 225 × 261, 45 =
581, 73 com 540 graus de liberdade. Embora as estimativas de φ0 e φ1 se-
jam relativamente pequenas, há indı́cios pelos valores dos desvios de que
os modelos não estão bem ajustados. Os coeficientes de determinação ficam,
261,45
respectivamente, dados por R2 = 1− 347.15
419,59
= 0, 173 e R2 = 1− 283,83 = 0, 079,
confirmando um ajuste mais adequado para o grupo sem representação legal.
141
4
2
2
Componente do Desvio
Componente do Desvio
0
0
−2
−2
−4
−4
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)
142
0.35
42
2
0.30
0.25
1
Componente do Desvio
Distância de Cook
0.20
46
221
0
207
0.15
−1
0.10
0.05
−2
0.00
Figura 2.20: Gráficos de diagnóstico para o modelo com resposta gama ajus-
tado aos dados de seguro para o grupo sem representação legal.
2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estimação
da elasticidade entre a demanda de um produto e seu preço unitário. Como
ilustração, supor que Y denota a demanda e X o preço unitário. É usual em
Econometria (ver, por exemplo, Gujarati, 2006, Seção 6.4) assumir que
Y = β 1 xβ 2 e u , (2.3)
143
em que u é um erro aleatório, em geral assumido N(0, σ 2 ). Isso implica em
2 /2 2 2
eu seguir distribuição log-normal de média eσ e variância eσ (eσ − 1). Em
vez de uma log-normal pode-se assumir, alternativamente, outra distribuição
com resposta positiva. Por exemplo, eu ∼ G(1, φ). Assim, tem-se que a
média de Y dado x fica dada por
µ(x) = β1 xβ2 ,
ou seja log(µ(x)) = log(β1 )+β2 log(x), um MLG com resposta gama e ligação
logarı́tmica.
Para entender a elasticidade entre a demanda e o preço do produto, supor
que o preço aumente r × 100% de modo que o novo preço seja dado por
xN = (1 + r)x, para 0 < r < 1. O novo valor esperado para a demanda fica
dado por
µ(xN ) = β1 xβN2
144
2.5.1 Modelo de Cobb-Douglas
O modelo (2.3) pode ser estendido para duas ou mais variáveis explicativas
as quais poderão representar outros tipos de preço ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equação para explicar a demanda
de um produto pelos insumos de mão de obra e capital:
145
outro lado, se β2 + β3 < 1 tem-se que µ(x1N , x2N ) < rµ(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se β2 + β3 > 1 tem-se que
a demanda esperada aumenta mais que r vezes, µ(x1N , x2N ) > rµ(x1 , x2 ).
Obviamente que existem várias distribuições candidatas para explicar eu ,
sendo as distribuições gama e normal inversa as candidatas naturais na classe
dos MLGs. Pode-se também assumir que log(u) tenha distribuição normal.
Contudo, somente através de uma análise de diagnóstico é que pode-se avaliar
a adequação de cada distribuição.
2.5.2 Aplicação
Como ilustração conside um experimento aleatorizado descrito em Griffiths
et al.(1993, Seção 11.8.1c) em que a produtividade de milho (libras/acre) é
estudada segundo várias combinações de nitrogênio e fosfato (40, 80, 120,
160, 200, 240, 280 e 320 libras/acre). Os dados estão descritos no arquivo
milho.txt. Na Figura 2.21 tem-se os diagramas de dispersão entre a produ-
tividade de milho e as quantidades de nitrogênio e fosfato, respectivamente,
e pode-se notar nessas figuras há indı́cios de uma tendência crescente da pro-
dutividade com o aumento dos insumos. Nota-se também um aumento da
variabilidade com o aumento das quantidades de nitrogênio e fostato, suge-
rindo que a suposição de distribuição gama ou normal inversa para log(u) no
modelo de Cobb-Douglas pode levar a um ajuste adequado. Denote por Yi a
produtividade de milho dada a combinação (x1i , x2i ) de nitrogênio e fosfato
ind
correspondente à i-ésima condição experimental e supor que Yi ∼ G(µi , φ)
com parte sistemática dada por log(µi ) = α + β1 log(x1i ) + β2 log(x2i ), para
i = 1, . . . , 30. A leitura dos dados em R e os comandos para o ajuste do
modelo gama log-linear são dados abaixo
milho = read.table(‘‘milho.txt’’, header=TRUE)
146
summary(milho)
attach(milho)
fit.milho = glm(produtividade ∼ log(nitrogenio) + log(fostato),
family Gamma(link=log))
summary(fit.milho).
120
120
100
100
Produtividade
Produtividade
80
80
60
60
40
40
50 100 150 200 250 300 50 100 150 200 250 300
Nitrogênio Fosfato
147
significativo a 5% com a eliminação da observação #28, indicando que essa
observação pode estar mascarando o efeito do intercepto. A estimativa da
precisão (relativamente alta) indica que um modelo com erros log-normal
também poderia levar a um ajuste adequado. Já o gráfico normal de pro-
babilidades (Figura 2.23) indica que a suposição de erros gama leva a um
ajuste adequado não havendo observações aberrantes. A principal diferença
em assumir erros gama ao invés de erros log-normal é a possibilidade de
maior controle da variabilidade.
Tabela 2.5
Estimativas dos parâmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
Parâmetro Estimativa E/E.Padrão
α 0,469 1,67
β1 0,350 8,30
β2 0,410 10,07
φ 46,59 11,99
148
1.0
1
2
0.8
1
Componente do Desvio
28
0.6
Distância de Cook
0
0.4
−1
0.2
−2
0.0
40 60 80 100 120 0 5 10 15 20 25 30
Valor Ajustado Índice
149
3
2
1
Componente do Desvio
0
−1
−2
−3
−2 −1 0 1 2
Quantil da N(0,1)
150
0.5
0.5
φ=1 φ=2 φ=3
0.6
0.4
0.4
0.3
0.3
0.4
fdp
fdp
fdp
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y
0.5
0.5
0.5
φ=4 φ=6 φ = 10
0.4
0.4
0.4
0.3
0.3
0.3
fdp
fdp
fdp
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y
dada por
p p
S(t) = Φ{(1 − tµ−1 ) φt−1 − exp(2φ/µ)Φ{−(1 + tµ−1 ) φt−1 }.
A função de risco fica expressa na forma h(t) = f (t)/S(t) em que f (y) denota
a função densidade da NI(µ, φ).
151
(xi1 , . . . , xip )> contendo valores de variáveis explicativas e β = (β1 , . . . , βp )>
sendo o vetor de parâmetros de interesse. As ligações mais usadas no caso
normal inversa são identidade (µi = ηi ), logarı́tmica (logµi = ηi ) e recı́proca
quadrática (µi = ηi−2 ), esta última sendo a ligação canônica.
152
Similarmente aos modelos com resposta gama pode-se obter uma ex-
pressão aproximada para a distância de Cook quando a i-ésima observação é
excluı́da. Essa expressão fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i
Aqui também são sugeridos gráficos de tDi e ĥii contra os valores ajustados
µ̂i e gráficos de ı́ndices de LDi .
2.8 Aplicação
Considerar parte dos dados de um experimento desenvolvido no Departa-
mento de Nutrição da Faculdade de Saúde Pública da USP em que 5 formas
diferentes de um novo tipo de snack, com baixo teor de gordura saturada
e de ácidos graxos, foram comparados ao longo de 20 semanas. Neste novo
produto a gordura vegetal hidrogenada, responsável pela fixação do aroma
do produto, foi substituı́da, totalmente ou parcialmente, por óleo de canola.
As formas são as seguintes: A (22% de gordura, 0% de óleo de canola), B
(0% de gordura, 22% de óleo de canola), C (17% de gordura, 5% de óleo de
canola), D (11% de gordura, 11% de óleo de canola) e E (5% de gordura,
17% de óleo de canola). O experimento foi conduzido de modo que nas se-
manas pares 15 embalagens de cada um dos produtos A, B, C, D e E fossem
analisadas em laboratório e observadas diversas variáveis (ver Paula et al.,
2004). Em particular, será inicialmente estudado o comportamento da tex-
tura dos produtos através da força necessária para o cisalhamento. Os dados
referentes a esta variável estão disponı́veis no arquivo snack.txt.
Para ler o arquivo snack.txt no R deve-se fazer o seguinte:
snack = read.table("snack.txt", header=TRUE)
grupo = factor(grupo)
153
summary(snack)
attach(snacks).
120
100
For�a de Cisalhamento
80
60
40
A B C D E
Grupo
154
120
100
Força de Cisalhamento
80
60
40
1 2 3 4 5 6 7 8 9 10
Semanas
155
Estatı́stica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10
Média 50,95 44,66 50,08 55,57 60,15
D.Padrão 13,12 9,76 15,97 16,28 14,72
C. Variação 25,80% 21,90% 31,90% 29,30% 24,50%
156
A
B
80
C
D
E
70
Cisalhamento
60
50
40
5 10 15 20
Semanas
157
ajustam-se muito bem aos dados como pode-se notar pelo valor do desvio do
modelo gama D∗ (y; µ̂) = 756, 87 (753 g.l.) com P=0,35 e pelo gráfico normal
de probabilidades para o modelo com resposta normal inversa apresentado
na Figura 2.29.
3
3
2
2
1
Componente do Desvio
Componente do Desvio
1
0
0
−1
−1
−2
−2
−3
−3
40 45 50 55 60 65 70 40 45 50 55 60 65 70
Valor Ajustado Valor Ajustado
Tabela 2.6
Estimativas dos parâmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Efeito Estimativa E/E.Padrão
Constante 50,564 26,32
Grupo B -10,916 -6,41
Grupo C -5,459 -3,03
Grupo D -15,357 -9,42
Grupo E -16,596 -10,30
Semana 2,727 8,18
Semana2 -0,091 -5,90
φ 1005 -
158
Na Tabela 2.6 são apresentadas as estimativas sob o modelo com resposta
normal inversa. Todos os efeitos são altamente significativos, em particular o
efeito de semana na forma quadrática. Controlando esse efeito, a maior força
média de cisalhamento ocorre com o produto sob a forma A (ausência de óleo
de canola) e a menor força média de cisalhamento ocorre com as formas D e
E, confirmando-se as tendências observadas na Figura 2.22.
4
2
Componente do Desvio
0
−2
−4
−3 −2 −1 0 1 2 3
Quantil da N(0,1)
159
paralelismo entre as curvas apresentadas na Figura 2.30 é devido à não in-
clusão de interação entre semana e grupo. Alternativamente, poderia ser
incluı́da uma função para cada grupo, ou então, o efeito semana poderia ser
controlado através de funções aditivas.
70
60
Valor Predito
50
A
B
C
D
40
5 10 15 20
Semanas
160
dessas 7 observações do total de 744 observações leva a algumas variações
desproporcioanis. Por exemplo, as estimativas dos efeitos dos grupos B e C
diminuem, respectivamente, 9,1% e 14%. Todavia, não ocorrem mudanças
inferenciais entre os efetios dos grupos B, C, D e E com relação ao grupo A.
10
0.20
744
465
2
0.15
311
Distância de Cook
8
405
0.10
0.05
0.00
161
propostos mais recentemente com o intuito de reduzir o viés das estimativas
de máxima verossimilhança, particularmente dos coeficientes do componente
de dispersão. Uma discussão a respeito desses métodos pode ser encontrada
em Smyth e Verbyla (1999).
A fim de formalizar os MLGs duplos supor que Y1 , . . . , Yn são variáveis
aleatórias independentes com função densidade ou função de probabilidades
expressa na forma
em que xi = (xi1 , . . . , xip )> e zi = (zi1 , . . . , ziq )> contêm valores de variáveis
explicativas e β = (β1 , . . . , βp )> e γ = (γ1 , . . . , γq )> são os parâmetros a
serem estimados.
Seja θ = (β > , γ > )> , então o logaritmo da função de verossimilhança fica
dado por
n
X
L(θ) = [φi {yi θi − b(θi )} + d(φi ) + φi a(yi ) + u(yi )]
i=1
Xn
= {φi ti + d(φi ) + u(yi )}, (2.7)
i=1
162
igual a 1. Pelas propriedades da famı́lia exponencial segue que
Tabela 2.7
Derivação de algumas quantidades para distribuições da famı́lia exponencial.
Normal Normal inversa Gama
ti yi µi − 21 (µ2i + yi2 ) −{yi /2µ2i − µ−1i + (2y i )−1
} log(yi /µi ) − yi /µi
1 1
d(φ) 2
logφ 2
logφ φlogφ − logΓ(φ)
0 −1 −1
d (φ) (2φ) (2φ) (1 + logφ) − ψ(φ)
d00 (φ) -(2φ2 )−1 -(2φ2 )−1 φ−1 − ψ 0 (φ)
E2 (Di )
E(Di ) = φ−1
i e Var(Di ) = ,
ν
em que ν = 12 . Portanto, a expressão (2.7) pode ser interpretada para os
modelos com resposta normal e normal inversa como um MLG de respostas
independentes D1 , . . . , Dn com distribuição gama de médias φ−1 −1
1 , . . . , φn ,
163
2.9.1 Estimação
A função escore e a matriz de informação de Fisher para β podem ser obtidas
facilmente seguindo os passos da Seção 1.5.1. Assim, obtém-se
1 1
Uβ = X> ΦW 2 V− 2 (y − µ) e
Kββ = X> ΦWX,
Uγ = Z> H−1
γ (t − µT ),
em que Hγ = diag{h0 (φ1 ), . . . , h0 (φn )}, t = (t1 , . . . , tn )> e µT = (E(T1 ), . . . , E(Tn ))>
= (−d0 (φ1 ), . . . , −d0 (φn ))> .
Para obter a matriz de informação de Fisher para o parâmetro γ é preciso
das derivadas
n
2
X zij 00 dφi 00 0 dφi
∂ L(θ)/∂γj ∂γ` = − d (φi )h(φi ) zi` − h (φi ){ti + d (φi )} zi`
i=1
{h0 (φi )}2 dλi dλi
n
h00 (φi )
X zij zi` 00 0
= − 0 (φ )}2
d (φi ) − 0 {ti + d (φi )} ,
i=10
{h i h (φi)
164
cujos valores esperados ficam dados por
n
∂ 2 L(θ) d00 (φi )
X
E − =− zij zi` .
∂γj ∂γ` i=1
{h0 (φi )}2
em que P = Vγ H−2 00 00
γ , Vγ = diag{−d (φ1 ), . . . , −d (φn )}. Devido à ortogona-
β (m+1) = (X> Φ(m) W(m) X)−1 X> Φ(m) W(m) y∗(m) e (2.8)
γ (m+1) = (Z> P(m) Z)−1 Z> P(m) z∗(m) , (2.9)
1 1
em que y∗ = Xβ + W− 2 V− 2 (y − µ), z∗ = Zγ + Vγ−1 Hγ (t − µT ) e m =
0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo iterativo
(2.8)-(2.9) pode ser resolvido alternando-se as duas equações até a con-
vergência. Pode-se iniciar o processo iterativo (2.8) com as estimativas do
MLG com φi comum a todas as observações.
Sob as condições de regularidade apresentadas na Seção 1.6.3 segue para
−1
n grande que β̂ ∼ Np (β, Kββ ) e γ̂ ∼ Nq (γ, K−1
γγ ), respectivamente. Além
165
2.9.2 Métodos de diagnóstico
Nesta subseção será apresentada a derivação de alguns procedimentos de
diagnóstico para a classe dos MLGs duplos (vide Paula, 2013).
Resı́duos
Na classe dos MLGs duplos pode-se definir desvios para a média e para a
precisão, respectivamente. O desvio para a média assume a mesma expressão
da classe dos MLGs em que somente a média é ajustada, com φi no lugar
de φ. Denota-se esse desvio por D∗1 (y; µ̂, φ) = ni=1 d∗2
P
1 (yi ; µ̂i , φi ), em que
d∗2
1 (yi ; µ̂i , φi ) = 2φi [yi (θ̃i − θ̂i ) + {b(θ̂i ) − b(θ̃i )}]. Para φi grande ∀i o desvio
D∗1 (y; µ̂, φ) pode ser comparado com os quantis da distribuição qui-quadrado
com (n − p) graus de liberdade. Para o modelo normal heteroscedástico o
Pn −2
desvio para a média fica dado por D∗1 (y; µ̂, φ) = 2
i=1 σi (yi − ŷi ) . Na
demais MLGs duplos o resı́duo componente do desvio para a média fica dado
por
d∗ (yi ; µ̂i , φ̂i )
tD1i = 1p ,
1 − ĥii
q
em que d∗1 (yi ; µ̂i , φ̂i ) = ± d∗2
1 (yi ; µ̂i , φ̂i ), o sinal continua sendo o mesmo de
166
ou seja,
ĥii = φ̂i ω̂i x> > −1
i (X Φ̂ŴX) xi .
em que d∗2
2 (yi ; φ̂i , µi ) = 2[ti (φ̃i − φ̂) + {d(φ̃i ) − d(φ̂i )}], φ̃i é solução para φi
sob o modelo saturado sendo dada por d0 (φ̃i ) = −ti . Para os modelos com
resposta normal e normal inversa tem-se que φ̃i = −(2ti )−1 . Já para modelos
com resposta gama φ̃i é a solução da equação {ψ(φ̃i ) − logφ̃i + 1} = ti . Aqui
também para φi grande ∀i o desvio D∗2 (y; φ̂, µ) pode ser comparado com os
quantis da distribuição qui-quadrado com (n − q) graus de liberdade.
O resı́duo componente do desvio para a precisão fica dado por
ou seja,
r̂ii = p̂i z> > −1
i (Z P̂Z) zi .
Note que pi = −d00 (φi ){h0 (φi )}−2 . Por exemplo, para ligação logarı́tmica
tem-se que h(φi ) = logφi então h0 (φi ) = φ−1
i e portanto pi = −φ2i d00 (φi ).
Assim, para os modelos com resposta normal e normal inversa segue que pi =
φ2i (2φ2i )−1 = 1
2
e para os modelos com resposta gama pi = φi {φi ψ 0 (φi ) − 1}.
Sugere-se o gráfico normal de probabilidades para tD2i e o gráfico de tD2i
contra os valores ajustados.
167
Influência
Para avaliar a sensibilidade das estimativas dos parâmetros que modelam a
média pode-se usar a medida de influência LDi definida na Seção 1.10.3 com
φ̂i no lugar de φ̂, que será definida por
( )
ĥii
LDβi = t2Si ,
1 − ĥii
em que q
φ̂i (yi − µ̂i )
tSi = q .
V̂i (1 − ĥii )
Gráficos de ı́ndices de LDβi e ĥii contra os valores ajustados são recomendados.
Para avaliar a sensibilidade da estimativa γ̂ quando a i-ésima observação
é deletada será utilizada uma aproximação de um passo, que é obtida de
forma similar à aproximação de uma passo β̂ (i) descrita na Seção 1.10.3,
dada por
(Z> P̂Z)−1 zi {ti + d0 (φ̂i )}
γ̂ (i) = γ̂ − , (2.10)
h0 (φ̂i )(1 − r̂ii )
em que r̂ii é o i-ésimo elemento da diagonal principal da matriz R.
Uma medida para avaliar a influência nas estimativas dos parâmetros da
precisão fica dada por
168
Gráficos de ı́ndices de LDγi e r̂ii contra os valores ajustados são recomendados.
Para os modelos com resposta normal e com resposta normal inversa o
resı́duo tTi assume a forma
ti + (2φ̂i )−1
tTi = √ √ ,
( 2φ̂i )−1 1 − r̂ii
e para modelos com resposta gama tem-se que
ti + {1 + logφ̂i − ψ(φ̂i )}
tTi = q .
{ψ 0 (φ̂i ) − φ̂−1
i }(1 − r̂ii )
Verbyla (1993) apresenta uma aproximação de uma passo para γ̂ (i) para
o caso normal usando um esquema de perturbação especı́fico para modelos
normais heteroscedásticos. Para obter a aproximação apresentada em (2.10)
usa-se a ponderação de casos usual para MLGs. Estudos sobre a qualidade
da aproximação apresentada em (2.10) ainda não foram desenvolvidos.
2.9.3 Aplicação
Pela análise descritiva apresentada na Seção 2.8.1 sobre o comportamento da
força de cisalhamento dos cinco tipos de snack ao longo das 20 semanas e
também pelo gráfico de perfis para a força de cisalhamento (Figura 2.32) nota-
se que o coeficiente de variação não parece ser constante. Assim, a modelagem
dupla da média e da precisão pode levar a um ajuste mais satisfatório para
ind
o modelo com resposta gama. Dessa forma supor que Yijk ∼ G(µij , φij ),
em que Yijk denota a força de cisalhamento referente à k-ésima réplica do
i-ésimo grupo na j-ésima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20 e
i =1(A),2(B),3(C),4(D) e E(5), com parte sistemática dada por
169
em que β1 = 0 e γ1 = 0. Portanto β0 e γ0 são os efeitos da forma A,
controlando-se pela semana, na média e na precisão, respectivamente, en-
quanto β0 + βi e γ0 + γi são os efeitos das demais formas B, C, D e E na
média e precisão, respectivamente.
Tabela 2.8
Estimativas dos parâmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Média Dispersão
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante 36,990 11,53 1,560 7,27
Grupo B -10,783 -6,40 0,477 2,95
Grupo C -3,487 -1,98 0,050 0,31
Grupo D -14,829 -9,18 0,815 5,05
Grupo E -15,198 -9,54 0,817 5,06
Semana 5,198 9,88 0,155 3,91
Semana2 -0,189 -8,88 -0,005 -2,99
sendo necessário fazer as adaptações nos modelos com resposta gama e normal
inversa para obter log(φi ), ajuste da precisão. Em particular no caso de
modelos normais heteroscedásticos tem-se diretamente o ajuste de log(σi2 ),
em que σi2 é a variância.
Na Tabela 2.8 são apresentadas as estimativas com os respectivos erros
padrão dos parâmetros da média e da dispersão. Pode-se notar pelas estima-
tivas dos parâmetros da média as mesmas tendências observadas na Figura
170
0.35
A
B
C
D
0.30
E
CV do Cisalhamento
0.25
0.20
0.15
0.10
0.05
5 10 15 20
Semanas
2.30 para o modelo com resposta normal inversa. O grupo A tem a maior
média para a força de cisalhamento enquanto os grupos D e E têm as meno-
res médias. Com relação às estimativas dos parâmetros da dispersão nota-se
que a variabilidade (no sentido do coeficiente de variação) depende do tempo
de forma quadrática e que os grupos A e C apresentam maior variabilidade
enquanto os grupos D e E apresentam as menores variabilidades.
Nota-se ainda que os mesmos efeitos que são significativos para os parâmetros
da média são também significativos para os parâmetros da dispersão. Ape-
nas três observações, #430, #595 e #744, aparecem como possivelmente
influentes nos parâmetros da média e da dispersão, como pode ser observado
pelas Figuras 2.33 e 2.34. A eliminação desses pontos não muda a inferência.
Pelos gráficos normais de probabilidades para o resı́duo componente do des-
171
0.35
744
0.30
0.25
Distancia de Cook
0.20
553
405
0.15
0.10
0.05
0.00
Indice
vio para a média e para a dispersão apresentados nas Figuras 2.35 e 2.36,
respectivamente, não há indı́cios de inadequação do MLG duplo.
2.10 Exercı́cios
1. Seja Y ∼ G(µ, φ) e considere a variável aleatória log(Y ). Use a condição
de regularidade E(Uφ ) = 0 para mostrar que E{log(Y )} = log(µ) −
log(φ) + ψ(φ), em que Uφ = ∂L(µ, φ)/∂φ.
172
1.0
744
0.8
0.6
Distancia de Cook
0.4
0.2
0.0
Indice
iid
Yi ∼ G(µ, φ), é dado por D∗ (y; µ̂) = 2nφlog(ȳ/ỹ), em que ỹ é a média
geométrica das observações, isto é ỹ = (Πni=1 yi )1/n .
173
2
Componente do Desvio
0
−2
−4
−3 −2 −1 0 1 2 3
Quantil da N(0,1)
ind √
6. Supor Yij ∼ NI(µ, φi ) para i = 1, 2 e j = 1, . . . , r com φ1 = λ1 = α
√
e φ2 = λ2 = α + ∆. Inicialmente obter as matrizes Z e P. Em
seguida obter as variâncias e covariância assintóticas Var(b
α), Var(∆)
b e
Cov(b
α, ∆)
b deixando em função dos componentes de P. Obter α
be∆
b
(use a propriedade de invariãncia). Mostre que a estatı́stica do teste
de Wald para testar H0 : ∆ = 0 contra H1 : ∆ 6= 0 pode ser expressa
na forma q q
{ φ2 − φb1 }2
b
ξW = 2r .
φb1 + φb2
Mostre que µ
b = (φb1 ȳ1 + φb2 ȳ2 )/(φb1 + φb2 ). Qual a distribuição nula
assintótica da estatı́stica do teste?
174
4
2
Componente do Desvio
0
−2
−4
−6
−3 −2 −1 0 1 2 3
Quantil da N(0,1)
Faça inicialmente uma análise descritiva dos dados, por exemplo apre-
sentando os perfis médios da resistência segundo a voltagem para os
dois nı́veis de temperatura. Cacule também para cada casela algumas
medidas descritivas tais como média, desvio padrão e coeficiente de
175
variação. Comente.
Voltagem(kV)
o
Temperatura ( C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588
176
e mostre que φ̂ = n/D(y; µ̂) é a estimativa de máxima verossimilhança
de φ. Qual a distribuição nula assintótica da estatı́stica do teste?
177
fica a estimação de µ e γ? Obtenha a estatı́stica do teste da razão de
verossimilhanças para testar H0 : γ1 = 0 contra H1 : γ1 6= 0. Qual a
distribuição nula assintótica da estatı́stica do teste?
iid
12. Supor Yi ∼ NI(µ, φ), para i = 1, . . . , n, em que γ = log(φ). Obter a
estimativa de máxima verossimilhança γ̂ (dado φ̂) e Kγγ . Como fica a
estatı́stica do teste de Wald para testar H0 : γ = 0 contra H1 : γ 6= 0?
178
φ. Mostre que a estatı́stica da razão de verossimilhanças para testar
H0 : φ = 1 contra H1 : φ 6= 1 vale
17. Supor Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
G(µi , φ) para i = 1, 2 e j = 1, . . . , m, sendo log(µ1 ) = α − β e
log(µ2 ) = α + β. (i) Obtenha a matrix modelo X. (ii) Expresse
em forma fechada as estimativas de máxima verossimilhança α̂ e β̂.
(iii) Calcule as variâncias assintóticas Var(α̂) e Var(β̂) e mostre que
Cov(α̂, β̂) = 0. (iv) Como fica o teste de escore para testar H0 : β = 0
contra H1 : β 6= 0? Qual a distribuição nula assintótica da estatı́stica
do teste?
179
duração do filme (em horas) é relacionado com a densidade máxima
do filme sob três condições experimentais conforme descrito na tabela
abaixo e também no arquivo dfilme.txt.
180
sidere como variável resposta cmsinistros = csinistros/nsinistros.
Aplique numa primeira etapa modelos com resposta gama e normal
inversa com φ constante. Faça uma análise de diagnóstico. Numa se-
gunda etapa, se necessário, aplique modelos duplos com resposta gama
e normal inversa. Faça também uma análise de diagnóstico. Para o
modelo final selecionado interprete os coeficientes estimados.
genero = factor(genero).
181
(que será assumida como resposta). Depois proponha um modelo linear
normal homocedástico e verifique a possibilidade de também modelar
a variância.
loc=factor(loc).
182
são descritas as seguintes variáveis de 69 cidades de diversos paı́ses:
require(alr4)
require(MASS)
attach(BigMac2003)
summary(BigMac2003).
183
as correlações lineares amostrais bem como os diagramas de dispersão
(com tendência) entre a variável resposta e cada uma das variáveis ex-
plicativas. Comente. Padronize as variáveis explicativas. Por exemplo,
para padronizar a variável explicativa Bread use o comando
fit2.bigmac = stepGAIC(fit1.bigmac).
184
dade de esforço, em kg). As variáveis (iii) a (vii) foram observadas no
local de pesca.
attach(raia).
185
Finalmente, ajustar o modelo final pelo GAMLSS. Comente os gráficos
de resı́duos quantı́licos gerados pelos comandos plot e wp.
AG Positivo AG Negativo
WBC Tempo WBC Tempo
2300 65 4400 56
750 156 3000 65
4300 100 4000 17
2600 134 1500 7
6000 16 9000 16
10500 108 5300 22
10000 121 10000 3
17000 4 19000 4
5400 39 27000 2
7000 143 28000 3
9400 56 31000 8
32000 26 26000 4
35000 22 21000 3
100000 1 79000 30
100000 1 100000 4
52000 5 100000 43
100000 65
186
distribuição gama, proponha um modelo para explicar o tempo médio
de sobrevivência dados log(WBC) e AG(=1 positivo, =0 negativo).
Faça uma análise de diagnóstico com o modelo ajustado e interprete as
estimativas.
187
Capı́tulo 3
3.1 Introdução
Neste capı́tulo serão apresentados modelos para a análise de dados com res-
posta binária, isto é, resposta que admite apenas dois resultados. Comumente
é chamado de sucesso o resultado mais importante da resposta ou aquele que
pretende-se relacionar com as demais variáveis de interesse. É comum encon-
trar situações práticas em que esse tipo de resposta aparece. Como ilustração,
seguem alguns exemplos: (i) o resultado do diagnóstico de um exame de labo-
ratório, positivo ou negativo; (ii) o resultado da inspeção de uma peça recém
fabricada, defeituosa ou não defeituosa; (iii) a opinião de um eleitor a respeito
da implantação do voto distrital, favorável ou outra opinião; (iv) o resultado
de um teste de aptidão aplicado a um estudante, aprovado ou reprovado;
(v) classificação de um cliente de uma instituição financeira com relação a
um empréstimo para financiamento imobiliário, adimplente ou inadimplente;
(vi) o resultado de uma promoção de uma rede de lojas enviando para cada
cliente um cupom com desconto, cupom utilizado ou cupom não utilizado
num determinado perı́odo, etc. Há também situações em que apenas duas
possibilidades são consideradas de interesse para uma variável contı́nua, valo-
188
res menores do que um valor de referência v0 e valores maiores ou iguais a v0 .
Nesses casos, pode-se considerar uma nova variável binária para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v0
pode ser a nota mı́nima para ser aprovado no exame, ou o valor mı́nimo para
um exame de laboratório ser considerado alterado. Assim, variáveis binárias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, uma resenha dos principais métodos clássicos para a análise
de tabelas de contingência do tipo 2 × 2 será apresentada neste capı́tulo. Em
seguida, será descrito o modelo de regressão logı́stica para a análise de tabelas
de contingência 2×2. Também serão discutidos procedimentos para a seleção
de variáveis em modelos logı́sticos, métodos de diagnóstico, alguns tipos de
modelos de dose-resposta, sobredispersão e regressão logı́stica condicional.
189
3.2.1 Risco relativo
Supor que os indivı́duos de uma determinada população sejam classificados
segundo um fator com dois nı́veis, A e B, e a presença ou ausência de uma
certa doença, denotados por D e D̄, respectivamente. As proporções popu-
lacionais ficam, nesse caso, descritas conforme a tabela abaixo.
Fator
Doença A B
D P 1 P3
D̄ P 2 P4
A razão entre as duas proporções acima foi denominada por Cornfield (1951)
como sendo o risco relativo de doença entre os nı́veis A e B, ou seja
P1 /(P1 + P2 ) P1 (P3 + P4 )
RR = = . (3.1)
P3 /(P3 + P4 ) P3 (P1 + P2 )
Cornfield (1951) também notou que se a doença for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
P1 P4
ψ= , (3.2)
P3 P2
a qual denominou odds ratio, que será denominada razão de chances. Muitas
vezes é comum ψ ser chamado de risco relativo, embora isso somente seja
válido quando P1 e P3 forem muito pequenos. A grande vantagem do uso de ψ
190
é a facilidade inferencial tanto na abordagem tradicional como na abordagem
através de regressão.
Como em geral a porcentagem de indivı́duos doentes é muito menor do
que a porcentagem de não doentes, é bastante razoável num estudo cujo ob-
jetivo é avaliar a associação entre algum fator particular e uma certa doença,
que a quantidade de doentes na amostra seja a maior possı́vel. Assim, a amos-
tragem retrospectiva, em que os indivı́duos são escolhidos separadamente nos
estratos D e D̄, pode ser mais conveniente do que os demais procedimentos
amostrais. Um cuidado, entretanto, deve-se ter nesses estudos. É impor-
tante que os doentes (casos) sejam comparáveis aos não doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doença. Nos estudos prospectivos, em que a amostragem é
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessário um longo perı́odo até a obtenção de um número
suficiente de doentes para uma análise estatı́stica mais representativa.
As inferências para os estudos retrospectivos e prospectivos são idênticas,
assim será descrito apenas o caso retrospectivo. Assim, assume-se que no es-
trato D são amostrados n1 indivı́duos e que no estrado D̄ são amostrados n2
indivı́duos. O número observado de indivı́duos com presença de A nos estra-
tos D e D̄ será denotado por y1 e y2 , respectivamente. Os dados resultantes
dessa amostragem podem ser resumidos conforme a tabela abaixo.
Fator
Doença A B Total
D y1 n1 − y1 n1
D̄ y 2 n2 − y 2 n2
191
população segundo a ocorrência de algum evento de interesse. Por exemplo,
A poderia denotar os condutores do sexo masculino com apólice de seguro
de automóvel de uma seguradora, enquanto B denotaria os condutores do
sexo feminino da mesma seguradora. O evento D poderia ser a utilização da
apólice para cobrir alguma sinistralidade num determinado perı́odo. Assim,
pode-se estimar a razão de chances entre condutores do sexo masculino e con-
dutores do sexo feminino de utilização da apólice para cobrir sinistralidade.
Como o evento D neste caso não deve ser raro, risco relativo e razão de chan-
ces devem ser quantidades diferentes. A seguir será discutida a abordagem
clássica para analisar a tabela acima.
192
em que n = n1 + n2 . O logaritmo da função de verossimilhança fica portanto
dado por
n1 n2 π2
L(ψ, π2 ) = log + y1 log(ψ) + (y1 + y2 ) log +
y1 y2 1 − π2
+n log(1 − π2 ) + n1 log(ψπ2 + 1 − π2 ).
193
{1/n1 π1 (1 − π1 ) + 1/n2 π2 (1 − π2 )}. Esse resultado também pode ser facil-
mente mostrado através do método delta aplicado à transformação log(ψ),
em que
VarA {log(ψ̃)} = {d log(ψ)/dψ}2 VarA (ψ̃)
194
de probabilidade é definida por
n1 n2
y1m−y1
ψ y1
f (y1 |m; ψ) = P n1 n2 t , (3.5)
t t m−t
ψ
em que 0 < ψ < ∞ e t varia de max(0, m − n2 ) a min(n1 , m). Em particu-
lar, quando ψ = 1, a expressão (3.5) fica reduzida à conhecida distribuição
hipergeométrica central, com função de probabilidade dada por
n1
n2
y1 m−y1
f (y1 |m; ψ = 1) = n1 +n2
.
m
195
Com o aumento de n1 , n2 , m e n − m, fica impraticável obter ψ̂ através
de (3.6), uma vez que essa equação contém polinômios em ψ̂ de grau bas-
tante elevado. Uma saı́da, nesses casos, é resolver (3.6) através de métodos
numéricos que não requerem a extração das raı́zes do polinômio P1 (ψ)P0−1 (ψ)
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
Para ilustrar a obtenção de ψ̂, considere a tabela abaixo.
A B Total
D 1 3 4
D̄ 1 2 3
Tem-se, nesse caso, que n1 = 4, n2 = 3 e m = 2. A função de probabilidade
da distribuição condicional fica então dada por
X 4 3
4 3 y1
f (y1 |m; ψ) = ψ / ψt,
y1 2 − y1 t
t 2 − t
em que o somatório varia no intervalo 0 ≤ t ≤ 2. Isso resulta nas probabili-
dades condicionais
196
−1 1 1 1 1
VA (ψ) = + + + ,
EA (ψ) n1 − EA (ψ) m − EA (ψ) n2 − m + EA (ψ)
EA (ψ){n2 − m + EA (ψ)}
= ψ, (3.7)
{n1 − EA (ψ)}{m − EA (ψ)}
que para ψ fixo resulta numa equação quadrática em EA (ψ). Mostra-se,
para ψ 6= 1, que a única raiz de (3.7) que satisfaz max(0, m − n2 ) ≤ EA (ψ) ≤
min(n1 , m) é dada por
197
Um caso de interesse seria testar H0 : ψ = ψ0 contra H1 : ψ < ψ0 , em que
ψ0 é um valor conhecido. O nı́vel descritivo (valor-P) do teste, isto é, a pro-
babilidade sob H0 de obtenção de valores tão ou mais desfavoráveis a H0 (no
sentido de H1 ) é definido por
X
PI = f (t|m; ψ0 ),
t≤y1
α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I ),
2 t≤y 2 t≥y
1 1
que são polinômios de grau elevado em ψ̂S e ψ̂I à medida que os tamanhos
amostrais crescem, o que praticamente inviabiliza a solução das equações.
Nesses casos, uma alternativa é trabalhar com intervalos assintóticos.
198
Voltando à tabela da seção anterior, supor que o interesse é testar H0 :
ψ = 1 contra H1 : ψ 6= 1. Tem-se então os nı́veis descritivos PI = f (0|m; ψ =
1) + f (1|m; ψ = 1) = 15/21 e PS = f (1|m; ψ = 1) + f (2|m; ψ = 1) = 18/21
o que leva a P= 1, 0. Por outro lado, os limites ψ̂I e ψ̂S ficam dados por
1 2
α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I )
2 t=0
2 t=1
4ψ̂I + 2ψ̂I2
0, 10 = (ψ̂I = 0, 0274)
1 + 4ψ̂I + 2ψ̂I2
e
1 + 4ψ̂S
0, 10 = (ψ̂S = 18, 25).
1 + 4ψ̂S + 2ψ̂S2
Testes assintóticos
Para grandes amostras, n1 , n2 , m e n − m grandes, a distribuição condicional
(3.5) se aproxima de uma distribuição normal de média EA (ψ) e variância
VA (ψ) (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para
o desenvolvimento de testes assintóticos para testar H0 : ψ = ψ0 contra
H1 : ψ 6= ψ0 (H1 : ψ > ψ0 ou H1 : ψ < ψ0 ). No caso de H1 : ψ 6= ψ0 , utiliza-se
a estatı́stica qui-quadrado dada abaixo
199
que sob H0 segue assintoticamente distribuição qui-quadrado com 1 grau de
liberdade. Para H1 : ψ < ψ0 e H1 : ψ > ψ0 , o nı́vel descritivo é dado por
( )
y1 − EA (ψ0 )
PI = P r Z ≤ p
VA (ψ0 )
e ( )
y1 − EA (ψ0 )
PS = P r Z ≥ p ,
VA (ψ0 )
respectivamente, em que Z segue distribuição N(0, 1). Em particular, quando
ψ0 = 1, a estatı́stica qui-quadrado (3.8) fica reduzida à forma conhecida
2
y1 − mn
1
2 n
X = . (3.9)
n1 n2 m(n − m)/n3
Um intervalo assintótico de confiança para ψ pode ser obtido utilizando
a distribuição assintótica de log(ψ̃). Os limites desse intervalo são dados por
q
ψ̃I = exp[log(ψ̃) − z(1−α/2) V̂arA {log(ψ̃)}]
e q
ψS = exp[log(ψ̃) + z(1−α/2) V̂arA {log(ψ̃)}],
{log(ψ̃)}2
X2 = , (3.10)
V̂arA {log(ψ̃)}
200
que segue, para grandes amostras, distribuição qui-quadrado com 1 grau de
liberdade. Assim, os limites ficam reexpressos nas formas
e
ψ̃S = ψ̃ (1+z(1−α/2) /X) .
Alguns autores (ver Breslow e Day, 1980, p. 135) têm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (ψ̃I , ψ̃S ) é em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 são muito
diferentes, essa probabilidade de cobertura é superestimada. Uma sugestão,
nesses casos, é utilizar o valor de X obtido do teste condicional (3.9) em vez
do valor obtido do teste não condicional (3.10).
Fator
Doença A B Total
D y1i n1i − y1i n1i
D̄ y2i n2i − y2i n2i
201
Seguindo a mesma notação das seções anteriores tem-se que as estimativas
não condicional e condicional de ψi são, respectivamente, tais que
H0 : ψ1 = · · · = ψk
H1 : pelo menos dois valores diferentes.
e pode também ser expressa como uma média ponderada de estimativas não
202
condicionais Pk
vi ψ̃i
ψ̂M H = Pi=1
k
,
i=1 vi
em que vi = y2i (n1i − y1i )/ni . O estimador de Mantel-Haenszel é consistente
e assintoticamente normal com variância assintótica dada por
k
X k
X
VarA (ψ̂M H ) = ψ 2
ai ωi−1 /( ai )2 ,
i=1 i=1
em que ωi = {n1i π1i (1 − π1i )}−1 + {n2i π2i (1 − π2i )}−1 e ai = n1i n2i (1 −
π1i )π2i /ni . A estimativa de Wolf é dada por
(P )
k −1
ω̃
i=1 i log( ψ̃ i )
ψ̂W = exp Pk −1
,
i=1 ω̃i
em que ω̃i = {1/y1i + 1/(n1i − y1i ) + 1/y2i + 1/(n2i − y2i )}. Esse estimador é
também consistente e assintoticamente normal com variância dada por
VarA (ψ̂W ) = ψ 2 ω −1 ,
e q
ψS = exp[log(ψ̂W ) + z(1−α/2) V̂arA {log(ψ̂W )}],
203
3.3.2 Testes de homogeneidade
Supor que o interesse é testar as hipóteses H0 e H1 definidas na seção ante-
rior. A estatı́stica da razão de verossimilhanças que assume o produto de 2k
binomiais independentes é a mais utilizada nesse caso. Do ponto de vista de
análise preliminar dos dados, duas estatı́sticas têm sido sugeridas. A primeira
delas (vide Hosmer et al., 2013), é definida abaixo
k
X
2
XHL = ω̃i−1 {log(ψ̃i ) − log(ψ̂W )}2 ,
i=1
que segue, sob H0 e assintoticamente (para n1i e n2i grandes, ∀i), distribuição
qui-quadrado com k − 1 graus de liberdade. A outra estatı́stica, definida em
Breslow e Day (1980, p. 42), é baseada no modelo condicional, sendo expressa
na forma
k
2
X {y1i − EAi (ψ̂M H )}2
XBD = ,
i=1 VAi (ψ̂M H )
que também segue, sob H0 e para grandes amostras, distribuição qui-quadrado
com k − 1 graus de liberdade. A estatı́stica do teste é avaliada na estimativa
não iterativa de Mantel-Haenszel ao invés da estimativa condicional ψ̂.
Quando a hipótese nula não é rejeitada, um teste imediato é verificar a
não existência de associação entre o fator e a doença, mantendo apenas o
efeito da estratificação. Esse teste, conhecido como teste de Mantel-Haenszel
(1959), utiliza a seguinte estatı́stica:
Pk Pk
2 { i=1 y1i − i=1 EAi (1)}2
XM H = Pk ,
i=1 VAi (1)
204
ψ com coeficiente de confiança (1 − α) fica dado por
(1±z /XM H )
(ψ̂I , ψ̂S ) = ψ̂M H (1−α/2) ,
p
2
em que XM H = XM H . Para melhorar a aproximação para a distribuição
Fator
Doença Nı́vel 1 Nı́vel 2 · · · Nı́vel k Total
n1 − k−1
P
D y11 y12 ··· y1i n1
Pi=1k−1
D̄ y21 y22 ··· n2 − i=1 y2i n2
Analogamente ao caso de uma única tabela 2×2, assume-se que são amostra-
dos n1 elementos do estrato D e n2 elementos do estrato D̄ e que (Yi1 , . . . , Yik )>
segue distribuição multinomial de parâmetros (πi1 , . . . , πik )> , com πik =
1 − k−1
P
j=1 πij , i = 1, 2. Comumente, para analisar as associações entre os
205
em que ψj é a razão de chances entre o nı́vel j e o nı́vel 1 do fator. As
análises inferenciais através do uso do modelo multinomial são tratadas em
textos correntes de análise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, o estudo será restrito ao modelo condicional, que é obtido após
o condicionamento de (Yi1 , . . . , Yik )> , i = 1, 2, nas estatı́sticas suficientes mi-
nimais Y1j + Y2j = mj , j = 1, · · · , k. O modelo resultante é caracterizado
pela distribuição hipergeométrica multivariada não central que depende ape-
nas dos parâmetros de interesse ψ1 , . . . , ψk (ver McCullagh e Nelder, 1989,
p. 261). Em particular, a hipótese de ausência de associação completa entre
os nı́veis do fator e a doença é definida por H0 : ψj = 1, ∀j, que será avaliada
através da distribuição hipergeométrica central k-dimensional, cuja função
de probabilidade é o produto de k distribuições hipergeométricas centrais
n1j
k
n2j
y1j mj −y1j
Y
f (y1 |m; ψ = 1) = n1j +n2j
, (3.11)
j=1 mj
206
dado por
k
(n − 1) X 1 1
XA2 = {y1j − Ej (1)}2
+
n j=1
Ej (1) mj − Ej (1)
k
1 X {y1j − Ej (1)}2
1
= (n − 1) + , (3.12)
n1 n2 j=1 mj
207
Generalizações de (3.12) e (3.13) para o caso de h estratos são dadas em
Breslow e Day (1980, pgs. 148-149).
3.5 Aplicações
3.5.1 Associação entre fungicida e desenvolvimento de
tumor
Como ilustração, será analisado o conjunto de dados apresentado em Innes
et al. (1969), referente a um estudo para avaliar o possı́vel efeito cancerı́geno
do fungicida Avadex. No estudo, 403 camundongos são observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, veri-
ficando o desenvolvimento ou não de tumor cancerı́geno. Os demais animais
não receberam o fungicida (grupo controle) e também foram acompanhados
pelo mesmo perı́odo, verificando a ocorrência ou não de tumor. Dois fatores
potenciais de confundimento, sexo e raça, foram considerados nas análises.
Os dados do experimento são resumidos na Tabela 3.1.
Em virtude dos valores relativamente altos das marginais das quatro ta-
belas 2 × 2 formadas pela combinação dos fatores sexo e raça, será aplicada
uma análise através do modelo não condicional. Tem-se então, na primeira
coluna da Tabela 3.2, as estimativas pontuais das razões de chances de tu-
mor maligno entre o grupo tratado e o grupo controle. Na segunda coluna
tem-se as estimativas intervalares assintóticas de 95% para ψ. Nota-se que,
embora todas as estimativas sinalizem para uma associação positiva, ape-
nas o primeiro intervalo de confiança não cobre o valor ψ = 1, evidenciando
associação apenas no primeiro estrato, ao nı́vel de 5%.
208
Tabela 3.1
Classificação dos camundongos conforme a raça (R1 ou R2),
sexo, grupo e ocorrência ou não de tumor cancerı́geno.
Estrato Grupo Com tumor Sem tumor Total
Tratado 4 12 16
R1-Macho Controle 5 74 79
Total 9 86 95
Tratado 2 14 16
R2-Macho Controle 3 84 87
Total 5 98 103
Tratado 4 14 18
R1-Fêmea Controle 10 80 90
Total 14 94 108
Tratado 1 14 15
R2-Fêmea Controle 3 79 82
Total 4 93 97
Tabela 3.2
Estimativas das razões de chances de tumor
cancerı́geno nos estratos de camundongos.
Estrato Estimativa ψ̃ Intervalo assintótico
R1-Macho 4,93 [1,163 ; 21,094]
R2-Macho 4,00 [0,612 ; 26,102]
R1-Fêmea 2,29 [0,629 ; 8,306]
R2-Fêmea 1,88 [0,183 ; 19,395]
209
log(ψ̃i ) ω̃i
1,600 0,5465
1,386 0,9160
0,827 0,4335
0,632 1,4167
P4 −1
P4
Segue portanto que i=1 ω̃i log(ψ̃i ) = 6, 7947 e i=1 ω̃i−1 = 5, 9342. Assim,
obtém-se as estimativas
4
6, 7947 X
ψ̂W = exp = 3, 142 e V̂arA {log(ψ̂W )} = 1/ ω̃i−1 = 1/5, 9342.
5, 9342 i=1
2
Consequentemente, tem-se que log(ψ̂W ) = log(3, 142) = 1, 145 e XHL =
(1, 6 − 1, 145)2 /0, 5465 + (1, 386 − 1, 145)2 /0, 916 + (0, 827 − 1, 145)2 /0, 4335 +
(0, 632−1, 145)2 /1, 4167 = 0, 861, cujo nivel descritivo para uma distribuição
qui-quadrado com 3 graus de liberdade é dado por P = 0, 84, não rejeitando-
se portanto a hipótese de ψ comum.
A estimativa intervalar de 95% para ψ comum fica dada por
p
[ψ̂I , ψ̂S ] = exp[log(3, 142) ± 1, 96 1/5, 9342]
= exp[1, 145 ± 0, 8046]
= [1, 4055; 7, 0259].
210
Comparando com os quantis da distribuição qui-quadrado com 1 grau de
liberdade obtém-se o nı́vel descritivo P = 0, 0086, rejeitando-se a hipótese
nula. Esse resultado vai ao encontro da estimativa intervalar de ψ comum
usando o estimador de Wolf.
Tabela 3.3
Distribuição dos embriões segundo
os nı́veis de exposição do estrato
vegetal aquoso.
xi 0 15 20 25 30 35 40
mi 50 50 50 50 50 50 50
yi 4 5 14 29 38 41 47
211
3.6 Regressão logı́stica linear
3.6.1 Introdução
A regressão logı́stica tem se constituı́do num dos principais métodos de mo-
delagem estatı́stica de dados. Mesmo quando a resposta de interesse não
é originalmente do tipo binário, alguns pesquisadores têm dicotomizado a
resposta de modo que a probabilidade de sucesso possa ser ajustada através
da regressão logı́stica. Isso ocorre, por exemplo, em análise de sobrevivência
discreta em que a resposta de interesse é o tempo de sobrevivência, no en-
tanto, em algumas pesquisas, a função de risco tem sido ajustada por modelos
logı́sticos. Tudo isso se deve, principalmente, pela facilidade de interpretação
dos parâmetros de um modelo logı́stico e também pela possibilidade do uso
desse tipo de metodologia em análise discriminante com a construção, por
exemplo, de curvas ROC.
Embora a regressão logı́stica seja conhecida desde os anos 1950, foi através
de Cox (1970) (ver também Cox e Snell, 1989) que a regressão logı́stica ficou
popular entre os usuários de Estatı́stica. Nesta seção serão apresentados
alguns resultados relacionados com o modelo logı́stico linear que completam
os procedimentos apresentados no Capı́tulo 1, em que esse modelo foi descrito
como um caso particular de modelos lineares generalizados.
212
em que α e β são parâmetros desconhecidos. Esse modelo poderia, por exem-
plo, ser aplicado para analisar a associação entre uma determinada doença e
a ocorrência ou não de um fator particular. Seriam então amostrados, inde-
pendentemente, n1 indivı́duos com presença do fator (x=1) e n2 indivı́duos
com ausência do fator (x=0) e π(x) seria a probabilidade de desenvolvimento
da doença após um certo perı́odo fixo. Dessa forma, a chance de desenvolvi-
mento da doença para um indivı́duo com presença do fator fica dada por
π(1)
= eα+β ,
1 − π(1)
enquanto que a chance de desenvolvimento da doença para um indivı́duo com
ausência do fator é simplesmente
π(0)
= eα .
1 − π(0)
Logo, a razão de chances fica dada por
π(1){1 − π(0)}
ψ= = eβ ,
π(0){1 − π(1)}
dependendo apenas do parâmetro β. Mesmo que a amostragem seja re-
trospectiva, isto é, são amostrados n1 indivı́duos doentes e n2 indivı́duos
não doentes, o resultado acima continua valendo. Essa é uma das grandes
vantagens da regressão logı́stica, a possibilidade de interpretação direta dos
coeficientes como medidas de associação. Esse tipo de interpretação pode ser
estendido para qualquer problema prático.
Supor agora que tem-se dois estratos representados por x1 (x1 = 0 estrato
1, x1 = 1 estrato 2) e que são amostrados do estrato 1 n11 indivı́duos com pre-
sença do fator e n21 indivı́duos com ausência do fator e n12 e n22 , respectiva-
mente, do estrato 2. A probabilidade de desenvolvimento da doença será de-
notada por π(x1 , x2 ), com x2 (x2 =1 presença do fator, x2 = 0 ausência do fa-
tor). Tem-se aqui quatro parâmetros a serem estimados, π(0, 0), π(0, 1), π(1, 0)
213
e π(1, 1). Logo, qualquer reparametrização deverá ter no máximo quatro
parâmetros (modelo saturado).
Considere então a seguinte reparametrização:
π(x1 , x2 )
log = α + γx1 + βx2 + δx1 x2 ,
1 − π(x1 , x2 )
em que γ representa o efeito do estrato, β o efeito do fator e δ a interação
entre estrato e fator. Para entender melhor essa reparametrização, serão
calculadas as razões de chances em cada estrato
π(0, 1){1 − π(0, 0)}
ψ1 = = eβ
π(0, 0){1 − π(0, 1)}
e
π(1, 1){1 − π(1, 0)}
ψ2 = = eβ+δ .
π(1, 0){1 − π(1, 1)}
Assim, a hipótese de homogeneidade das razões de chances (H0 : ψ1 = ψ2 ) é
equivalente à hipótese de não interação (H0 : δ = 0). Portanto, a ausência
de interação entre fator e estrato significa que a associação entre o fator e a
doença não muda de um estrato para o outro. Contudo, pode haver efeito
de estrato. Como ilustração nesse caso, supor que não rejeita-se a hipótese
H0 : δ = 0. Assim, o logaritmo da chance de desenvolvimento da doença fica
dado por
π(x1 , x2 )
log = α + γx1 + βx2 ,
1 − π(x1 , x2 )
ou seja, é o mesmo nos dois estratos a menos da quantidade γ. Isso quer dizer
que mesmo não havendo interação entre os dois estratos (razão de chances
constante), as probabilidades de desenvolvimento da doença podem estar em
patamares diferentes. Num estrato essas probabilidades são maiores do que
no outro estrato. Essas interpretações podem ser generalizadas para três ou
mais tabelas.
214
Aplicação
Como ilustração, considere novamente o exemplo descrito na Seção 3.5.1,
supondo que agora temos apenas os estratos macho e fêmea. Os dados são
resumidos na Tabela 3.4 e no arquivo camundongos.txt.
Tabela 3.4
Classificação de camundongos segundo sexo, grupo e
ocorrência de tumor.
Macho Fêmea
Tumor Tratado Controle Tratado Controle
Sim 6 8 5 13
Não 26 158 28 159
Total 32 166 33 172
Tabela 3.5
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
ocorrência de tumor em camundongos.
Efeito Estimativa E/E.Padrão
Constante -2,602 -9,32
Estrato -0,241 -0,64
Tratamento 1,125 2,81
215
Os nı́veis descritivos dos testes para H0 : β = 0 e H0 : γ = 0 são, res-
pectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presença de associação entre a exposição ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor não são di-
ferentes entre os dois estratos.
Tem-se que ψ̂ = eβ̂ , logo um intervalo assintótico de confiança para ψ
com coeficiente (1 − α), terá os limites
q
(ψ̂I , ψ̂S ) = exp{β̂ ± z(1−α/2) V̂ar(β̂)}.
216
em que x = (1, x2 , . . . , xp )> contém os valores observados de variáveis ex-
plicativas. Como visto na Seção 1.6.1, o processo iterativo para obtenção
de β̂ pode ser expresso como um processo iterativo de mı́nimos quadrados
reponderados
β (m+1) = (X> V(m) X)−1 X> V(m) z(m) ,
em que V = diag{π1 (1 − π1 ), . . . , πn (1 − πn )}, z = (z1 , . . . , zn )> é a variável
dependente modificada, zi = ηi + (yi − πi )/πi (1 − πi ), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), n é substituı́do por k, V =
diag{n1 π1 (1 − π1 ), . . . , nk πk (1 − πk )} e zi = ηi + (yi − ni πi )/{ni πi (1 − πi )}.
ni
Assintoticamente, n → ∞ no primeiro caso e para n
→ ai > 0 no segundo
caso, β̂ − β ∼ Np (0, (X> VX)−1 ).
Uma interpretação interessante pode ser dada para as razões de chances
quando tem-se (q−1)(q ≤ p) das (p−1) variáveis explicativas do tipo binário.
Como ilustração, supor q = 4 e que x2 (x2 = 1 presença, x2 = 0 ausência) e
x3 (x3 = 1 presença, x3 = 0 ausência) representam dois fatores. Supor ainda
que x4 = x2 x3 representa a interação entre os dois fatores. O modelo fica
então dado por
p
π(x) X
log = β1 + β2 x2 + β3 x3 + β4 x4 + xj β j .
1 − π(x) j=5
217
se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato 2), a razão
de chances no primeiro estrato entre presença e ausência do fator fica dada
por ψ10 = exp(β2 ), enquanto que no segundo estrato essa razão de chances
vale ψ11 /ψ01 = exp(β2 + β4 ). Logo, testar H0 : β4 = 0 equivale também a
testar a hipótese de homogeneidade das razões de chances nos dois estratos.
218
explicar a probabilidade de sucesso π(x). Esse problema poderia ser resol-
vido pelos métodos usuais de seleção de modelos discutidos na Seção 1.11.
Contudo, a questão de interpretação dos parâmetros é crucial num modelo
logı́stico, implicando que uma forma puramente mecânica de seleção pode
levar a um modelo sem sentido e de difı́cil interpretação. Particularmente, a
inclusão de certas interações impõe a permanência no modelo de seus respec-
tivos efeitos principais de ordem inferior, na ótica do princı́pio hierárquico.
Muitas vezes, variáveis consideradas biologicamente importantes não devem
ser deixadas de lado pela sua falta de significância estatı́stica. Assim, a
seleção de um modelo logı́stico deve ser um processo conjugado de seleção
estatı́stica de modelos e bom senso.
Método stepwise
Um dos métodos mais aplicados em regressão logı́stica é o método stepwise.
O método, como foi visto na Seção 1.11, baseia-se num algoritmo misto de
inclusão e eliminação de variáveis explicativas segundo a importância das
mesmas de acordo com algum critério estatı́stico. Esse grau de importância
pode ser avaliado, por exemplo, pelo nı́vel de significância do teste da razão
de verossimilhanças entre os modelos que incluem ou excluem as variáveis em
questão. Quanto menor for esse nı́vel de significância tanto mais importante
será considerada a variável explicativa. Como a variável mais importante
por esse critério não é necessariamente significativa do ponto de vista es-
tatı́stico, deve-se impor um limite superior PE (os valores usuais estão no
intervalo [0, 15; 0, 25]) para esses nı́veis descritivos, a fim de atrair candidatos
importantes em princı́pio à entrada.
Dado que a inclusão de novas variáveis explicativas num modelo pode
tornar dispensáveis outras variáveis já incluı́das, será feita a verificação da
219
importância dessas variáveis confrontando os seus respectivos nı́veis com um
limite superior PS . As variáveis explicativas com um nı́vel descritivo maior
do que PS serão assim candidatas à remoção.
Descreve-se a seguir uma variante desse algoritmo aplicado em regressão
logı́stica (vide, por exemplo, Hosmer e Lemeshow, 1989). A etapa inicial
consiste no ajuste do modelo apenas com o intercepto sendo completada
pelos passos seguintes:
220
circunstância, o algoritmo segue para o passo seguinte;
221
cativas (ou fatores). Alguns autores têm sugerido aproximações para esse
processo de seleção. O aplicativo cientı́fico BMDP (Dixon, 1987) usa apro-
ximações lineares nos testes da razão de verossimilhanças. Peduzzi et al.
(1980) apresentam uma variante desse método baseada no uso da estatı́stica
de Wald.
Método de Akaike
Um procedimento mais simples para selecionar variáveis explicativas num
modelo logı́stico é através do método de Akaike descrito na Seção 1.11. Uma
sugestão é primeiro fazer uma seleção dos efeitos principais e depois num
segundo passo, das interações de 1a ordem. Para ilustrar uma aplicação do
método, supor que as respostas binárias estejam armazenadas em resp e as
variáveis explicativas sejam denotadas por var1, var2 e var3. O ajuste do
modelo logı́stico apenas com os efeitos principais pode ser realizado através
dos comandos
ajuste < − glm(resp ∼ var1 + var2 + var3, family=binomial).
A seleção dos efeitos principais pode ser realizada pelos comandos
require(MASS)
stepAIC(ajuste).
Eventualmente algumas variáveis explicativas selecionadas podem não ser
significativas marginalmente e a retirada das mesmas do modelo poderá ser
confirmada através de algum teste estatı́stico apropriado, como por exemplo
o teste da razão de verossimilhanças. A inclusão de interações de 1a ordem
pode ser feita individualmente dentre aquelas interações de interesse ou de
fácil interpretação.
222
3.6.6 Amostragem retrospectiva
Em muitas situações práticas, especialmente no estudo de doenças raras,
pode ser mais conveniente a aplicação de uma amostragem retrospectiva em
que um conjunto de n1 casos (indivı́duos com y = 1) e n2 controles (indivı́duos
com y = 0) é selecionado aleatoriamente e classificado segundo os valores de
x = (x1 , . . . , xp )> . Esse tipo de planejamento é muitas vezes motivado por
questões econômicas ligadas ao custo e a duração do experimento. A amos-
tragem retrospectiva assim constituı́da levaria diretamente a um modelo para
P r(X = x|y), ao contrário dos dados prospectivos que estão associados ao
modelo π(x) = P r(Y = y|x). Como o desenvolvimento de um modelo para
P r(X = x|y) pode ficar muito complexo à medida que o valor x envolve um
número maior de variáveis explicativas, particularmente contı́nuas, a pro-
posta de uma abordagem alternativa através da especificação de um modelo
para P r(Y = y|x), de modo a induzir um modelo para P r(X = x|y), tem
sido utilizada.
Supor então um modelo logı́stico linear para explicar π(x) = P r(Y =
1|x). Será mostrado a seguir que a probabilidade π(x), a menos de uma
constante adicionada ao intercepto do modelo, coincide com a probabilidade
π ∗ (x) = P r(Y = 1|x, Z = 1) se a seleção amostral não depende de x, em
que Z é uma variável indicadora da classificação amostral (ver, por exemplo,
Armitage, 1971). Denota-se γ1 = P r(Z = 1|Y = 1) e γ2 = P r(Z = 1|Y = 0),
em que γ1 é a probabilidade de um caso ser selecionado e γ2 é a probabilidade
de um controle ser selecionado da população global. A suposição é que γ1 e
γ2 não dependem de x. Portanto
223
que pode ser expressa em função de π(x), ou seja
γ1 π(x)
π ∗ (x) =
γ2 {1 − π(x)} + γ1 π(x)
h i
γ1 π(x)
γ2 1−π(x)
= h i.
γ1 π(x)
1+ γ2 1−π(x)
Assim, obtém-se
elog{γ1 /γ2 }+η
π ∗ (x) = ,
1 + elog{γ1 /γ2 }+η
Pp
em que η = j=1 xj βj .
Portanto, fazendo uma amostragem retrospectiva e ajustando um modelo
logı́stico como se fosse uma amostragem prospectiva, os coeficientes devem
coincidir desde que a seleção tenha sido feita independente de x. Se, no
entanto, há interesse em estimar π(x), isto é, fazer predições dado x, deve-se
corrigir a constante do modelo ajustado, obtendo um novo intercepto
224
n01 elementos correspondentes às n01 menores probabilidades ajustadas, as
quais serão denotadas por π̂(1) ≤ π̂(2) ≤ · · · ≤ π̂(n01 ) . O segundo grupo
deverá conter os n02 elementos correspondentes às seguintes probabilidades
ajustadas π̂(n01 +1) ≤ π̂(n01 +2) ≤ · · · ≤ π̂(n01 +n02 ) . E assim, sucessivamente, até
o último grupo que deverá conter as n0g maiores probabilidades ajustadas
π̂(n01 +···+n0g−1 +1) ≤ π̂(n01 +···+n0g−1 +2) ≤ · · · ≤ π̂(n) . O número observado de su-
Pn01
cessos no primeiro grupo formado será dado por O1 = j=1 y(j) , em que
definida por
g
X (Oi − n0 π̄i )2 i
Ĉ = ,
i=1
n0i π̄i (1 − π̄i )
em que
n1 0 n0i +···+n0i
1 X 1 X
π̄1 = 0 π̂(j) e π̄i = 0 π̂(j) ,
n1 j=1 ni
j=n01 +···+n0i−1 +1
225
3.6.8 Técnicas de diagnóstico
Estudos de simulação (ver, por exemplo, Williams, 1984) têm sugerido o
resı́duo tDi para as análises de diagnóstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
àquelas do resı́duo t∗i da regressão normal linear. Em particular, para os
modelos binomiais, esse resı́duo é expresso, para 0 < yi < ni , na forma
s 21
2 yi ni − yi
tDi = ± yi log + (ni − yi ) log ,
1 − ĥii ni π̂i ni − ni π̂i
226
quantis teóricos da normal padrão é recomendado para avaliar afastamentos
da distribuição postulada para a resposta.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo.
Contudo, no caso de variáveis discretas, o resı́duo quantı́lico é aleatorizado
e uma sugestão é gerar no GAMLSS m gráficos do worm plot (gráfico entre
rq(i) −E(Z(i) ) contra E(Z(i) )) para avaliar com mais segurança a adequação do
ajuste. Esse gráfico pode ser interpretado como um refinamento do gráfico
normal de probabilidades podendo ser acionado para m = 8 gráficos através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).
Por outro lado, para medir a influência das observações nas estimativas
dos coeficientes, utiliza-se a distância de Cook aproximada dada por
227
Tabela 3.6
Possı́veis valores para algumas medidas de diagnóstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida 0,0-0,1 0,1-0,3 0,3-0,7 0,7-0,9 0,9-1,0
t2Si grande ou moderado moderado ou moderado grande ou
pequeno pequeno pequeno
LDi pequeno grande moderado grande pequeno
ĥii pequeno grande moderado ou grande pequeno
pequeno
A Tabela 3.6 descreve os possı́veis valores de algumas medidas de di-
agnóstico em função das probabilidades ajustadas. A medida ĥii pode ser
interpretada de maneira similar à medida hii da regressão normal linear para
0, 1 ≤ π̂i ≤ 0, 9. No entanto, quando π̂i é pequena ou alta, ĥii fica em geral
pequeno o que pode dificultar a detecção de pontos que estejam mais afasta-
dos no subespaço gerado pelas colunas da matrix X. A sugestão, portanto,
são os gráficos de t2Si , t2Di e LDi contra as probabilidades ajustadas π̂i . Es-
ses gráficos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e influentes com relação às probabilidades ajustadas. Os gráficos
dessas quantidades contra ĥii podem ser complementares, pelo menos para
verificar se as tendências apresentadas na Tabela 3.11 são confirmadas para
o modelo ajustado.
Outros gráficos recomendados em regressão logı́stica são os gráficos da
variável adicionada e de |`max | contra π̂i .
3.6.9 Aplicacões
Processo infeccioso pulmonar
Considere novamente o exemplo discutido na Seção 1.12.2 em que 175 pa-
cientes com processo infeccioso pulmonar foram classificados de acordo com
228
as variáveis tipo de tumor, sexo, idade, nı́vel de HL e nı́vel de FF. Para
simplicidade das análises, os nı́veis de HL e FF serão reagrupados de modo
que os nı́veis de intensidade “ausente”e “discreto”sejam agora considerados
como intensidade “baixa”e os nı́veis “moderado”e “intenso”sejam agora de
intensidade “alta”conforme descrito na Tabela 3.7.
Tabela 3.7
Descrição das novas variáveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Variável Descrição Valores
Y Processo Infecioso 1:maligno
0:benigno
IDADE Idade em anos
SEXO Sexo 0:masculino
1:feminino
HL Intensidade de 1:alta
Histiócitos-linfócitos 0:baixa
FF Intensidade de 1:alta
Fibrose-frouxa 0:baixa
229
No passo 1 foi incluı́da a variável explicativa IDADE, uma vez que o nı́vel
descritivo dessa variável foi o menor dentre os nı́veis descritivos das demais
variáveis explicativas e também foi menor do que PE . No passo seguinte
foi inbcluı́da a variável explicativa HL, e agora com duas variáveis incluı́das
no modelo verifica-se a possibilidade de eliminar uma das duas variáveis. O
maior nı́vel descritivo é da IDADE que encontra-se na Tabela 3.8 na linha
de referência do passo 2. O nı́vel descritivo dessa variável não é superior
a PS , logo IDADE é mantida no modelo. Seguindo essa lógica, tem-se os
menores nı́veis descritivos em cada passo como sendo o elemento da diagonal
principal de cada passo. No passo 3, por exemplo, entra a variável explicativa
SEXO que tem o menor nı́vel descritivo que por sua vez é menor do que PE .
Dado que SEXO entra no modelo, verifica-se a possibilidade de uma das
duas variáveis incluı́das no modelo ser retirada do modelo. Assim, no mesmo
passo 3, nota-se que o maior nı́vel descritivo (em asterisco) corresponde à
variável explicativa HL que não deve sair do modelo, uma vez que o nı́vel
descritivo não é maior do que PS . Seguindo essa mesma lógica todos os
efeitos principais são incluı́dos no modelo. Em resumo, o modelo resultante
na etapa 1 é o modelo com todos os efeitos principais.
De forma análoga procede-se a etapa 2, cujos nı́veis descritivos para to-
mada de decisão em cada passo encontram-se na Tabela 3.9. Por exemplo, no
passo 1, entra a interação entre IDADE e HL que tem o menor nı́vel descritivo
que por sua vez é menor do que PE . Não é verificado nessa etapa se algum
efeito principal deve sair do modelo mesmo que fique não significativo com
a inclusão das interações. Isso pode ser reavaliado após a seleção do modelo
final. No passo 4, por exemplo, nota-se que a interação entre IDADE e FF
não entra no modelo pois o nı́vel descritivo correspondente é maior do que
PE . Assim, como essa interação não entra no modelo, não é preciso verificar
230
a retirada das demais interações já incluı́das no modelo. Logo, tem-se apenas
três interações de primeira ordem incluı́das no modelo. Essas interações são
IDADE ∗ HL, HL ∗ FF e SEXO ∗ FF.
Na etapa 3 nenhuma interação de segunda ordem foi selecionada, uma
vez que o menor nı́vel descritivo dos testes de inclusão foi menor do que PE .
Assim, o modelo resultante contém os efeitos principais e três interações de
primeira ordem.
Tabela 3.8
Nı́veis descritivos referentes à etapa 1
do processo de seleção stepwise.
Passo IDADE HL SEXO FF
1 0,000 0,000 0,288 0,001
2 0,000 0,000 0,100 0,003
3 0,000 0,000∗ 0,050 0,125
4 0,000 0,000 0,072∗ 0,183
5 0,000 0,000 0,072 0,183∗
231
seria um pouco menos provável processo benigno para o paciente. Perfil
parecido tem o paciente #6. Já o paciente #21 tem processo benigno, 82
anos, é do sexo feminino e tem nı́vel alto para HL e baixo para FF. Seria
mais provável nesse caso processo maligno para o paciente.
Tabela 3.9
Nı́veis descritivos referentes à etapa 2 do processo de seleção stepwise.
Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX
1 0,013 0,014 0,059 0,056 0,657 0,063
2 0,023 0,027 0,060 0,231 0,218 0,099
3 0,028∗ 0,005 0,012 0,234 0,275 0,176
4 0,208 0,403 0,794
232
que os pacientes tenham o mesmo sexo, idade e nı́vel de FF, é estimada por
Tabela 3.10
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito Parâmetro Estimativa E/E.Padrão
Constante β1∗ -1,247 -1,36
IDADE β2 0,038 2,23
HL β3 -5,371 -3,34
SEXO β4 0,765 1,60
FF β5 -2,090 -2,36
IDADE*HL β6 0,061 2,18
HL*FF β7 2,255 2,11
Logo, pode-se concluir que a chance de processo maligno é maior para
pacientes com nı́vel baixo de HL do que para pacientes com nı́vel alto de
HL, quando ambos estão no nı́vel baixo de FF e também tenham a mesma
idade. Por outro lado, quando ambos estão na categoria alta de FF, ψ̂HL
fica maior do que um após a idade de 52 anos (aproximadamente), indicando
uma chance maior de processo maligno para pacientes no nı́vel alto de HL
após essa idade.
Analogamente, denota-se por ψF F a razão de chances de processo infec-
cioso maligno entre um paciente com nı́vel alto de FF e um paciente com
nı́vel baixo de FF. Supondo que os pacientes são semelhantes nas demais
covariáveis esse parâmetro é estimado por
233
Ocorre o contrário no grupo de pacientes com intensidade alta de HL. Bandas
de confiança para ψHL e ψF F podem ser construı́das com os procedimentos
apresentados na Seção 3.6.4. Na comparação dos pacientes com relação ao
sexo temos que a razão de chances de processo infeccioso pulmonar entre paci-
entes do sexo feminino e masculino é estimada por ψ̂F M = exp(0, 765) = 2, 15.
Se o interesse em prever P r{Y = 1|x}, probabilidade de um paciente da
população com um determinado conjunto de valores para as covariáveis estar
com processo infeccioso maligno, deve-se antes estimar β1 fazendo a correção
Tabela 3.11
Discriminação do modelo logı́stico ajustado
aos dados sobre processo infeccioso pulmonar.
Classificação Classificação pelo modelo
Correta Benigno Maligno
Benigno 81 23
Maligno 13 58
234
0.4
69
3
172
6
2
Componente do Desvio
0.3
1
Alavanca
0.2
0
−1
0.1
−2
21
−3
0.0
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8
3
172
1.5
2
Componente do Desvio
Distancia de Cook
69
1.0
0
−1
0.5
−2
0.0
−3
Ocorrência de vaso-constrição
Como outra aplicação, conside os dados de um experimento desenvolvido
para avaliar a influência da quantidade de ar inspirado na ocorrência de
vaso-constrição na pele dos dedos da mão (Finney, 1978; Pregibon, 1981).
Os dados do experimento são descritos na Tabela 3.12 e também no ar-
quivo pregibon.txt. A resposta, nesse exemplo, é a ocorrência (Y = 1) ou
235
ausência (Y = 0) de compressão de vasos e as covariáveis são o logaritmo do
volume e o logaritmo da razão de ar inspirado.
Tabela 3.12
Dados do experimento sobre a influência da razão e do volume de ar
inspirado na ocorrência de vaso-constrição da pele dos dedos da mão.
Obs Volume Razão Resposta Obs. Volume Razão Resposta
1 3,70 0,825 1 20 1,80 1,800 1
2 3,50 1,090 1 21 0,40 2,000 0
3 1,25 2,500 1 22 0,95 1,360 0
4 0,75 1,500 1 23 1,35 1,350 0
5 0,80 3,200 1 24 1,50 1,360 0
6 0,70 3,500 1 25 1,60 1,780 1
7 0,60 0,750 0 26 0,60 1,500 0
8 1,10 1,700 0 27 1,80 1,500 1
9 0,90 0,750 0 28 0,95 1,900 0
10 0,90 0,450 0 29 1,90 0,950 1
11 0,80 0,570 0 30 1,60 0,400 0
12 0,55 2,750 0 31 2,70 0,750 1
13 0,60 3,000 0 32 2,35 0,030 0
14 1,40 2,330 1 33 1,10 1,830 0
15 0,75 3,750 1 34 1,10 2,200 1
16 2,30 1,640 1 35 1,20 2,000 1
17 3,20 1,600 1 36 0,80 3,330 1
18 0,85 1,415 1 37 0,95 1,900 0
19 1,70 1,060 0 38 0,75 1,900 0
39 1,30 1,625 1
236
significativas. O desvio do modelo foi de D(y; µ̂) = 29, 36 (com 36 graus de
liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d descrevem
alguns dos gráficos sugeridos acima bem como o gráfico normal de proba-
bilidades com envelope para o resı́duo tDi . Na Figura 3.2a tem-se o gráfico
de ĥii contra os valores ajustados e pode-se notar que a observação #31 é
destacada mais do que as restantes.
Tabela 3.13
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
vaso-constrição.
Parâmetro Estimativa E/E.Padrão
β1 -2,875 -2,18
β2 5,179 4,85
β3 4,562 2,49
237
ajustado. O gráfico normal de probabilidades para o resı́duo tDi (Figura 3.2d)
não fornece indı́cios de afastamentos da suposição de distribuição binomial
para a resposta. Pode-se notar que a maioria dos pontos caem dentro do
envelope gerado.
0.25
31 4
1.2
0.20
18
Distancia de Cook
0.15
0.8
Alavanca
0.10
0.4
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
4
12
2
Componente do Desvio
(Resid.Studentizado)^2
10
18
8
0
6
-1
4
-2
2
0
238
um grupo com quatro observações.
Tabela 3.14
Quantidades usadas para o cálculo da estatı́stica Ĉ
referente ao modelo logı́stico ajustado aos dados
sobre vaso-constrição.
Grupo Obervações Oi n0i π̄i
1 7,9,10,11,32 0 5 0,0024
2 4,18,21,26,30 2 5 0,0459
3 12,13,22,28,38 0 5 0,2737
4 8,19,23,29,37 1 5 0,5113
5 6,24,31,33,39 3 5 0,6728
6 5,15,34,35,36 5 5 0,7956
7 3,14,20,25,27 5 5 0,8974
8 1,2,16,17 4 4 0,9766
cujo nı́vel descritivo para uma qui-quadrado com 6 graus de liberdade é dado
por P= 0, 0025, indicando que o ajuste não é adequado. Por outro lado,
se eliminando as observações #4 e #18, obtém-se Ĉ = 5, 9374, que leva ao
nı́vel descritivo P= 0, 4302. Portanto, as duas observações destacadas pelas
análises de diagnóstico têm grande influência na falta de ajuste detectada
pela estatı́stica Ĉ.
Preferência de consumidores
Para ilustrar uma terceira aplicação com resposta binária será analisado parte
dos dados descritos no arquivo prefauto.txt sobre a preferência de consu-
midores americanos com relação a automóveis. Uma amostra aleatória de
239
263 consumidores foi considerada. As seguintes variáveis foram observadas
para cada comprador: preferência do tipo de automóvel (1: americano, 0:
japonês), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster et al.(1998, pgs.
338-339). Na Tabela 3.15 tem-se a distribuição da preferência do comprador
segundo o sexo e estado civil, respectivamente.
Tabela 3.15
Distribuição da preferência do comprador de
automóvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4%)
Japonês 83 (57,6%) 65 (54,6%)
Total 144 119
Casado Solteiro
Americano 83 (48,8%) 32 (34,4%)
Japonês 87 (51,2%) 65 (65,6%)
Total 170 93
Pode-se notar que para ambos os sexos a maior preferência é por carro ja-
ponês. Dentre os casados há pequena vantagem por carro japonês. Contudo,
essa preferência é bem mais acentuada entre os solteiros. Pelos boxplots da
Figura 3.3 nota-se que a idade mediana dos compradores de automóvel ameri-
cano é ligeiramente superior à idade mediana dos compradores de automóvel
japonês. Denotando por Yi a preferência com relação ao tipo do automóvel
pelo i-ésimo comprador (1: americano, 0: japonês), supor inicialmente um
modelo logı́stico sem interação em que Yi ∼ Be(πi ) com
πi
log = β1 + β2 idadei + β3 sexoi + β4 ecivili ,
1 − πi
sendo πi a probabilidade do i-ésimo comprador preferir automóvel americano.
Aplicando o método AIC a variável sexo é retirada do modelo. As estimativas
dos parâmetros do modelo final sem interação são descritas na Tabela 3.16.
240
60
50
40
Idade
30
20
Japonês Americano
Tabela 3.16
Estimativas dos parâmetros referentes
ao modelo logı́stico ajustado aos dados
sobre preferência de compradores.
Efeito Estimativa E/E.Padrão
Constante -1,600 -2,31
Idade 0,049 2,30
E.Civil -0,526 -1,94
241
0.8
Probabilidade Ajustada
0.6
0.4
Casado
Solteiro
0.2
20 30 40 50 60
Idade
e0,526±1,65×0,272 = e0,526±0,449
= [1, 080; 2, 651][8, 0%; 165, 1%].
242
99
0.25
0.20
Distância de Cook
0.15
0.10
0.05
0.00
possı́velmente influente, enquanto pela Figura 3.6 não há indı́cios de afasta-
mentos importantes de suposição de distribuição binomial para a resposta.
Tem-se na Tabela 3.17 as estimativas dos parâmetros sem a observação #99 e
pode-se notar que, embora ocorram algumas variações desproporcionais, não
há mudança inferencial. Essa compradora tem perfil com relação à idade de
ter preferência por carro americano, e isso pode levado à discrepância com
relação à distância de Cook.
Tabela 3.17
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre preferência
de consumidores sem a observação #99.
Efeito Estimativa E/E.Padrão Variação
Constante -1,942 -2,65 -21,4%
Idade 0,060 2,65 22,4%
E.Civil -0,474 -1,72 9,9%
243
2
1
Componente do Desvio
0
−1
−2
−3 −2 −1 0 1 2 3
Quantil da N(0,1)
244
e como fracasso à medida que π̂ se aproxima de 0. Assim, definindo um ponto
de corte para a probabilidade ajustada, pode-se construir para os dados da
amostra uma tabela similar à Tabela 3.18, com as seguintes definções:
245
= 68 ∼
= 0, 591(59, 1%) e ESPEC = 86 ∼
= 0, 581(58, 1%), que podem ser
115 148
consideradas baixas.
Proporção de Verdadeiros Positivos
1.0
0.8
0.6
0.4
0.2
0.0
Figura 3.7: Curva ROC referente ao modelo logı́stico ajustado aos dados
sobre preferência de consumidores.
Tabela 3.19
Tabela de classificação para o exemplo de
preferência de consumidores.
Classificação Classificação Correta
pelo Modelo Americano Japonês Total
Americano 68 62 130
Japonês 47 86 133
Total 115 148 263
246
lidade π(x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expressão geral Z x
π(x) = f (u)du, (3.15)
−∞
247
em que β̂ é a estimativa de máxima verossimilhança de β = (β1 , β2 )> .
A variância assintótica de DL
c 100p pode ser obtida após uma aproximação
de primeira ordem por série de Taylor de d(β̂) em torno de β, conhecido
como método delta, levando ao seguinte resultado:
em que
>
∂d(β) −1 1 p
D(β) = = , β1 − log .
∂β β2 β22 1−p
Importante observar que (X> V̂X)−1 contém as variâncias e covariância es-
timadas de β̂1 e β̂2 . Portanto, um intervalo de confiança assintótico de coe-
ficiente (1 − α) para DL100p fica dado por
q
DL100p ± z(1−α/2) V̂arA [d(β̂)].
c
3.8.1 Aplicações
Exposição de besouros
Em Bliss (1935) (ver também Silva, 1992) encontra-se uma situação tı́pica
para o ajuste de um modelo logı́stico de dose-resposta. O estudo baseia-se
no comportamento de besouros adultos à exposição de disulfeto de carbono
gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos 481
besouros expostos segundo diferentes doses são apresentados na Tabela 3.20
e no arquivo besouros.txt.
Ajustando um modelo logı́stico do tipo logit{π(x)} = β1 + β2 x aos dados,
em que x denota a dose de CS2 , obtém-se as estimativas β̂1 = −60, 72(5, 18),
β̂2 = 34, 27(2, 91) e Cov(β̂1 , β̂2 ) = −15, 04. O desvio do modelo foi de
D(y; µ̂) = 11, 23 para 6 graus de liberdade, o que leva a um nı́vel descri-
tivo de P= 0, 0815, indicando um ajuste razoável. O gráfico de envelope
248
descrito na Figura 3.8 confirma essa falta de ajuste. Talvez a inclusão de um
termo quadrático ou mesmo o ajuste de um modelo logı́stico não linear (ver
Silva, 1992) possam melhorar a qualidade do ajuste.
Tabela 3.20
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose Besouros Besouros
log10 CS2 expostos mortos
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60
Uma vez conhecida a covariância assintótica entre β̂1 e β̂2 , pode-se calcular
a variância assintótica de DL
c 100p para alguns valores de p e consequentemente
os intervalos assintóticos de confiança. Em particular, para p = 0, 50, obtém-
se a dose letal estimada
1 0, 5
DL
c 50 = log − β̂1
β̂2 1 − 0, 5
β̂1 60, 72
= − =
β̂2 34, 27
= 1, 772.
Um intervalo de confiança assintótico de 95% para DL50 fica então dado por
s
−0, 029
1, 772 ± 1, 96 (−0, 029, −0, 052)> (X> V̂X)−1
−0, 052
p
= 1, 772 ± 1, 96 0, 00001488
= [1, 764; 1, 780].
249
2
1
Componente do Desvio
0
-1
-2
-3
Quantil da N(0,1)
250
1.0
0.8
Porporcao de Mortos
0.6
0.4
0.2
0.0
dose
em que
>
∂d(β) −1 1
D(β) = = , {β1 − log(− log(1 − p))} ,
∂β β2 β22
251
1.0
2
0.8
Componente do Desvio
Porporcao de Mortos
1
0.6
0
0.4
-1
0.2
-2
0.0
-3
1.65 1.70 1.75 1.80 1.85 1.90 -1.5 -0.5 0.0 0.5 1.0 1.5
252
Garotas de Varsóvia
Os problemas de dose-resposta não se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do inı́cio da menstruação em 3918 ga-
rotas de Varsóvia. Para 25 médias de idade foram observadas a ocorrência
(Y = 1) ou não (Y = 0) do inı́cio de perı́odos de menstruação nas adoles-
centes. Os dados desse estudo são apresentados na Tabela 3.21 e no arquivo
meninas.txt. Considere o modelo logı́stico linear
π(x)
log = β1 + β2 x,
1 − π(x)
η(x) = β1 + β2 x + β3 x2
253
forneceu as seguintes estimativas: β̂1 = −30, 96(5, 24), β̂2 = 3, 12(0, 78) e
β̂3 = −0, 06(0, 03) com desvio D(y, ; µ̂) = 23, 40 (22 graus de liberdade) para
um nı́vel descritivo de P= 0, 38. O gráfico de envelope descrito na Figura
3.12b confirma a adequação do modelo com termo quadrático.
Tabela 3.21
Ocorrência do inı́cio da menstruação em garotas de Varsóvia.
Número de garotas Número de garotas
Idade Menstruadas Entrevistadas Idade Menstruadas Entrevistadas
9,21 0 376 13,08 47 99
10,21 0 200 13,33 67 106
10,58 0 93 13,58 81 105
10,83 2 120 13,83 88 117
11,08 2 90 14,08 79 98
11,33 5 88 14,33 90 97
11,58 10 105 14,58 113 120
11,83 17 111 14,83 95 102
12,08 16 100 15,08 117 122
12,33 29 93 15,33 107 111
12,58 39 100 15,58 92 94
12,83 51 108 15,83 112 114
17,53 1049 1049
Stukel (1988) (ver também Silva, 1992) mostra que o uso de um modelo
logı́stico não linear pode melhorar substancialmente a qualidade do ajuste
dos modelos de dose-resposta apresentados nesta seção.
254
1.0
Porporcao de Garotas Menstruadas
0.8
0.6
0.4
0.2
0.0
10 12 14 16 18
Idade
Figura 3.11: Curva ajustada pelo modelo logı́stico linear para a proporção
de garotas de Varsóvia.
Desde que β̂0 e β̂1 são normalmente distribuı́dos, então ψ̂ também é normal-
mente distribuı́do. Consequentemente, a variável
√
(β̂0 − ρβ̂1 )/ v
255
fiança para ρ com coeficiente (1 − α) é formado pelos valores de ρ tais que
√
| β̂0 − ρβ̂1 |≤ z(1−α/2) v.
que, após algumas manipulações algébricas e usando (3.16), fica dada por
(β̂12 − z(1−α/2)
2
v11 )ρ2 + (2v01 z(1−α/2)
2
− 2β̂0 β̂1 )ρ + β̂02 − v00 z(1−α/2)
2
= 0,
256
2
2
Componente do Desvio
Componente do Desvio
1
1
0
0
-1
-1
-2
-2
-3
-3
-2 -1 0 1 2 -2 -1 0 1 2
isto é, x unidades da droga i têm o mesmo efeito que ρi x unidades da primeira
droga.
Aplicação
A Tabela 3.22 resume os resultados de um experimento (ver Collett, 1991)
em que três inseticidas são aplicados num determinado tipo de inseto e é
257
verificado o número de sobreviventes para cada dose aplicada. Esses dados
estão também descritos no arquivo insetic.txt.
Tabela 3.22
Mortalidade de insetos segundo as doses de três inseticidas.
Dose mg/cm2
Inseticida 2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
γ-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + γ-BHC 28/50 37/50 46/50 48/50 48/50 50/50
258
3
2
Componente do Desvio
1
0
-1
-2
-2 -1 0 1 2
Quantil da N(0,1)
3.9 Sobredispersão
Sobredispersão ou variação extrabinomial é um fenômeno comum que ocorre
na modelagem de dados binários agrupados e cuja ocorrência é caracterizada
quando a variação observada excede aquela assumida pelo modelo (ver, por
259
exemplo, Hinde e Demétrio, 1998). Em particular em regressão logı́stica,
quando o desvio D(y; µ̂) é maior do que o número de graus de liberdade
(g − p), pode haver indı́cios de sobredispersão, em que g é o número de
grupos. Isso pode ser avaliado mais precisamente pelo nı́vel descritivo do
teste de ajustamento comparando D(y; µ̂) com os quantis da distribuição
qui-quadrado com (g − p) graus de liberdade.
Diferentes circunstâncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredispersão aparente. Por
exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminação desses pontos pode reduzir as evidências de
sobredispersão. Outra causa aparente de sobredispersão é a ausência de
algum termo extra na parte sistemática do modelo. Medidas de diagnóstico
são ferramentas importantes para detectar o fenômeno. Em sı́ntese, há duas
possı́veis causas de sobredispersão: correlação entre as réplicas binárias ou
variação entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prático é difı́cil distinguir entre os dois casos. Contudo, como será
descrito a seguir, os procedimentos estatı́sticos para tratar a sobredispersão
podem ser os mesmos.
3.9.1 Caso I
Supor inicialmente a existência de g grupos de modo que para o i-ésimo
grupo sejam observadas ni repetições de uma variável aleatória Yij ∼ Be(πi )
(Bernoulli com probabilidade de sucesso πi ). O número total de sucessos no
i-ésimo grupo será definido por
Yi = Yi1 + · · · + Yini .
260
Segue que E(Yij ) = πi e Var(Yij ) = πi (1 − πi ). Supor adicionalmente a
existência de correlação entre as repetições do i-ésimo grupo. Logo,
ni
X ni
X ni
X
Var(Yi ) = Var(Yij ) + Cov(Yij , Yik ).
j=1 j=1 k=1,k6=j
= ni πi (1 − πi ) + ni (ni − 1)δπi (1 − πi )
= σi2 ni πi (1 − πi ),
em que σi2 = 1 + (ni − 1)δ. Se é exigido que σi2 > 0, então deve-se ter
3.9.2 Caso II
Supor agora que pi representa a probabilidade de sucesso nas respostas do
i-ésimo grupo tal que E(pi ) = πi e Var(pi ) = δπi (1 − πi ), δ ≥ 0. Tem-se
portanto um modelo de efeito aleatório, que reduz ao modelo usual de efeito
fixo fazendo δ = 0. Assumindo ainda que Yij |pi ∼ Be(pi ) de onde segue que
E(Yij |pi ) = pi e Var(Yij |pi ) = pi (1 − pi ). Daı́ obtém-se
261
e
3.9.3 Estimação
A estimação de δ tem sido discutida em vários contextos. No primeiro caso,
por exemplo, δ pode ser consistentemente estimado por
g
X X
δ̃ = r̂Pi` r̂Pi`0 /(N − p), (3.18)
i=1 `0 <`
p
em que r̂Pi` = (yi` − π̂i )/ π̂i (1 − π̃i ) é o resı́duo de Pearson estimado,
N = 12 gi=1 ni (ni − 1) e π̂i é a estimativa de máxima verossimilhança de
P
Dada uma estimativa inicial para δ, que pode ser δ̃, tem-se o seguinte processo
iterativo para obter β̂ G :
g g
X (m)
X (m) (m) (m) (m)
β (m+1)
=β (m)
+{ ωi xi x>
i }
−1
{ωi xi (yi −ni πi )/ni πi (1−πi )},
i=1 i=1
(3.19)
262
m = 0, 1, 2 . . ., em que ωi = ni πi (1 − πi )/{1 + (ni − 1)δ̂}. O processo iterativo
(3.19) é alternado com (3.18) até chegar à convergência. Pode-se mostrar
que o estimador β̂ G é consistente e assintoticamente normal. A variância
assintótica de β̂ G é dada por
g
X
Var(β̂ G ) = { ωi xi x> −1
i } .
i=1
263
rho = sum1/(nt1-npar)
rho }.
Supor que há duas variáveis explicativas representadas por x1 e x2 sem in-
tercepto e que os resultados do ajuste do modelo supondo independência
sejam colocados em fit.model. Em fit.gee são armazenados os resultados
do processo iterativo dado em (3.19) e supor ainda 10 iterações. Seguem os
comandos
fit.model = glm(resp ∼ x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp ∼ x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa final da correlação está armazenada em rr. Para rodar os
programas descritos acima no R deve-se armazenar inicialmente a função
corpearson num arquivo externo, por exemplo denominado corr.s, e exe-
cutar o mesmo através do comando abaixo
source(‘‘corr.s’’).
Então a função corpearson estará instalada. Em seguida deve-se fazer o
264
mesmo para ajustar o modelo colocando os demais comandos num arquivo
externo, por exemplo denominado super.s, fazendo o seguinte:
source(‘‘super.s’’).
P
em que M̂i = `<`0 r̂Pi` r̂Pi`0 de modo que H0 seja rejeitada quando ξS >
z(1−α) . Pode-se mostrar que essa estatı́stica corresponde à forma padronizada
(sob H0 ) de δ̃. Para calcular ξS tem-se a função abaixo em que fr denota os
valores ajustados sob a hipótese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.
265
3.9.5 Modelo beta-binomial
Uma outra possibilidade para estudar o fenômeno de sobredispersão é através
do uso do modelo beta-binomial, em que variáveis aleatórias Y e Z são defi-
nidas tais que
Y |z ∼ B(n, z) e Z ∼ Beta(µ, σ),
Y ∼ BB(n, µ, σ), y = 0, 1, . . . , n,
3.9.6 Quase-verossimilhança
Pode-se ainda supor σi2 = φ−1 e estimar φ consistentemente dos dados ou
do modelo ajustado substituindo a estimativa obtida nas quantidades que
envolvem φ. Quando ni é grande, ∀i, pode-se estimar φ diretamente do
desvio
D(y; µ̂)
φ̂−1 = .
g−p
No caso de ni pequeno, para algum i, recomenda-se a estimativa abaixo
g
−1 1 X (yi − ni π̂i )2
φ̂ = ,
g − p i=1 ni π̂i (1 − π̂i )
266
em que p denota o número de parâmetros da parte sistemática do modelo
e π̂1 , . . . , π̂g são as probabilidades ajustadas nos g grupos. Sob a hipótese
de que o modelo é verdadeiro, essa estimativa é também consistente para φ.
Essa opção é um caso particular de modelos de quase-verossimilhança que
serão discutidos no Capı́tulo 5.
2
Componente do Desvio
1
0
-1
-2
-3
-2 -1 0 1 2
Quantil da N(0,1)
267
Algumas quantidades que envolvem φ deverão ser corrigidas,
3.9.7 Aplicação
Collett (1991, Seção 6.9) descreve um experimento com duas espécies de
rotifers, um tipo microscópico de invertebrado aquático. O objetivo do ex-
perimento é determinar a densidade relativa para cada uma das espécies.
Foi utilizado um método indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substância e então
utilizar uma regressão logı́stica para ajustar a proporção de rotifers que per-
manecem suspensos segundo a densidade relativa. A densidade relativa de
cada espécie pode ser estimada pela DL50 , que nesse caso representa a den-
sidade relativa da substância que deixa suspenso 50% de rotifers.
Seja Yij o número de animais da i-ésima espécie que permanecem sus-
pensos num recipiente com densidade relativa dj da solução, onde foram
colocados nij rotifers. É assumido inicialmente que Yij ∼ B(nij , πij ), i = 1, 2
e j = 1, . . . , 20, em que
πij
log = αi + βi dj .
1 − πij
268
Na Tabela 3.21 e no arquivo rotifers.txt são apresentados para cada espécie
a densidade relativa da substância, o número de rotifers expostos e o número
de rotifers em suspensão. Para a espécie Polyathra as estimativas de máxima
verossimilhança são dadas por α̂1 = −109, 72(5, 22) e β̂1 = 105, 67(5, 02),
enquanto que para a espécie Keratella obtém-se α̂2 = −114, 35(4, 03) e β̂2 =
108, 75(3, 86).
Tabela 3.21
Distribuição de rotifers das duas espécies.
Polyarthra major Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019 11 58 13 161
1,020 7 86 14 248
1,021 10 76 30 234
1,030 19 83 10 283
1,030 9 56 14 129
1,030 21 73 35 161
1,031 13 29 26 167
1,040 34 44 32 286
1,040 10 31 22 117
1,041 36 56 23 162
1,048 20 27 7 42
1,049 54 59 22 48
1,050 20 22 9 49
1,050 9 14 34 160
1,060 14 17 71 74
1,061 10 22 25 45
1,063 64 66 94 101
1,070 68 86 63 68
1,070 488 492 178 190
1,070 88 89 154 154
269
quado. O gráfico normal de probabilidades descrito na Figura 3.15 confirma
a sobredispersão. Segundo Collett (1991, Cap. 6) a sobredispersão nos dados
pode ter sido causada por uma possı́vel má distribuição dos animais nos re-
cipientes, uma vez que rotifers mais jovens são menos densos do que os mais
maduros. Collett (1991) propõe um modelo logı́stico com efeito aleatório
para ajustar a proporção de animais em suspensão e consegue uma redução
substancial no valor do desvio. Alternativamente será assumido o modelo
proposto na Seção 3.6.14, que com uma adaptação de notação corresponde a
assumir E(Yij ) = nij πij e Var(Yij ) = nij πij (1 − πij ){1 + (nij − 1)δ}, em que
δ denota a correlação intraunidade experimental.
6
4
Componente do Desvio
2
0
-2
-4
-6
-2 -1 0 1 2
Quantil da N(0,1)
270
1
Residuo de Pearson
0
-1
-2
16
-3
Valor Ajustado
271
3.10 Modelo logı́stico condicional
Em alguns estudos de caso e controle ou de seguimento o número de estra-
tos formados pode ser relativamente grande. Isso ocorre em particular nos
estudos emparelhados de caso e controle, em que a influência de fatores sus-
peitos de confundimento é controlada através de emparelhamentos de casos
com controles, segundo alguns nı́veis desses fatores. Para cada emparelha-
mento tem-se um estrato. Assim, se é adotado um modelo logı́stico linear,
além dos parâmetros correspondentes aos efeitos incluı́dos no modelo, tem-se
um parâmetro (intercepto) para cada estrato. Nos casos de estratos com
poucas observações, o número de parâmetros pode ser da mesma ordem do
número total de observações, que pode levar a estimativas viesadas (ver Cox
e Hinkley, 1974, p. 292).
Como ilustração, supor um estudo de caso e controle com k emparelha-
mentos do tipo 1:1 (1 caso por 1 controle) segundo os nı́veis de um fator
binário de exposição representado pela variável X (X = 1 presença da ex-
posição, X = 0 ausência da exposição). Denote por Yi (x) o resultado da
resposta para o indivı́duo do i-ésimo estrato com X = x (Yi (x) = 1 caso,
Yi (x) = 0 controle). Supor que Yi (x) ∼ Be{πi (x)}, em que
πi (x)
log = αi + βx.
1 − πi (x)
A razão de chances de ser caso entre o indivı́duo exposto e o indivı́duo não
exposto no i-ésimo estrato fica dada por
πi (1)/{1 − πi (1)}
ψ= = exp(β)
πi (0)/{1 − πi (0)}
sendo, portanto, constante ao longo dos estratos.
Para eliminar os parâmetros αi ’s pode-se trabalhar com a distribuição
condicional de Yi (1) dado Yi (1) + Yi (0) = m. Essa distribuição foi discutida
272
na Seção 3.2.3. A função de probabilidade pode ser expressa na forma
1
1 a
a m−a
ψ
f (a|m; ψ) = Pv 1
1
,
t
t=u t m−t ψ
f (0|1; ψ) = 1/(1 + ψ)
e
f (1|1; ψ) = ψ/(1 + ψ).
Definindo para o i-ésimo estrato duas novas variáveis binárias X1i e X2i
representando, respectivamente, o nı́vel de exposição do caso e do controle,
é possı́vel expressar as probabilidades condicinais na forma
exp(x1i − x2i )β
f (a|1, ψ) = ,
1 + exp(x1i − x2i )β
em que a = 0, 1. Assim, para k estratos, a função de verossimilhança conjunta
condicional, que depende apenas de β e será denotada por `(β), assume a
forma
exp{(xi1 − xi2 )β}
`(β) = Πki=1 .
1 + exp{(xi1 − xi2 )β}
Tem-se que a expressão acima coincide com a função de verossimilhança
de uma regressão logı́stica com k sucessos em k ensaios, com uma única
covariável com valores observados zi = xi1 − xi2 , i = 1, . . . , k, e passando
pela origem.
Generalizando para p covariáveis e supondo ainda emparelhamentos 1:1,
tem-se o modelo
πi (x)
log = αi + x> β,
1 − πi (x)
273
em que x = (x1 , . . . , xp )> , β = (β1 , . . . , βp )> e πi (x) = P r{Yi = 1|x},
i = 1, . . . , k. Observando no i-ésimo estrato os valores xi1 = (xi11 , . . . , xi1p )>
para o caso e os valores xi2 = (xi21 , . . . , xi2p )> para o controle, a função de
verossimilhança conjunta condicional assume a forma geral (ver, po exemplo,
Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)
exp{(xi1 − xi2 )> β}
k
`(β) = Πi=1 .
1 + exp{(xi1 − xi2 )> β}
Logo, a estimação de β pode ser feita através do ajuste de uma regressão
logı́stica com k sucessos em k ensaios, com valores observados das covariáveis
dados por zij = xi1j − xi2j , i = 1, . . . , k e j = 1, . . . , p e passando pela origem.
Deve-se observar que embora algumas quantidades da regressão logı́stica con-
dicional para estudos emparelhados do tipo 1:1 coincidam com as quantida-
des de uma regressão logı́stica não condicional passando pela origem, tais
como estimativas dos parâmetros e erros padrão assintóticos, as distribuições
dos modelos são diferentes. No primeiro caso tem-se o produto de hiper-
geométricas independentes, enquanto que no segundo caso tem-se o produto
de binomiais independentes. Isso pode refletir na obtenção de alguns resul-
tados, como por exemplo, geração de envelope para o resı́duo componente do
desvio que usa a distribuição da resposta no processo de geração dos dados.
274
em que
exp(z>
i β̂)
π̂i = e ĥii = π̂i (1 − π̂i )z> > −1
i (Z V̂Z) zi .
1+ exp(z>
i β̂)
Os gráficos de tDi e ĥii contra os valores ajustados π̂i podem revelar em-
parelhamentos discrepantes com algum tipo de influência nos resultados do
modelo.
De forma similar, a distância de Cook no caso emparelhado fica dada por
ĥii
LDi = r̂P2 i ,
(1 − ĥii )2
em que
1 − π̂i
r̂Pi = p
π̂i (1 − π̂i )
é o resı́duo de Pearson. Tem-se que r̂P1 assume sempre valores não negativos.
O gráfico de LDi contra os valores ajustados π̂i pode revelar aqueles empare-
lhamentos com maior influência nas estimativas dos parâmetros. A geração
de envelope, contudo, somente pode ser feita através do modelo logı́stico
condicional.
Para ilustrar o ajuste no R, supor um estudo com k = 20 emparelhamentos
do tipo 1:1 e que foram observados os valores de duas covariáveis V 1 e V 2.
Os valores observados dos casos serão armazenados nos objetos v11 e v12 e
os valores observados dos controles nos objetos v21 e v22. O ajuste segue os
seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp ∼ z1+z2 - 1, family=binomial).
Pode-se analisar fit.cond em geral da mesma forma que é analisada a saı́da
de um modelo logı́stico linear. Por exemplo, as estimativas e os erros padrão,
275
como foi mostrado acima, coincidem com as estimativas e os erros padrão
obtidos pelo modelo logı́stico condicional.
3.10.2 Aplicação
Como aplicação será discutido a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histórico familiar e de atividades fı́sicas no desenvolvi-
mento de diabetes não dependente de insulina. 30 indivı́duos não diabéticos
foram emparelhados com 30 indivı́duos diabéticos não dependentes de insu-
lina pela idade e pelo sexo. A obesidade foi medida através do ı́ndice de
massa coporal (IMC), que é definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histórico familiar com diabetes (HF)
e as atividades fı́sicas (ATF) foram tratadas como sendo variáveis binárias
(HF=1 presença, HF=0 ausência; ATF=1 presença, ATF=0 ausência). Os
dados são descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
estão também no arquivo diabetes.txt. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histórico familiar (HF) e
atividades fı́sicas (ATF) para o i-ésimo indivı́duo diabético e por xi21 , xi22
e xi23 os valores dessas variáveis para o i-ésimo indivı́duo não diabético. A
função de verossimilhança do modelo logı́stico condicional será dada por
30 exp(zi1 β1 + zi2 β2 + zi3 β3 )
`(β) = Πi=1 ,
1 + exp(zi1 β1 + zi2 β2 + zi3 β3 )
em que zi1 = xi11 − xi21 , zi2 = xi12 − xi22 e zi3 = xi13 − xi23 .
As estimativas de máxima verossimilhança (erro padrão aproximado) são
dadas por β̂1 = 0, 090(0, 065), β̂2 = 0, 968(0, 588) e β̂3 = −0, 563(0, 541),
cujos nı́veis descritivos são, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indı́cios de efeito significativo apenas para o histórico familiar.
276
Tabela 3.22
Emparelhamento de 30 diabéticos não
dependentes de insulina (casos) e 30
não diabéticos (controles).
Casos Controles
Par IMC HF ATF IMC HF ATF
1 22,1 1 1 26,7 0 1
2 31,3 0 0 24,4 0 1
3 33,8 1 0 29,4 0 0
4 33,7 1 1 26,0 0 0
5 23,1 1 1 24,2 1 0
6 26,8 1 0 29,7 0 0
7 32,3 1 0 30,2 0 1
8 31,4 1 0 23,4 0 1
9 37,6 1 0 42,4 0 0
10 32,4 1 0 25,8 0 0
11 29,1 0 1 39,8 0 1
12 28,6 0 1 31,6 0 0
13 35,9 0 0 21,8 1 1
14 30,4 0 0 24,2 0 1
15 39,8 0 0 27,8 1 1
16 43,3 1 0 37,5 1 1
17 32,5 0 0 27,9 1 1
18 28,7 0 1 25,3 1 0
19 30,3 0 0 31,3 0 1
20 32,5 1 0 34,5 1 1
21 32,5 1 0 25,4 0 1
22 21,6 1 1 27,0 1 1
23 24,4 0 1 31,1 0 0
24 46,7 1 0 27,3 0 1
25 28,6 1 1 24,0 0 0
26 29,7 0 0 33,5 0 0
27 29,6 0 1 20,7 0 0
28 22,8 0 0 29,2 1 1
29 34,8 1 0 30,0 0 1
30 37,3 1 0 26,5 0 0
277
3
18
0.6
2
Distancia de Cook
0.4
1
0.2
0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Indice Indice
278
fica dada por
M
X
`(β) = Πki=1 {exp(x>
i0 β)/ exp(x>
i` β)}, (3.20)
`=0
cujo logaritmo assume a forma
k
X M
X
L(β) = log `(β) = [x>
i0 β − log{ exp(x>
i` β)}], (3.21)
i=1 `=0
em que xi0 = (xi01 , . . . , xi0p )> denota os valores observados para o caso e
xi` = (xi`1 , . . . , xi`p )> denota os valores observados para o `-ésimo controle.
A função de verossimilhança (3.21) coincide com a função de verossimi-
lhança do modelo de regressão de Cox (Cox, 1972; Cox e Oakes, 1974) quando
não há ocorrência de empates. Isso permite que os modelos logı́sticos con-
dicionais para emparelhamentos 1:M (M ≥ 2) sejam ajustados através de
programas desenvolvidos para o modelo de Cox.
3.11 Exercı́cios
1. Supor a seguinte tabela de contingência 2 × 2:
Fator
Doença A B
D y 1 y2
D̄ y 3 y4
n
279
i 6= j. Mostre que as estimativas de máxima verossimilhança são dadas
yi
por π̂i = n
, i = 1, 2, 3, 4, com E(π̂i ) = πi , variâncias e covariâncias
π̂i (1−π̂i ) πi πj
Var(π̂i ) = n
e cov(π̂i , π̂j ) = − n
, para i 6= j.
280
para a razão de chances. Indique as suposições utilizadas e interprete
os resultados.
Fator
Doença A B Total
D 3 7 10
D̄ 6 9 15
Total 9 16 25
Faixa I Faixa II
Problema A B A B
Sim 6 7 7 4
Não 14 23 9 12
281
6. (Day e Byar, 1979). Suponha Yij ∼ B(nij , πij ) mutuamente indepen-
dentes, i, j = 1, 2 com as probabilidades πij sendo definidas por
πi1 πi2
log = αi − ∆ e log = αi + ∆.
1 − πi1 1 − πi2
Interprete α1 , α2 e ∆. Mostre que o teste de escore para testar H0 :
∆ = 0 contra H1 : ∆ 6= 0, coincide com o teste de Mantel-Hanszel
2
(XM H ) para testar H0 : ψ = 1 contra H1 : ψ 6= 1, em que ψ =
ind
8. Supor um modelo binomial quadrático de dose-resposta, em que Yi ∼
B(ni , πi ), com g(πi ) = ηi = α + βxi + γx2i , i = 1, . . . , k. Assumir que
∂ 2 η/∂x2 < 0, ∀x. Qual a solução para ∂η/∂x = 0? Denotando essa
solução por x0 , interprete e encontre uma estimativa intervalar para x0 .
282
10. (Collett, 1991, p.127). Os dados abaixo são provenientes de um ex-
perimento desenvolvido para avaliar a germinação de um determinado
tipo de semente segundo três condições experimentais: nı́vel da tempe-
ratura (21o C, 42o C e 62o C); nı́vel da umidade (baixo, médio e alto) e
temperatura da germinação (11o C e 21o C). A tabela abaixo apresenta
o número de sementes que germinaram após cinco dias para cada 100
sementes submetidas a cada condição experimental.
283
12. A tabela abaixo descreve o resultado de um experimento em que vários
pacientes foram submetidos a um de quatro nı́veis de exposição de um
tratamento particular e foi observado, após 12 meses, se o paciente foi
curado ou não curado.
Nı́vel de Exposição
Resultado E1 E2 E3 E4
Curado 20 16 12 5
Não-Curado 80 84 48 20
284
Obter a estatı́stica do teste de escore para testar H0 : ∆ = 0 contra
H1 : ∆ 6= 0. Qual a distribuição nula assintótica da estatı́stica do teste?
d √ 1 du
Use o resultado: dx
arcsen{u(x)} = 1−u2 dx
.
16. (Lawless, 1982, p.389; Efron, 1988). Considere uma aplicação de re-
gressão logı́stica em análise de sobrevivência. Seja πi (t) a probabilidade
de um equipamento do tipo i falhar no intervalo It = (t − 1, t] dado que
o mesmo não falhou até o tempo t − 1. Seja Yit o número de falhas no
intervalo It e seja nit o número de equipamentos que não falharam até
o tempo t − 1 no i-ésimo grupo. Assumir que Yit ∼ B(nit , πi (t)) e que
as falhas são independentes. Ajustar um modelo logı́stico do tipo
πi (t)
log = αi + βi t + γi t2 (3.22)
1 − πi (t)
ao seguinte conjunto de dados:
285
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perı́odo dos casos. A variável de emparelhamento foi
a idade da paciente na época da entrevista AGMT. Escolha três variáveis
do arquivo mencionado e verifique através de uma regressão logı́stica
condicional a associação entre as variáveis escolhidas e o diagnóstico
da doença (sim=1, não=0) representado pela variável FNDX. Interprete
as estimativas dos parâmetros do modelo ajustado. Faça uma análise
de diagnóstico. Obsevação: caso você escolha alguma variável com
observações perdidas, exclua das análises as pacientes correspondentes.
286
de probabilidade de Yi seja dada por
1 1
ψiyi
yi 1−yi
f (yi ; ψi ) = P1 1 1 t ,
t=0 t 1−t ψi
Duração da Sobrevivência
Idade No. de cigarros Gestação Não Sim
< 30 <5 ≤ 260 50 315
> 260 24 4012
5+ ≤ 260 9 40
> 260 6 459
30+ <5 ≤ 260 41 147
> 260 14 1594
5+ ≤ 260 4 11
> 260 1 124
287
estimativas intervalares para as razões de chances. Esss dados estão
descritos no arquivo gestantes.txt.
288
dados de n = 100 pacientes com ausência (HD=0) e evidência (HD=1)
de doença arterial coronariana, além da idade (Age) do paciente e a
faixa etária (FE). Para ler os dados use o comando
Fazer uma análise descritiva dos dados, por exemplo boxplots robustos
da idade para cada um dos grupos, comente. Construa uma tabela de
contigência com as frequências relativas de pacientes com evidência e
ausência da doença segundo as faixas etárias, comente. Ajustar um
modelo logı́stico para explicar a probabilidade Pr(HD=1) dado Age.
Comente as estimativas. Fazer uma análise de diagnóstico como gráfico
de resı́duos e distância de Cook. Avalie o impacto das observações
destacadas como possivelmente influentes. Construa uma banda de
confiança de 95% para Pr(HD=1) dado Age. Encontre uma estimativa
intervalar de 95% para a razão de chances entre um paciente com Age+1
e um paciente com Age ter presença da doença. Construa a curva ROC
e estabeleça um critério para classificar pacientes como suspeitos de
terem presença da doença. Para esse critério obter as taxas de positivo
positivo e de falso positivo. Ajustar o modelo pelo GAMLSS através
dos comandos
plot(ajuste)
289
24. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivı́duos consi-
derados idosos são submetidos a um exame psiquiátrico para avaliar a
ocorrência ou não de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicológico feito previamente esteja associado com
a ocorrência ou não do sintoma. Os dados são apresentados abaixo
(score: escala no exame psicológico e resp: ocorrência (resp=1) ou
não ocorrência (resp=0) do sintoma). Esses dados estão descritos no
arquivo caduquice.txt.
Score Resp Score Resp Score Resp Score Resp Score Resp
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0
290
largura da madeira (estreita, larga) e (iv) local de ocupação (claro, es-
curo). Supor que o número de lagartos encontrados da espécie grahani
tenha distribuição binomial. Responda às seguintes questões: (i) pro-
ponha um modelo logı́stico (sem interação) para explicar a proporção
de lagartos da espécie grahani. Ajuste o modelo e verifique através do
teste da razão de verossimilhanças quais efeitos são significativos ao
nı́vel de 10%. (ii) Verifique separadamente se cada interação de pri-
meira ordem pode ser incluı́da no modelo ao nı́vel de 5%. Construa o
ANODEV.(iii) Interprete os resultados tentando falar de uma forma não
técnica sobre as preferências dos dois tipos de lagarto.
291
uma. Na primeira coluna tem-se a classificação dos olhos dos pais se-
gundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificação dos olhos dos avós segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: três claros e um castanho, 5:
três claros e um escuro, 6: um claro e três castanhos, 7: um escuro
e três castanhos, 8: um claro e três escuros, 9: um castanho e três
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o número de filhos
na famı́lia e na última coluna o número de filhos com olhos claros. Seja
Yi o número de filhos com olhos claros pertencentes à i-ésima famı́lia.
Assuma inicialmente que Yi ∼ B(ni , πi ), i = 1, . . . , 78. Responda às
seguintes questões:
(ii) Incluir agora o fator cor dos olhos dos avós. Refazer todos os
passos acima. Comente os resultados.
292
explicar a probabilidade de pulsação alta dadas as demais variáveis.
Faça uma análise de diagnóstico. Apresente as curvas ajustadas para
cada grupo de hábito de fumar com as respectivas bandas de confiança
de 95%.
D 0,71 49 16
D 1,00 48 18
D 1,31 48 34
D 1,48 49 47
D 1,61 50 47
D 1,70 48 48
M 0,40 47 7
M 0,71 46 22
M 1,00 46 27
M 1,18 48 38
M 1,31 46 43
M 1,40 50 48
293
1, 2, 3, em que πi (x) é a proporção esperada de insetos mortos sob a
concentração i e dose x. Faça uma análise de diagnóstico e verifique
se há indı́cios de sobredispersão aplicando um teste apropriado. Teste
a hipótese de paralelismo com todos os pontos e sem as observações
discrepantes. Comente.
require(Fahrmeir)
attach(credit)
summary(credit).
294
Fazer inicialmente uma análise descritiva procurando relacionar a variável
resposta com as demais variáveis explicativas. Use tabelas de con-
tingência e boxplots. Comente. Transforme a variável resposta em
variável numérica binária. Por exemplo, usando os comandos
resp = as.numeric(Y)
resp = abs(resp-2).
fit2.credit = stepGAIC(fit1.credit).
plot(fit2.credit)
295
Capı́tulo 4
4.1 Introdução
Neste capı́tulo serão apresentados alguns métodos para a análise de dados
de contagem. Inicialmente são apresentados os principais métodos tradici-
onais e em seguida a modelagem através de regressão. Duas situações de
interesse são consideradas. Na primeira delas, muito comum em estudos de
seguimento, as unidades amostrais são classificadas segundo os nı́veis de cate-
gorias, tais como sexo, faixa etária e tipo de tratamento e são acompanhadas
por um perı́odo fixo pré-estabelecido ou até a ocorrência de um determinado
evento. Tem-se, portanto, um tempo particular de observação para cada
unidade amostral, o qual deverá ser incorporado nas análises. Na segunda
situação, o interesse é estudar o número de ocorrências de um evento particu-
lar segundo os nı́veis de categorias, de modo que seja possı́vel construir uma
tabela tı́pica de contingência. Aqui, a suposição de distribuição de Poisson
para o número de ocorrências do evento em cada configuração de nı́veis das
categorias leva a resultados equivalentes à suposição de distribuição multi-
nomial para as caselas da tabela de contingência formada. Assim, muitas
296
tabelas de contingência que seriam originalmente analisadas através de um
modelo log-linear multinomial podem ser analisadas, alternativamente, por
um modelo log-linear de Poisson. A vantagem disso é o fato do modelo log-
linear de Poisson ser ajustado mais facilmente do que o modelo log-linear
multinomial, além da possibilidade de todos os procedimentos desenvolvidos
para os MLGs serem diretamente estendidos para o modelo log-linear de Pois-
son. Não é discutido, contudo, aspectos particulares na análise de tabelas de
contingência, tais como testes ou modelos multinomiais mais especı́ficos.
Discute-se também neste capı́tulo o fenômeno de sobredispersão que pode
ocorrer com dados de contagem quando a variância da variável resposta é
maior do que a média. Nesses casos, a suposição de distribuição de Poisson
para a resposta é inadequada sendo necessário o uso de modelos alternati-
vos. O modelo de quase-verossimilhança com parâmetro de dispersão leva
às mesmas estimativas do modelo de Poisson, porém corrige a variabilidade
das estimativas. Em especial será dada atenção aos modelos com resposta
binomial negativa, os quais permitem uma análise mais completa dos dados
do que os modelos de quase-verossimilhança. Finalmente, será abordado de
forma mais sucinta os modelos de Poisson e binomial negativo com excesso
de zeros.
E Ē
Casos y1 y2
Pessoas-Tempo t1 t2
297
Assumir que Y1 e Y2 seguem, respectivamente, distribuição de Poisson com
parâmetros λ1 e λ2 , em que λ1 é a taxa média de casos (por unidade de
tempo) no grupo exposto e λ2 é a taxa média de casos no grupo não exposto.
O parâmetro de interesse nesse tipo de estudo é a razão entre as taxas,
λ1
denotada por ψ = λ2
. O objetivo principal é fazer inferências a respeito do
parâmetro ψ.
298
4.2.2 Modelo probabilı́stico condicional
Pelo teorema da fatorização tem-se que as estatı́sticas (Y1 , Y1 + Y2 ) são sufici-
entes minimais para (ψ, λ2 ). Logo, condicionando em Y1 + Y2 = m, obtém-se
f (a|m; ψ) = P r{Y1 = a | Y1 + Y2 = m}
P r{Y1 = a, Y2 = m − a}
=
P r{Y1 + Y2 = m}
P r{Y1 = a}P r{Y2 = m − a}
=
P r{Y1 + Y2 = m}
e−λ1 t1 (λ1 t1 )a e−λ2 t2 (λ2 t2 )(m−a)
= a!e−λ1 t1 −λ2 t2 (λ t +λ t )m (m−a)!
1 1 2 2
m!
m (λ1 t1 )a (λ2 t2 )(m−a)
=
a (λ1 t1 + λ2 t2 )m
a (m−a)
m λ1 t1 λ2 t2
=
a λ1 t1 + λ2 t2 λ1 t1 + λ2 t2
m a
= π (1 − π)(m−a) ,
a
em que π = ψt1 /{t2 + ψt1 } = ψ/{t2 /t1 + ψ}, sendo π a probabilidade de um
caso ter sido exposto. Equivalentemente, tem-se que
πt2
ψ= .
(1 − π)t1
a y1 at2
Mostra-se facilmente que π̂ = m
= y1 +y2
e consequentemente que ψ̂ = bt1
=
y1 t2
y2 t1
, que coincide com a estimativa ψ̃ (não condicional). Além disso, segue a
π(1−π)
variância assintótica VarA (π̂) = m
e portanto aplicando o método delta
obtém-se a variância assintótica
2 2
dψ t2 π
VarA (ψ̂) = VarA (π̂) = ,
dπ t1 m(1 − π)3
t1
em que dψ/dπ = t2
(1−π)−2 .
Após algumas manipulações algébricas mostra-
h i2
se que ṼarA (ψ̃) = V̂arA (ψ̂) = tt21 y1 (yy13+y2 ) . Assim, as inferências para ψ são
2
299
equivalentes sob os modelos não condicional e condicional, diferentemente das
inferências para a razão de chances descritas no Capı́tulo 3. A justificativa é
que no caso do produto de duas binomiais independentes a estatı́stica Y1 + Y2
é suficiente para o parâmetro π2 , porém não é ancilar para ψ. Logo, há
perda de informação para ψ com a distribuição condicional (hipergeométrica
não central). Mesmo assim muitas inferências para a razão de chances são
desenvolvidas sob o modelo condicional, em particular o teste exato de Fisher.
No caso do produto de duas Poissons independentes a estatı́stica Y1 + Y2 é
suficiente para λ2 e ancilar para a razão de taxas ψ. Assim, as inferências
para os modelos não condicional e condicional são equivalentes. Fica-se então
com o modelo condicional que é mais siomples.
Inferência exata
Aqui o interesse é testar H0 : ψ = 1 contra H1 : ψ 6= 1, que é equivalente a
testar H0 : π = π0 contra H1 : π 6= π0 , em que π0 = t1 /(t1 + t2 ).
O nı́vel descritivo exato para testar a hipótese H0 contra H1 é dado por
P = 2min{PI , PS }, em que
a
X m x
PI = π0 (1 − π0 )(m−x)
x=0
x
e m
X m x
PS = π0 (1 − π0 )(m−x) .
x=a
x
Pode-se usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressar a distribuição binomial em função de uma distribuição Fu,v , ou
seja uma distribuição F com u e v graus de liberdade. Supondo Y ∼ B(n, p),
tem-se que
300
com 0 < p < 1. Daı́ tem-se, sob H0 : π = π0 , que
m
X m x
PI = 1 − π0 (1 − π0 )(m−x)
x=a+1
x
(m − a − 1 + 1)π0
= 1 − P r Fu,v <
(a + 1)(1 − π0 )
= 1 − P r {Fu,v < bt1 /(a + 1)t2 } ,
e
α X
= P r(Y = t; p̂S ) = 1 − P r(Y ≥ y + 1; p̂S ).
2 t≤y
e
1
p̂S = n−y ,
1+ (y+1)F2(y+1),2(n−y) (1−α/2)
301
em que u = 2a e v = 2(b + 1). De forma análoga obtém-se o limite superior
exato
1
π̂S = b
1+ aFu,v (1−α/2)
= aFu,v (1 − α/2)/{b + aFu,v (1 − α/2)},
Inferência assintótica
Embora a inferência exata para a razão de taxas tenha um custo computa-
cional bem menor do que para a razão de chances, tem-se também a opção
da inferência assintótica para a razão de taxas quando λ1 e λ2 são grandes
no modelo não condicional ou quando m é grande no modelo condicional.
Similarmente ao caso da razão de chances a aproximação para a distribuição
normal é mais rápida para log(ψ̃) do que para ψ̃. Assim, aplicando o método
delta tem-se que
2
d log(ψ)
VarA {log(ψ̃)} = VarA (ψ̃)
dψ
1 1
= + ,
λ1 t1 λ2 t2
d log(ψ) 1
em que dψ
= ψ
. Daı́ segue que uma estimativa intervalar assintótica de
coeficiente de confiança (1 − α) para ψ fica dada por
q
exp[log(ψ̃) ± z(1−α/2) Ṽar{log(ψ̃)}],
302
1 1
em que Ṽar{log(ψ̃)} = y1
+ y2
. O teste de Wald para testar H0 : ψ = 1
contra H1 : ψ 6= 1 fica dado por
{log(ψ̃)}2
ξW =
Ṽar{log(ψ̃)}
Aplicação
Considere, como aplicação, os dados apresentados em Boice e Monson (1977)
referentes a um estudo de seguimento com dois grupos de mulheres com
tuberculose, um grupo exposto a radiação e o outro grupo não exposto,
sendo observado ao longo do tempo o desenvolvimento ou não de câncer de
mama. Os resultados desse estudo são resumidos na Tabela 4.1.
Tabela 4.1
Casos de câncer de mama em mulheres
com tuberculose.
Radiação
Exposto Não Exposto
Casos 41 15
Pessoas-anos 28010 19017
e
PS = P r{F82,32 < 0, 575} = 0, 026,
303
e obtém-se o nı́vel descritivo P= 0, 052 que indica pela rejeição de H0 . Isso
quer dizer que há indı́cios de que mulheres com tuberculose e expostas a
radiação têm uma chance maior de desenvolvimento de câncer de mama do
que mulheres não expostas com a mesma doença. Uma estimativa pontual
0,732×19017
de máxima verossimilhança para ψ fica dada por ψ̂ = 0,268×28010
= 1, 86, que
corresponde à estimativa da razão de médias (por ano) de casos de câncer de
mama entre mulheres com tuberculose que foram expostas à radiação e mu-
lheres com tuberculose não expostas à radiação. Uma estimativa intervalar
exata de de 95% para π tem os limites
em que F84,30 (0, 025) = 0, 574 e F82,32 (0, 975) = 1, 866. Desses limites obtém-
se os limites exatos de confiança para a razão de tazas ψ
π̂I t2 0, 595 × 19017
ψ̂I = =
(1 − π̂I )t1 (1 − 0, 595) × 28010
= 0, 997 e
π̂S t2 0, 836 × 19017
ψ̂S = =
(1 − π̂S )t1 (1 − 0, 836) × 28010
= 3, 461.
Esse intervalo [0, 997; 3, 461] cobre ligeiramente o valor 1 uma vez que o nı́vel
descritivo do teste H0 : ψ = 1 contra H1 : ψ 6= 1 foi P= 0, 052.
304
E Ē
Casos y1i y2i
Pessoas-Tempo t1i t2i
305
em que ŷ1i = mi π̂i , ŷ2i = mi (1 − π̂i ) e
ψ̂M H
π̂i = .
t2i /t1i + ψ̂M H
A distribuição nula assintótica de X 2 é uma qui-quadrado com k − 1 graus de
liberdade. Quando a hipótese de homogeneidade das razões de chances não
é rejeitada, pode-se testar a hipótese de associação entre o fator e a doença
levando em conta o efeito de estrato. Isso equivale a testar H0 : ψ = 1 contra
H1 : ψ 6= 1. O teste qui-quadrado apropriado, com correção de continuidade,
é dado por
Pk
y1i − ki=1 E(Y1i |mi , ψ = 1)| − 0, 5}2
P
2 {| i=1
X = Pk
i=1 Var(Y1i |mi , ψ = 1)
{| i=1 y1i − ki=1 mi t1i /(t1i + t2i )| − 0, 5}2
Pk P
= Pk . (4.2)
2
i=1 mi t1i t2i /(t1i + t2i )
−2
V̂arA {log(ψ̂M H )} = ψ̂M H V̂arA (ψ̂M H ).
306
levando aos limites de confiança superior e inferior dados abaixo
q
−1
ψ̂I = exp{log(ψ̂M H ) − z(1−α/2) ψ̂M H V̂arA (ψ̂M H )} e
q
−1
ψ̂S = exp{log(ψ̂M H ) + z(1−α/2) ψ̂M H V̂arA (ψ̂M H )}.
Aplicação
Como ilustração, na Tabela 4.2 tem-se um resumo do número de avarias
causadas por ondas em navios de carga e os respectivos tempos de exposição
(em navios-meses) para dois tipos de navios e dois perı́odos de operação.
Tabela 4.2
Número de avarias por ondas em navios
de carga segundo dois tipos de navios
e dois perı́odos de operação.
Perı́odo de Tipo de navio
operação Tipo E Tipo A
P1 avarias 12 9
n-meses 1991 2734
P2 avarias 20 33
n-meses 3140 6755
307
as probabilidades
308
de Mantel-Haenszel
12 × 2734 20 × 6755 9 × 1991 33 × 3140
ψ̂M H = + / + = 1, 44.
1991 + 2734 3140 + 6755 1991 + 2734 3140 + 6755
As estimativas da probabilidade da avaria ter sido de navio do tipo E ficam,
respectivamente, sob a hipótese de zpsi constante dadas por
309
Hanszel com correção de continuidade fica dada por
{|y11 + y12 − {m1 t11 /(t11 + t21 ) + m2 t12 /(t12 + t22 )}| − 0, 5}2
X2 =
m1 t11 t21 /(t11 + t21 )2 + m2 t12 t22 /(t12 + t22 )2
(|12 + 20 − (8, 85 + 16, 82)| − 0, 5)2
= = 2, 05,
5, 12 + 11, 48
cujo nı́vel descritivo, quando comparado com os quantis da distribuição qui-
quadrado com 1 grau de liberdade é dado por P = 0, 15, não rejeitando-se a
hipótese nula.
310
√ √
Portanto, quando λ é grande, a variável aleatória 2{ Y − E( Y )} segue
aproximadamente distribuição N(0, 1). Assim, para uma amostra aleatória
Y1 , . . . , Yn tal que Yi ∼ P(λi ) se o interesse é explicar λi através de variáveis
explicativas, pode-se propor para λi grande, ∀i, o modelo normal linear
p
Yi = x>i β + i ,
log(λ11 ) = α,
log(λ21 ) = α + β,
log(λ1i ) = α + γi e
log(λ2i ) = α + β + γi + δi ,
311
Logo, testar H0 : γ2 = · · · = γk , dado que δi = 0, significa testar a ausência
de efeito de estrato.
Aqui tij denota o total de unidades de tempo na casela (i, j), i = 1, 2
e j = 1, . . . , k. Assim, tem-se que log(µij ) = log(tij ) + log(λij ), em que
log(tij ) desempenha o papel de um offset. Pela propriedade de que os totais
marginais Y1i + Y2i são estatı́sticas suficientes para os parâmetros λ21 , . . . , λ2k
e ancilares para ψ1 , . . . , ψk , deve-se esperar que as estimativas de máxima
verossimilhança não condicionais ψ̂i = exp(β̂ + δ̂i ), i = 1, . . . , k, coincidam
com as estimativas condicionais.
Uma maneira de verificar se é razoável a suposição de distribuição de
Poisson nas unidades de tempo é tratar log(Tij ) como sendo uma variável ex-
plicativa, isto é, ajustar o modelo com parte sistemática dada por log(µij ) =
θ log(tij ) + log(λij ). Assim, ao testar H0 : θ = 1 contra H1 : θ 6= 1, a não
rejeição de H0 indica que a suposição de distribuição de Poisson nas unidades
de tempo não é inadequada. Como será mostrado a seguir isso significa que
os tempos têm distribuição exponencial.
em que λ = (λ11 , λ21 , . . . , λk1 , λk2 )> . Tem-se, portanto, para cada casela (i, j)
um estudo de seguimento em que as unidades amostrais foram observadas um
total de tij unidades de tempo. Sem perda de generalidade, supor que tij =
N e que nesse subestrato foram acompanhadas I unidades amostrais cujos
tempos de observação foram, respectivamente, N1 , N2 , . . . , NI . Considerar
312
u` = 1 se o evento sob estudo ocorrer para a `-ésima unidade amostral antes
de um tempo pré-fixado T . Quando o evento não ocorrer para a `-ésima
unidade amostral durante o perı́odo de estudo (u` = 0) não há censura,
sendo aqui o tempo de observação dado por N` = T . Supor ainda que a taxa
de ocorrência do evento, que é definida por
P r{o evento ocorrer em (t, t + ∆t)}
ξ = lim ,
∆t→0 ∆t
dado que o evento não ocorreu até o tempo t, permanece constante durante
o perı́odo de observação. Finalmente, assumir que as ocorrências são inde-
pendentes entre as unidades amostrais. Sob essas condições, mostra-se que
a distribuição conjunta das variáveis (N` , u` ), ` = 1, . . . , I, é um produto
de I exponenciais independentes de parâmetro ξ. Se o evento ocorrer antes
do tempo T para a `-ésima unidade amostral (N` < T, u` = 1) a mesma
contribui com o fator ξe−ξN` na função de verossimilhança. Caso contrário
(N` = T, u` = 0), o fator é dado por e−ξT . O logaritmo da função de veros-
similhança conjunta fica então dado por
I
X
L(ξ) = {u` log(ξ) − N` ξ}
`=1
I
X I
X
= log(ξ) u` − ξ N` . (4.4)
`=1 `=1
Se considerar que para a casela (i, j) o evento ocorreu yij vezes, as unidades
amostrais foram observadas um total de tij unidades de tempo e a taxa de
ocorrência do evento é λij , então (4.4) fica reexpressa na forma
313
suposição de tempos exponenciais para as unidades amostrais. No entanto, é
importante ressaltar que as inferências exatas para ξ no modelo exponencial
são bastante complexas em virtude da ocorrência de censura (ver discussão,
por exemplo, em Breslow e Day, 1987, p. 132). Já os resultados assintóticos
são equivalentes àqueles obtidos para o modelo de Poisson.
Aplicação
A Tabela 4.3 resume os resultados de um estudo de seguimento em que dou-
tores Britânicos foram acompanhados durante a década de 1950 e observado,
em particular, a ocorrência de mortes por câncer de pulmão segundo o con-
sumo médio diário de cigarros e a faixa etária. Esses dados estão disponı́veis
no arquivo breslow.txt.
Tabela 4.3
Número de casos de morte por câncer de pulmão e pessoas-anos
de observação em doutores Britânicos segundo a faixa etária
e o consumo médio diário de cigarros.
Consumo médio diário Faixa Etária
de cigarros 40-49 50-59 60-69 70-80
0 mortes 0 3 0 3
p-anos 33679 21131,5 10599 4495,5
1-9 mortes 0 1 3 3
p-anos 6002,5 4396 2813,5 1664,5
10-30 mortes 7 29 41 45
p-anos 34414,5 25429 13271 4765,5
+ 30 mortes 3 16 36 11
p-anos 5881 6493,5 3466,5 769
Denotar por Yij o número de mortes para o i-ésimo nı́vel de consumo e
j-ésima faixa etária, i, j = 1, . . . , 4. Supor que Yij ∼ P(λij tij ), em que λij é a
314
taxa média de mortes por unidade de tempo para o consumo i e faixa etária
j. O modelo saturado nesse caso é dado por
log(λij ) = α + βi + γj + δij ,
Tabela 4.4
Estimativas dos parâmetros do modelo log-linear
de Poisson para explicar a taxa média de morte
de doutores Britânicos com câncer de pulmão.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α -11,424 -22,44
C(1-9) β2 1,409 2,53
C(10-20) β3 2,866 6,86
C(+30) β4 3,758 8,80
F(50-59) γ2 1,769 5,10
F(60-69) γ3 2,897 8,62
F(70-80) γ4 3,791 11,12
315
ajuste do modelo com log(Tij ) como variável explicativa forneceu a estimativa
de máxima verossimilhança θ̂ = 1, 839(0, 610). O teste de Wald para testar
H0 : θ = 1 contra H1 : θ 6= 1 forneceu o valor
(1, 839 − 1)2
ξW = = 1, 89,
0, 6102
cujo nı́vel descritivo é dado por P= 0, 17, indicando que o modelo pode ser
ajustado com log(tij ) como sendo offset. O gráfico normal de probabilidades
descrito na Figura 4.1 indica que o modelo está bem ajustado.
3
2
1
Componente do Desvio
0
−1
−2
−3
−2 −1 0 1 2
Quantil da N(0,1)
316
i = 1, . . . , n, e β = (β1 , . . . , βp )> é um vetor de parâmetros desconhecidos.
As ligações mais utilizados são logarı́tmica (g(µi ) = log(µi )), raiz quadrada
√
(g(µi ) = µi ) e identidade (g(µi ) = µi ).
O processo iterativo para a estimação de β, como foi visto na Seção 1.6.1,
é dado por
β (m+1) = (X> W(m) X)−1 X> W(m) z(m) ,
1 1
m = 0, 1, . . ., com variável dependente modificada z = η + W− 2 V− 2 (y − µ),
η = (η1 , . . . , ηn )> , y = (y1 , . . . , yn )> , µ = (µ1 , . . . , µn )> , V = diag{µ1 , . . . , µn }
e W = diag{ω1 , . . . , ωn } com ωi = (dµi /dηi )2 /µi . Em particular tem-se
ωi = µi para ligação logarı́tmica, ωi = 4 para ligação raiz quadrada e ωi = µ−1
i
317
4.3.4 Qualidade do ajuste
A função desvio de um modelo de Poisson supondo yi > 0, ∀i, é definida por
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1
318
Estudos de simulação (ver Williams, 1984) mostram que em geral a dis-
tribuição de tDi não se afasta muito da distribuição normal padrão, podendo
ser usadas nas análises de diagnóstico as mesmas interpretações da regressão
normal linear. Em particular, a construção de envelopes é fortemente reco-
mendada para tDi .
Conforme descrito na Seção 3.6.8, uma outra opção é o resı́duo quantı́lico
(Dunn e Smyth, 1996) definido para variáveis discretas por
319
tarem nenhuma tendência sistemática, indicando que a suposição de distri-
buição de Poisson parece ser bastante razoável. O programa utilizado para
gerarmos o gráfico de envelopes é apresentado no Apêndice B.
4.3.6 Aplicação
Como ilustração considere os dados apresentados em Neter et al. (1996, p.
613) sobre o perfil dos clientes de uma determinada loja oriundos de 110
áreas de uma cidade. O objetivo do estudo é relacionar o número esperado
de clientes em cada área com as seguintes variáveis explicativas em cada área:
número de domicı́lios (em mil), renda média anual (em mil USD), idade média
dos domicı́lios (em anos), distância ao concorrente mais próximo (em milhas)
e distância à loja (em milhas). Portanto, a área é a unidade experimental.
Esses dados estão também descritos no arquivo store.txt.
Na Figura 4.2 são apresentados os diagramas de dispersão entre o número
de clientes (variável resposta) e as variáveis explicativas renda e idade média,
distância ao concorrente mais próximo (dist1) e distância à loja (dist2).
Indı́cios mais evidentes de relação linear podem ser observados entre a res-
posta e as distâncias dist1 e dist2. Ou seja, há indı́cios de que o número
de clientes aumenta à medida que a distância ao concorrente mais próximo
aumenta e a distância à loja diminui.
Denote por Yi o número de clientes da i-ésima área que foram à loja no
ind
perı́odo determinado. Supor que Yi ∼ P(µi ) com parte sistemática dada por
320
notar todas as estimativas são altamente significativas. O desvio do modelo
foi de D(y; µ̂) = 114, 98 (104 graus de liberdade) que equivale a um nı́vel
descritivo P= 0, 35 indicando um ajuste adequado. Nota-se pela tabela que
o número esperado de clientes na loja cresce com o aumento do número de
domicı́lios na área e da distância ao concorrente mais próximo, porém diminui
com o aumento da renda média e da idade média dos domicı́lios bem como da
distância da área à loja. Isso sugere que deve ser uma loja de conveniência.
30
30
20
20
Clientes
Clientes
10
10
5
5
0
Renda Idade
30
30
20
20
Clientes
Clientes
10
10
5
5
0
1 2 3 4 5 6 2 4 6 8 10
Dist1 Dist2
321
Tabela 4.5
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado aos dados sobre perfil
de clientes.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,942 14,21
Domicı́lio β1 0,606 4,27
Renda β2 -0,012 -5,54
Idade β3 -0,004 -2,09
Dist1 β4 0,168 6,54
Dist2 β5 -0,129 -7,95
0.7
43
2
0.6
20
1
0.5
Componente do Desvio
Distância de Cook
0.4
0
0.3
−1
0.2
−2
0.1
0.0
−3
5 10 15 20 25 30 35 0 20 40 60 80 100
Valor Ajustado Índice
322
2
Componente do Desvio
0
−2
−4
−2 −1 0 1 2
Quantil da N(0,1)
mil USD a renda média dos domicı́lios de uma determinada área espera-se au-
mento relativo no número de clientes que irão à loja de exp(−0, 012) = 0, 988.
Ou seja, decrescimento de 1,2%, com estimativa intervalar de 95% dada por
[0,8%,1,2%]. Por outro lado, se a distância ao concorrente mais próximo au-
mentar em uma milha espera-se aumento relativo no número de clientes de
exp(0, 168) = 1, 183. Ou seja, aumento de 18,3% com estimativa intervalar
de 95% de [15%, 20%]. Pela Figura 4.3 nota-se que os resı́duos estão bem
comportados com o valor ajustado, sugerindo que a variabilidade foi con-
trolada. A distância de Cook destaca as áreas #20 e #43, que apresentam
algumas variações desproporcionais nas estimativas dos parâmetros, porém
sem ocorrência de mudança inferencial. O gráfico normal de probabilida-
des (Figura 4.4) não apresenta indicações de afastamentos da suposição de
distribuição de Poisson para o número de clientes que visitaram a loja no
perı́odo.
323
4.4 Modelos com resposta binomial negativa
4.4.1 Distribuição binomial negativa
O fenômeno de sobredispersão, similarmente ao caso de dados com resposta
binária discutido na Seção 3.6.14, ocorre quando é esperada uma distribuição
de Poisson para a resposta, porém a variância é maior do que a resposta
média. Uma causa provável desse fenômeno é a heterogeneidade das unidades
amostrais que pode ser devido à variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto fixo x =
(x1 , . . . , xp )> de valores de variáveis explicativas, Y |z tem média z e variância
z, no entanto Z, que é não observável, varia nas unidades amostrais com x
fixo, de modo que E(Z) = µ. Então,
324
Logo, Y tem função de probabilidade dada por
Z ∞
P r{Y = y} = f (y|z)g(z; µ, k)dz
0
k Z ∞
1 k
= e−z(1+k/µ) z k+y−1 dz.
y!Γ(k) µ 0
325
Fazendo a transformação de variável t = z(1 + µφ ) tem-se que dz
dt
= (1 + µφ )−1 .
Daı́ segue que
φ −(φ+y) Z ∞
1 φ φ
P r{Y = y} = 1+ e−t tφ+y−1 dt
y!Γ(φ) µ µ 0
y φ
Γ(φ + y)µ φ
=
Γ(φ)Γ(y + 1)(µ + φ)φ+y
y φ
Γ(φ + y) µ φ
=
Γ(y + 1)Γ(φ) µ + φ µ+φ
Γ(φ + y)
= (1 − π)φ π y , y = 0, 1, 2, . . . ,
Γ(y + 1)Γ(φ)
com π = µ/(µ + φ). Portanto, neste caso Y também segue distribuição
binomial negativa de média µ e parâmetro de forma φ. Será denotado Y ∼
BN(µ, φ). Pode-se mostrar (ver, por exemplo, Jørgensen,1996, p. 96) que
1
√ (Y − µ) →d N(0, π/(1 − π)2 ), quando φ → ∞.
φ
Pode-se obter também aproximações da binomial negativa para a Poisson e
gama.
Tem-se que E(Yi ) = µi e Var(Yi ) = µi +µ2i /φ. Similarmente aos MLGs a parte
sistemática será denotada por g(µi ) = ηi = x>
i β, em que xi = (xi1 , . . . , xip )
>
326
de Poisson as ligações mais utilizados são logarı́tmica (g(µi ) = log(µi ), raiz
√
quadrada (g(µi ) = µi ) e identidade (g(µi ) = µi ).
Definindo θ = (β > , φ)> o logaritmo da função de verossimilhança fica
dado por
n
X Γ(φ + yi )
L(θ) = log + φ log(φ) + yi log(µi ) − (φ + yi ) log(µi + φ) ,
i=1
Γ(yi + 1)Γ(φ)
em que µi = g −1 (x>
i β). A fim de obter-se a função escore para β obtém-se
inicialmente as derivadas
n
X yi dµi ∂ηi (φ + yi ) dµi ∂ηi
∂L(θ)/∂βj = −
i=1
µi dηi ∂βj (φ + µi ) dηi ∂βj
n
X yi dµi (φ + yi ) dµi
= xij − xij
i=1
µi dηi (φ + µi ) dηi
n
X φ(dµi /dηi )
= (yi − µi )xij
i=1
µ i (φ + µ i )
n
X
= ωi fi−1 (yi − µi )xij ,
i=1
em que ωi = (dµi /dηi )2 /(µ2i φ−1 + µi ) e fi = dµi /dηi . Logo, pode-se espressar
a função escore na forma matricial
327
Para obter-se a matriz de informação de Fisher calcula-se as derivadas
n 2
2
X (φ + yi ) yi dµi
∂ L(θ)/∂βj ∂β` = − 2
− 2 xij xi`
i=1
(φ + µ i ) µ i dη i
n
(φ + yi ) d2 µi
X yi
+ − xij xi` ,
i=1
µi (φ + µi ) dηi2
328
e
(m) (m)
φ(m+1) = φ(m) − {Uφ /L̈φφ },
para m = 0, 1, 2, . . ., em que
y∗ = Xβ + F−1 (y − µ)
Tabela 4.5
Quantidades ωi e fi para algumas ligações.
Ligação ωi fi
log(µi ) = ηi µi /(µi φ−1 + 1) µi
µ = ηi (µ2i φ−1 + µi )−1 1
√i √
µi = η i 4/(µi φ−1 + 1) 2 µi
329
fit.bn = glm.nb( resp ∼ cov1 + cov2, link=identity).
A Tabela 4.5 apresenta as expressões para ωi e fi para algumas ligações
usuais em modelos com resposta binomial negativa.
Usando os mesmos argumentos da Seção 1.6 tem-se que para n grande
β̂ segue distribuição aproximadamente normal p-variada de média β e ma-
triz de variância-covariância K−1 −1
ββ , ou seja , para n grande β̂ ∼ Np (β, Kββ ).
camente independentes.
d∗2 (yi , µ̂i ) = 2[log{f (0; yi , φ)} − log{f (0; µ̂i , φ)}]
= 2φ log{φ/(yi + φ)} − 2φ log{φ/(µ̂i + φ)}
= 2φ log{(µi + φ)/(ŷi + φ)}
= 2φ log{(µ̂i + φ)/φ}.
Sob a hipótese de que o modelo adotado está correto D∗ (y; µ̂) segue para
φ grande e µi grande, ∀i, distribuição qui-quadrado com (n − p) graus de
liberdade.
330
Supor agora a partição β = (β > > >
1 , β 2 ) em que β 1 é um vetor q-dimensional
−φ̂ log{φ̂0 /(φ̂0 + µ̂0i )} + yi log{µ̂i (φ̂0 + µ̂0i )/µ̂0i (φ̂ + µ̂i )}],
0
331
Estudos de Monte Carlo desenvolvidos por Svetliza (2002) indicam boa
concordância entre o resı́duo componente do desvio
d∗ (yi ; µ̂i )
tDi = p
1 − ĥii
com a distribuição normal padrão, em que
√ h n o n oi 1
± 2 φ log µ̂i +φ + y log yi (µ̂i +φ) 2 se y > 0;
i i
d∗ (yi ; µ̂i ) = √ h n yi +φ oi µ̂i (yi +φ)
± 2 φ log (µ̂i +φ) se yi = 0.
φ
Para extrair a quantidade d∗i (yi ; µ̂i ) do objeto fit.bn deve-se fazer o
seguinte:
d = resid(fit.bn, type= ‘‘deviance").
Uma versão da distância de Cook aproximada é dada por
ĥii
LDi = r̂P2 i ,
(1 − ĥii )2
p
em que rPi = (yi − µi )/ Var(Yi ) e Var(Yi ) = µi + µ2i /φ. A quantidade rPi é
obtida no R através do comando
rp = resid(fit.bn, type=‘‘pearson").
O gráfico de LDi contra as observações ou valores ajustados pode reve-
lar pontos influentes nas estimativas β̂ e φ̂. Svetliza (2002) desenvolveu as
expressões matriciais para a obtenção de `max para β̂ e φ̂.
332
library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajus-
tado.
4.4.6 Aplicações
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um es-
tudo sociológico desenvolvido na Austrália com 146 estudantes de 8a série e
ensino médio com o objetivo de comparar a ausência na escola segundo os
seguintes fatores: ano que o estudante está cursando (1: 8a série, 2: 1o ano
do ensino médio, 3: 2o ano do ensino médio, 4: 3o ano do ensino médio),
etnia (0: aborı́gine, 1: não aborı́gine), desempenho escolar (0: insuficiente,
1: suficiente) e sexo (0: masculino, 1: feminino). Para obter esses dados no R
deve-se acionar o comando library(MASS) e em seguida quine. Uma cópia
desses dados está disponı́vel no arquivo quine.txt.
Denota-se por Yijk`m o número de faltas num determinado perı́odo refe-
rentes ao m-ésimo aluno, cursando o i-ésimo ano, de etnia j, com desempenho
escolar k e pertencente ao `-ésimo sexo, em que i = 1, 2, 3, 4, j, k, ` = 1, 2 e
ind
m = 1, . . . , 144. Supor que Yijk`m ∼ BN(µijk` , φ), em que
log(µijk` ) = α + βi + γj + δk + θ` ,
333
suficiente e insuficiente e θ é a diferença entre os efeitos do sexo feminino e
masculino.
Tabela 4.6
Estimativas de máxima verossimilhança referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausência
escolar de estudantes australianos.
Efeito Modelo 1 E/E.Padrão Modelo 2 E/E.Padrão
Intercepto 2,895 12,70 2,628 10,55
Etnia -0,569 -3,72 0,131 0,38
Sexo 0,082 0,51
Ano2 -0,448 -1,87 0,178 0,56
Ano3 0,088 0,37 0,827 2,61
Ano4 0,357 1,44 0,371 1,11
Desemp 0,292 1,57
Etn*Ano2 -0,991 -2,26
Etn*Ano3 -1,239 -2,78
Etn*Ano4 -0,176 -0,38
φ 1,275 7,92 1,357 7,80
334
30
Abor
Nabo
25
Valore Ajustado
20
15
10
Ano
Figura 4.5: Valores médios estimados pelo modelo log-linear binomial nega-
tivo ajustado aos dados sobre ausência escolar de estudantes australianos.
335
10
3
2
5
Componente do Desvio
Componente do Desvio
1
0
0
−1
−2
−5
−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)
336
2
72
1.0
1
0.8
Componente do Desvio
Distância de Cook
36 104
0.6
0
0.4
−1
0.2
−2
0.0
−3
10 15 20 25 30 0 50 100 150
Valor Ajustado Índice
Demanda de TV a cabo
Na Tabela 4.7 é apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 áreas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados estão também disponı́veis no arquivo tvcabo.txt. Foram observadas,
para cada área, o número de assinantes (em milhares) de TV a cabo (nass),
o número de domicı́lios (em milhares) na área (domic), a porcentagem de
domicı́lios com TV a cabo (perc), a renda per capita (em mil USD) por
domicı́lio com TV a cabo (percap), a taxa de instalação de TV a cabo (taxa)
em USD, o custo médio mensal de manutenção de TV a cabo (custo) em
337
Tabela 4.7
Demanda de TV a cabo em 40 áreas metropolitanas dos EUA.
Nass Domic Perc Percap Taxa Custo Ncabo Ntv
105 350 30,000 9,839 14,95 10 16 13
90 255,631 35,207 10,606 15 7,5 15 11
14 31 45,161 10,455 15 7 11 9
11,7 34,840 33,582 8,958 10 7 22 10
46 153,434 29,980 11,741 25 10 20 12
11,217 26,621 42,136 9,378 15 7,66 18 8
12 18 66,667 10,433 15 7,5 12 8
6,428 9,324 68,940 10,167 15 7 17 7
20,1 32 62,813 9,218 10 5,6 10 8
8,5 28 30,357 10,519 15 6,5 6 6
1,6 8 20,000 10,025 17,5 7,5 8 6
1,1 5 22,000 9,714 15 8,95 9 9
4,355 15,204 28,644 9,294 10 7 7 7
78,910 97,889 80,612 9,784 24,95 9,49 12 7
19,6 93 21,075 8,173 20 7,5 9 7
1 3 33,333 8,967 9,95 10 13 6
1,65 2,6 63,462 10,133 25 7,55 6 5
13,4 18,284 73,288 9,361 15,5 6,3 11 5
18,708 55 34,015 9,085 15 7 16 6
1,352 1,7 79,529 10,067 20 5,6 6 6
170 270 62,963 8,908 15 8,75 15 5
15,388 46,540 33,064 9,632 15 8,73 9 6
6,555 20,417 32,106 8,995 5,95 5,95 10 6
40 120 33,333 7,787 25 6,5 10 5
19,9 46,39 42,897 8,890 15 7,5 9 7
2,45 14,5 16,897 8,041 9,95 6,25 6 4
3,762 9,5 39,600 8,605 20 6,5 6 5
24,882 81,98 30,351 8,639 18 7,5 8 4
21,187 39,7 53,368 8,781 20 6 9 4
3,487 4,113 84,780 8,551 10 6,85 11 4
3 8 37,500 9,306 10 7,95 9 6
42,1 99,750 42,206 8,346 9,95 5,73 8 5
20,350 33,379 60,966 8,803 15 7,5 8 4
23,15 35,5 65,211 8,942 17,5 6,5 8 5
9,866 34,775 28,371 8,591 15 8,25 11 4
42,608 64,840 65,713 9,163 10 6 11 6
10,371 30,556 33,941 7,683
338 20 7,5 8 6
5,164 16,5 31,297 7,924 14,95 6,95 8 5
31,150 70,515 44,175 8,454 9,95 7 10 4
18,350 42,040 43,649 8,429 20 7 6 4
USD, o número de canais a cabo disponı́veis na área (ncabo) e o número de
canais não pagos com sinal de boa qualidade disponı́veis na área (ntv). Como
são dados de contagem pode-se pensar inicialmente num modelo de Poisson
ind
em que nassi denota o número de assinantes na i-ésima região, nassi ∼ P(µi ),
e componente sistemático dado por log(µi ) = α + β1 domici + β2 percapi +
β3 taxai + β4 custoi + β5 ncaboi + β6 ntvi , para i = 1, . . . , 40. No entanto, o
ajuste do modelo forneceu desvio D(y; µ̂) = 225 para 33 graus de liberdade
indicando fortes indı́cios de sobredispersão, que é confirmado pelo gráfico
normal de probabilidades da Figura 4.8. Então um modelo log-linear com
ind
resposta binomial negativa foi ajustado, em que nassi ∼ BN(µi , φ). 3
8
2
6
1
Componente do Desvio
Componente do Desvio
4
0
2
−1
0
−2
−2
−3
−4
−4
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)
339
4
14
3
Distância de Cook
1
2
1
0
0 10 20 30 40
Índice
340
pela significância de três desses coeficientes que aparecem significativos mar-
ginalmente com todos os pontos, bem como pelo aumento da sobredispersão
uma vez que a estimativa de φ cresce com a eliminação das duas áreas. Uma
maneira de reduzir a influência dessas duas áreas seria através da atribuição
de pesos para as mesmas, por exemplo aplicando-se procedimentos robustos
em que os pesos são obtidos de forma iterativa. Modelos alternativos também
poderiam ser aplicados no sentido de reduzir a inflêncua dessas observações,
tais como modelos de quase-verossimilhança ou modelos com resposta beta,
em que a resposta seria a porcentagem de domicı́lios com TV a cabo.
Tabela 4.8
Estimativas de máxima verossimilhança referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito Todos pontos E/E.Padrão Sem 1 e 14 E/E.Padrão
Intercepto 2,437 1,99 3,608 3,34
Domic 0,013 8,24 0,014 9,69
Percap 0,065 0,42 -0,002 -0,02
Taxa 0,041 1,84 0,010 0,50
Custo -0,207 1,95 -0,266 -2,69
Ncabo 0,067 2,01 0,050 1,63
Ntv -0,135 1,84 -0,071 -1,02
φ 3,311 3,49 5,060 2,89
341
em que µ̂i = exp(x>
i β̂). Algumas quantidades, tais como a matriz de
variância-covariância assintótica de β̂, o desvio, resı́duos etc, deverão ser
corrigidos de maneira similar ao caso tratado na Seção 3.6.14. Finalmente,
pode-se pensar na aplicação de modelos mais gerais de quase-verossimilhança
que serão discutidos no Capı́tulo 5.
Aplicação
Como ilustração, considere os dados descritos na Tabela 4.9 (McCullagh e
Nelder, 1989, Seção 6.3.2) e também no arquivo navios.txt em que avarias
causadas por ondas em navios de carga são classificadas segundo o tipo do
navio (A-E), ano da fabricação (1:1960-64, 2:1965-69, 3:1970-74 e 4:1975-79)
e perı́odo de operação (1:1960-74 e 2:1975-79).
Foi também considerado o tempo em que cada navio ficou em operação
(em meses). Inicialmente, um modelo log-linear de Poisson com offset, dado
por log(meses), e efeitos principais é ajustado aos dados. Assim, denotando
por Yijk o número de avarias observadas para o navio do tipo i, construı́do
ind
no ano j que operou no perı́odo k e supondo que Yijk ∼ P(λijk tijk ), em que
tijk é o total de meses de operação e λijk o número médio esperado de avarias
por unidade de tempo. A parte sistemática do modelo é dada por
342
Tabela 4.9
Distribuição de avarias em navios de
carga segundo o tipo do navio, ano de
fabricação perı́odo de operação
e total de meses em operação.
Tipo Ano Perı́odo Meses Avarias
A 1 1 127 0
A 1 2 63 0
A 2 1 1095 3
A 2 2 1095 4
A 3 1 1512 6
A 3 2 3353 18
A 4 2 2244 11
B 1 1 44882 39
B 1 2 17176 29
B 2 1 28609 58
B 2 2 20370 53
B 3 1 7064 12
B 3 2 13099 44
B 4 2 7117 18
C 1 1 1179 1
C 1 2 552 1
C 2 1 781 0
C 2 2 676 1
C 3 1 783 6
C 3 2 1948 2
C 4 2 274 1
D 1 1 251 0
D 1 2 105 0
D 2 1 288 0
D 2 2 192 0
D 3 1 349 2
D 3 2 1208 11
D 4 2 2051 4
E 1 1 45 0
E 2 1 789 7
E 2 2 437 7
E 3 1 1157 5
E 3 2343 2161 12
E 4 2 542 1
3
2
2
1
1
Componente do Desvio
Componente do Desvio
0
0
−1
−1
−2
−2
−3
−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)
344
mativas de máxima verossimilhança e os valores padronizados pelos respecti-
vos erros padrão aproximados, já multiplicados pelo fator σ̂, são apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredispersão
neste exemplo é causado particularmente por duas observações discrepantes
e sugere a inclusão da interação tipo*ano com pelo menos uma dessas ob-
servações excluı́das. Pela Tabela 4.10 nota-se que os navios de tipos B e C
são aqueles com uma incidência menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como também aqueles que ope-
raram de 75 a 79 apresentam uma inicidência maior de avarias por unidade
de tempo do que os demais.
Tabela 4.10
Estimativas dos parâmetros referentes ao modelo
log-linear de quase-verossimilhança ajustado
aos dados sobre avarias em navios de carga.
Efeito Estimativa E/E.Padrão
Constante -6,406 -22,69
Tipo
A 0,000 -
B -0,543 -2,36
C -0,687 -1,61
D -0,076 0,20
E 0,326 1,06
Ano
60-64 0,000 -
65-69 0,697 3,59
70-74 0,818 3,71
75-79 0,453 1,50
Perı́odo
60-74 0,000 -
75-79 0,384 2,50
345
4.5 Relação entre a multinomial e a Poisson
Supor agora que todas as unidades amostrais são acompanhadas durante
o mesmo perı́odo e que são classificadas segundo s nı́veis de exposição e r
grupos, conforme descrito abaixo.
Exposição
Grupo E1 E2 E3 · · · Es
G1 y11 y12 y13 · · · y1s
G2 y21 y22 y23 · · · y2s
···
Gr yr1 yr2 yr3 · · · yrs
ind
Supondo que Yij ∼ P(µij ), i = 1, . . . , r e j = 1, . . . , s, tem-se que
X n! a
P r{Y = a| Yij = n} = Πi,j πijij ,
i,j
Πi,j aij !
346
α. Como será mostrado a seguir, a estimativa de máxima verossimilhança
do vetor β correspondente ao modelo multinomial coincide com a estimativa
de máxima verossimilhança para β = (β > > > >
1 , β 2 , β 12 ) referente ao modelo
log-linear de Poisson.
Por outro lado, se for ajustado um modelo multinomial do tipo log-linear
aos dados tal que
em que
Ly++ (τ ) = −τ + y++ log(τ ) − log(y++ !)
e
X X
Ly|n (β) = log(n!) + aij log(πij ) − log(aij !).
i,j i,j
347
de médias µ11 , . . . , µrs . As matrizes de segundas derivadas com relação a β,
para os dois modelos, são tais que
348
4.5.1 Modelos log-lineares hierárquicos
Um modelo log-linear é dito hierárquico se dado que uma interação está
no modelo, todas as interações de ordem menor como também os efeitos
principais correspondentes deverão estar também no modelo. A utilização de
tais modelos tem a vantagem de permitir uma interpretação das interações
nulas como probabilidades condicionais. Em muitos casos estimativas dos
valores médios podem ser expressas em forma fechada, evitando assim a
utilização de processos iterativos.
Como ilustração, supor o modelo log-linear apresentado na seção anterior.
Pode-se mostrar que a hipótese H0 : β12(ij) = 0, ∀ij, é equivalente à hipótese
de independência na tabela, isto é H0 : πij = πi+ π+j , ∀ij. Dado que não há
interação, testar a ausência de efeito de exposição, isto é testar H0 : β1(i) = 0,
i = 1, . . . , r, é equivalente a testar H0 : π1+ = · · · = πr+ = 1/r. Finalmente,
dado que não há interação, testar a ausência de efeito de grupo, isto é testar
H0 : β2(j) = 0, j = 1, . . . , s, é equivalente a testar H0 : π+1 = · · · = π+s = 1/s.
Supor agora um modelo log-linear de Poisson com três fatores de r, s e t
nı́veis, respectivamente. Pode-se representar a parte sistemática do modelo
saturado da seguinte forma:
349
constante nos nı́veis do terceiro fator. Isso quer dizer, em outras palavras,
que a razão de produtos cruzados πijk πi0 j 0 k /πij 0 k πi0 jk , representando a asso-
ciação entre os nı́veis (i, j) e (i0 , j 0 ) dos dois primeiros fatores, é constante
nos nı́veis do terceiro fator. Se for omitido no modelo (4.9) a interação de
segunda ordem mais uma interação de primeira ordem, os dois fatores omi-
tidos correspondentes à interação de primeira ordem são independentes do
terceiro fator. Por exemplo, se for omitido β123(ijk) e β23(jk) , ∀ijk, ficando o
modelo com a parte sistemática
Se agora for omitido além de β123(ijk) e β23(jk) também β13(ik) , ∀ijk, ficando
a parte sistemática dada por
O modelo apenas com os efeitos principais, cuja parte sistemática é dada por
equivale à hipótese de independência entre os três fatores, isto é, tem-se que
350
Tabela 4.11
Algumas interações em modelos log-lineares de Poisson.
Forma para πijk Interação Interpretação
πi++ π+j+ π++k nenhuma fatores mutuamente
independentes
πij+ π++k β12(ij) fatores 1 e 2 independentes
do fator 3
πij+ πi+k /πi++ β12(ij) + β13(ik) fatores 2 e 3 independentes
nos nı́veis do fator 1
4.5.2 Aplicações
Associação entre renda e satisfação no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivı́duos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
satisfação no emprego. Denote por Yij o número de indivı́duos pertencentes
à classe de renda i com grau de satisfação j. Esses dados estão disponı́veis
no arquivo emprego.txt.
Tabela 4.12
Classificação de indivı́duos segundo a renda
e o grau de satisfação no emprego.
Grau de Satisfação
Renda (US$) Alto Bom Médio Baixo
<6000 20 24 80 82
6000-15000 22 38 104 125
15000-25000 13 28 81 113
>25000 7 18 54 92
351
2
Componente do Desvio
1
0
-1
-2
-3
-2 -1 0 1 2
Percentil da N(0,1)
Tabela 4.13
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado ao dados sobre renda e
satisfação no emprego.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,651 18,80
Renda 2 β1(2) 0,338 3,71
Renda 3 β1(3) 0,132 1,389
Renda 4 β1(4) -0,186 -1,81
Grau 2 β2(2) 0,555 3,49
Grau 3 β2(3) 1,638 11,87
Grau 4 β2(4) 1,894 13,93
Supor que Yij ∼ P(µij ) com parte sistemática inicialmente dada por (mo-
delo saturado)
log(µij ) = α + β1(i) + β2(j) + β12(ij) ,
352
em que µij denota o número esperado de indivı́duos pertencentes à classe
de renda i com grau de satisfação j, β1(i) denota o efeito renda, β2(j) de-
nota o efeito satisfação e β12(ij) denota a interação. Tem-se as restrições
β1(1) = β2(1) = 0. O teste da razão de verossimilhanças para testar H0 :
β12(ij) = 0, ∀ij (ausência de interação) fornece o valor ξRV = 12, 04 com nı́vel
descritivo P= 0, 21, indicando pela ausência de interação ou independência
entre os dois fatores. Denotando por πij a proporção de indivı́duos na classe
de renda i e grau de satisfação j, não rejeitar H0 é equivalente a escrever
πij = πi+ π+j , ∀ij, em que πi+ denota a proporção de indivı́duos na classe
de renda i e π+j denota a proporção de indivı́duos com grau de satisfação
j. Ou seja, tem-se independência entre renda e satisfação no emprego. Isso
significa que a distribuição do grau de satisfação no emprego é mesma em
todos as faixas de renda.
A Tabela 4.13 apresenta as estimativas dos parâmetros do modelo com
efeitos principais. Os fatores renda e grau de satisfação são altamente signi-
ficativos. Nota-se pelas estimativas dos parâmetros que há uma proporção
maior de indivı́duos na classe de renda 2 (6000-15000) e uma proporção me-
nor na classe de renda 4 (>25000). Por outro lado, nota-se que a proporção
de indivı́duos cresce com o aumento do grau de satisfação. O desvio do mo-
delo foi de D(y; µ̂) = 12, 04 (9 graus de liberdade) com nı́vel descritivo de
P= 0, 21, indicando um ajuste adequado.
Pelo gráfico normal de probabilidades com o resı́duo componente do des-
vio tDi , descrito na Figura 4.11, não há indı́cios fortes de que o modelo
adotado seja incorreto, embora o fato dos resı́duos negativos estarem abaixo
da reta mediana e os resı́duos positivos ligeiramente acima seja uma indı́cio
de sobredispersão nos dados. Assim, um modelo log-linear com resposta
binimoail negativa poderia levar a um ajuste mais adequado;
353
3
2
2
Componente do Desvio
Componente do Desvio
1
1
0
0
-1
-1
-2
-2
-3
-3
-2 -1 0 1 2 -2 -1 0 1 2
354
Tabela 4.14
Distribuição de 1330 pacientes segundo
ocorrência de doença das coronárias,
nı́vel de colesterol e pressão arterial.
Doença das Nı́vel de Pressão arterial
coronárias colesterol 1 2 3 4
1 2 3 3 4
Sim 2 3 2 1 3
3 8 11 6 6
4 7 12 11 11
1 117 121 47 22
Não 2 85 98 43 20
3 119 209 68 43
4 67 99 46 33
Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doença das coronárias.
(D:doença, C:colesterol e P:pressão)
Efeito Desvio g.l. Diferença g.l.
D+C+P 78,96 24 - -
+ D.C 48,51 21 30,45 3
+ D.P 24,40 18 24,10 3
+ C.P 4,77 9 19,63 9
355
principais é altamente significativa. Dado que os efeitos principais estão no
modelo, a inclusão da interação doença*colesterol (β12(ij) ) leva a ξRV = 30, 45
(3 graus de liberdade) com P= 0, 00. Dado que essa interação está no modelo,
a inclusão da interação doença*pressão (β13(ik) ) fornece ξRV = 24, 10 (3 graus
de liberdade) com P= 0, 00. Finalmente, dadas as duas interações de primeira
ordem, a inclusão da interação remanescente, colesterol*pressão, leva a ξRV =
19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do modelo (4.9) sem a
interação de segunda ordem é de D(y; µ̂) = 4, 77 (9 graus de liberdade) para
um nı́vel descritivo de P= 0, 853, indicando um ajuste adequado.
A ausência de interação de segunda ordem neste exemplo significa que as
razões de chances (entre os nı́veis de colesterol ou entre os nı́veis de pressão
arterial) são as mesmas nos grupos de doentes e não doentes. Contudo,
o gráfico normal de probabilidades descrito na Figura 4.12a indica que os
resı́duos negativos estão acima da média esperada, ocorrendo o contrário
com os resı́duos positivos, embora todos sejam em geral pequenos. Isso é
um indı́cio modesto de subdispersão, fenômeno que também pode ocorrer
em modelos de Poisson. Um modelo de quase-verossimilhança similar ao que
foi usado no exemplo da Seção 4.2.6 leva à estimativa σ̂ 2 = 0, 53. Na Figura
4.12b tem-se o gráfico normal de probabilidades com o resı́duo componente
do desvio corrigido pela estimativa de dispersão. Nota-se que os resı́duos
estão melhor distribuı́dos dentro do envelope gerado.
356
vamos supor que Z é uma variável aleatória com função de probabilidades
dada por
(
π se z = 0,
P {Z = z} = fY (z)
(1 − π) {1−fY (0)} se z = 1, 2, . . . ,
357
e
∞
2
X fY (z)
E(Z ) = z 2 (1 − π)
z=1
{1 − fY (0)}
∞
(1 − π) X 2
= z fY (z)
{1 − fY (0)} z=1
E(Y 2 )(1 − π)
= .
{1 − fY (0)}
Daı́ segue que
E2 (Y )(1 − π)
(1 − π) 2
Var(Z) = E(Y ) − .
{1 − fY (0)} {1 − fY (0)}
358
Por exemplo, se assumimos que Zi ∼ ZAP(λi , π) em que λi = exi β e
>
= .
[1 − exp{−exp(x> i β)}]
Portanto,
359
em que 0 < π < 1 e fY (z) denota a função de probabilidades de uma
variável aleatória Y , por exemplo, Poisson ou binomial negativa. Desde que
P∞ P∞
z=1 fY (z) = 1 − fY (0) obtemos z=0 P {Z = z} = π + (1 − π)fY (0)} + (1 −
π){1 − fY (0)} = π + (1 − π) = 1.
Os dois primeiros momentos de Y ficam dados por
∞
X
E(Z) = z(1 − π)fY (z)
z=1
∞
X
= (1 − π) zfY (z)
z=1
= (1 − π)E(Y )
e
∞
X
2
E(Z ) = z 2 (1 − π)fY (z)
z=1
∞
X
= (1 − π) z 2 fY (z)
z=1
= (1 − π)E(Y 2 ).
Assim,
360
4.6.4 Modelos de regressão inflacionados de zeros
Vamos supor agora que Z1 , . . . , Zn são variáveis aleatórias independentes com
distribuição de Poisson ou binomial negativa inflacionadas de zeros. Então,
πi + (1 − πi )fY (0) se zi = 0,
P {Zi = zi } =
(1 − πi )fY (zi ) se zi = 1, 2, . . . ,
πi )} = u>
i γ. Dessa forma segue que µi = E(Zi ) fica expresso como
µi = (1 − πi )E(Yi )
= (1 − πi )λi
( )
eui γ
>
= 1− e i β
x>
1+e u >
i γ
exi β
>
= .
{1 + eui γ }
>
Isto é,
logµi = x> i γ }.
u>
i β − log{1 + e
4.7 Exercı́cios
1. Seja Y uma variável aleatória com distribuição binomial negativa, isto
é, Y é o número de ensaios até a ocorrência do r-ésimo sucesso, em que
π é a probabilidade de sucesso em cada ensaio. Mostre que a função de
361
probabilidades de Y pode ser expressa na forma exponencial. Calcule
µ e V (µ). Use a forma abaixo para a função de probabilidades de Y
y−1 r
f (y; π, r) = π (1 − π)(y−r) ,
r−1
em que y = r, r+1, . . .. Obtenha a função desvio supondo uma amostra
de n variáveis aleatórias independentes de probabilidades de sucesso πi .
Nı́vel de Exposição
Alto Baixo
Casos 68 47
Pessoas-Anos 9018 13783
362
Sejam Y1 e Y2 o número de casos observados para o nı́vel alto e baixo de
arsênico, respectivamente. Suponha que Yi ∼ P(λi ti ), em que ti denota
o número de pessoas-anos, i = 1, 2. Considere a razão de taxas ψ =
λ1 /λ2 . Encontre ψ̃ e um intervalo de confiança exato de 95% para ψ.
Com base neste intervalo qual sua conclusão sobre a hipótese H0 : ψ =
1? Informações úteis: F136,96 (0, 025) = 0, 694 e F138,94 (0, 975) = 1, 461.
363
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos três fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Veri-
fique se é possı́vel incluir alguma interação de primeira ordem. Faça
uma análise de diagnóstico com o modelo final e interprete os resul-
tados, por exemplo, fazendo uma comparação das taxas estimadas de
câncer nasal entre os nı́veis de um mesmo fator.
364
M1 M2
P. Defeituosas y1 y2
(1 + eβ̂ )2
V̂ar(β̂) = ,
meβ̂
em que β̂ é o estimador de máxima verossimilhança de β. Comente.
11. Sejam Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
BN(µi , ν) para i = 1, 2 e j = 1, . . . , m com parte sistemática dada por
µ1 = α −β e µ2 = α +β. (i) Como fica a matriz modelo X? (ii) Calcule
Var(β̂) e (iii) mostre que a estatı́stica de escore para testar H0 : β = 0
contra H1 : β 6= 0 pode ser expressa na forma
mν̂ 0 (ȳ2 − ȳ1 )2
ξSR = ,
2ȳ (ȳ + ν̂ 0 )
em que ȳ = (ȳ1 + ȳ2 )/2 e ν̂ 0 denota a estimativa de ν sob H0 .
365
12. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ BN(µi , ν)
P
xi
com parte sistemática dada por logµi = α + β(xi − x̄) em que x̄ = n
.
(i) Como fica a matriz modelo X? (ii) Obtenha Var(β̂). (iii) Como fica
o teste de escore para testar H0 : β = 0 contra H1 : β 6= 0? Qual a
distribuição nula assintótica da estatı́stica do teste?
Resultado da Avaliação
Curso Aprovado Reprovado Reavaliação
Pedagogia 32 16 3
Geografia 32 18 10
Fı́sica 35 14 14
366
número de infecções de ouvido diagnosticadas pelo próprio recruta. Ve-
rifique qual dos modelos, log-linear de Poisson, quase-verossimilhança
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
métodos de diagnóstico como critério.
367
Maciez
Temperatura Uso de M Preferência Leve Média Forte
Alta Sim X 19 23 24
M 29 47 43
Não X 29 33 42
M 27 23 30
Baixa Sim X 57 47 37
M 49 55 52
Não X 63 66 68
M 53 50 42
logµij = α + βi + γj ,
368
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2
se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
função de probabilidades de (Z0 , Z1 , Z2 ) fica dada por
(a) Verifique que π0i = {1 + eη1i + eη2i }−1 , π1i = eη1i /{1 + eη1i + eη2i }
e π2i = eη2i /{1 + eη1i + eη2i }.
369
iid
21. Supor que Zi ∼ ZANBI(µ, ν, π), para i = 1, . . . , n, em que a função de
probabilidades de zi fica dada por
(
π se zi = 0
fz (zi ; µ, ν, π) = fy (zi ;µ,ν)
(1 − π) 1−fy (0;µ,ν) se zi = 1, 2, . . . ,
24. Supor que Yi são variáveis aleatórias iid Poisson truncada em zero com
370
função de probabilidades dada por
e−λ λyi
f (yi ; λ) = ,
yi !(1 − e−λ )
para yi = 1, 2, . . ., em que λ > 0 e i = 1, . . . , n. Mostre que Uλ =
n
λ
{ȳ − λeλ /(eλ − 1)}, obtenha Kλλ e apresente o procedimento iterativo
escore de Fisher para obter µ̂.
371
Capı́tulo 5
Modelos de
Quase-Verossimilhança
5.1 Introdução
Wedderburn (1974) propôs uma função biparamétrica, denominada função de
quase-verossimilhança, que engloba algumas funções de verossimilhança da
famı́lia exponencial. Todavia, na maioria das situações não é possı́vel através
da função de quase-verossimilhança recuperar a verdadeira distribuição da
variável resposta. Se Y é a variável aleatória de interesse o logaritmo da
função de quase-verossimilhnaça é definido por
Z µ
1 y−t
Q(µ; y) = 2 dt,
σ y V (t)
em que V (t) é uma função positiva e conhecida, −∞ < y, µ < ∞ e σ 2 > 0 é
um parâmetro de dispersão. Como temos acima uma integral definida, segue
que
∂Q(µ; y) y−t µ
= |
∂µ σ 2 V (t) y
y−µ
= .
σ 2 V (µ)
Aplicando as condições abaixo de regularidade
372
n o
∂Q(µ;Y )
(i) E ∂µ
=0 e
n o2 n o
∂Q(µ;Y ) ∂ 2 Q(µ;Y )
(ii) E ∂µ
= −E ∂µ2
,
Exemplos
Normal
Vamos supor V (t) = 1 e −∞ < t, y < ∞. Logo, o logaritmo da função de
quase-verossimilhança fica dado por
Z µ
y−t (y − t)2 µ (y − µ)2
Q(µ; y) = dt = − |y = − ,
y σ2 2σ 2 2σ 2
373
Poisson
Vamos supor V (t) = t e y ≥ 0, t > 0. Logo, obtemos
Z µ
y−t
Q(µ; y) = dt
y σ2t
1
= (ylogt − t)|µy
σ2
1
= {ylogµ − µ − ylogy + y}.
σ2
Se assumirmos σ 2 = 1 e y > 0 temos que Q(µ; y) é proporcional ao logaritmo
da função de verossimilhança de uma P(µ).
Para y = 0 obtemos
µ
−t −t
Z
µ
Q(µ; y) = 2
dt = 2 |µ0 = − 2 ,
0 σ t σ σ
Binomial
Supor a função V (t) = t(1 − t), 0 ≤ y ≤ 1 e 0 < t < 1. O logaritmo da
função de quase-verossimilhança fica nesse caso dado por
µ
y−t
Z
Q(µ; y) = dt
y σ 2 t(1
− t)
Z µ Z µ
y 1 1 1
= 2
dt − 2 dt
σ y t(1 − t) σ y (1 − t)
y t 1
= 2
log |µy + 2 log(1 − t)|µy
σ 1−t σ
y 1
= 2
[log{µ(1 − µ) − log{y/(1 − y)}] + 2 {log(1 − µ) − log(1 − y)},
σ σ
para 0 < y, µ < 1.
374
Para y = 0 temos que
µ
−t
Z
Q(µ; y) = 2
dt
0 σ t(1 − t)
Z µ
1 t
= − 2 dt
σ 0 t(1 − t)
1
= log(1 − t)|µ0
σ2
1
= log(1 − µ),
σ2
que para σ 2 = 1 coincide com logP (Y = 0), em que Y ∼ Be(µ).
Quando y = 1 segue que
µ
(1 − t)
Z
Q(µ; y) = dt
1 σ 2 t(1
− t)
Z µ
1 1
= 2
σ 1 t
1
= 2
logt|µ1
σ
1
= logµ,
σ2
que para σ 2 = 1 coincide com logP (Y = 1), em que Y ∼ Be(µ).
Gama
Supor a função V (t) = t2 e y, t > 0. O logaritmo da função de quase-
verossimilhança fica nesse caso dado por
Z µ
y−t
Q(µ; y) = dt
y σ 2 t2
1
= (−y/t − logt)|µy
σ2
1
= {−y/µ − logµ + 1 + logy}.
σ2
Para σ 2 conhecido temos que Q(y; µ) é proporcional ao logaritmo da função
de verossimilhança de uma G(µ, φ), em que φ = 1/σ 2
375
Função V (t) = t2 (1 − t)2
Suponha 0 < t < 1 e 0 ≤ y ≤ 1. Nesse caso o logaritmo da função de
quase-verossimilhança fica dada por
Z µ
1 y−t
Q(µ; y) = dt
σ y t (1 − t)2
2 2
1
∝ [(2y − 1)log{µ/(1 − µ)} − y/µ − (1 − y)/(1 − µ)].
σ2
A função Q(µ; y) obtida acima não corresponde a nenhuma função com ve-
rossimilhança conhecida. Portanto, apenas para algumas funções de quase-
verossimilhança tem-se uma função de verossimilhança correspondente.
Em particular, para as funções V (t) = t3 , t > 0, V (t) = t(1 + t), t > 0 e
V (t) = e−t , t ∈ IR, é possı́vel recuperar distribuições da famı́lia exponencial
uniparamétrica, bem como definir novos modelos de quae-verossimilhança.
376
5.2.1 Estimação
Denotando Q(β) = Q(µ(β); y), podemos mostrar que a função quase-escore
para β fica expressa na forma
∂Q(β) 1
Uβ = = 2 DT V−1 (y − µ),
∂β σ
em que D = ∂µ/∂β = W1/2 V1/2 X, µ = (µ1 , . . . , µn )T , y = (y1 , . . . , yn )T ,
V = diag{V1 , . . . , Vn }, W = diag{ω1 , . . . , ωn } com ωi = (dµ/dη)2i /Vi e X é
uma matriz n × p de linhas xTi , i = 1, . . . , n. A matriz de quase-informação
para β fica dada por
∂ 2 Q(β)
1 T −1
Kββ = −E = D V D.
∂β∂β T σ2
A estimativa de quase-verossimilhança para β sai da solução da equação
Uβ = 0 que pode ser resolvida pelo método escore de Fisher resultando no
seguinte processo iterativo:
β (m+1) = β (m) + {D(m)T V−(m) D(m) }−1 D(m)T V−(m) {y − µ(m) }, (5.3)
377
e daı́ segue ( )
(Yi − µi )
Var p = σ2,
V (µi )
e, portanto, um estimador de momentos para σ 2 fica dado por
n
X (yi − µ̂i )2
2 1
σ̂ = .
(n − p) i=1 V (µ̂i )
378
5.2.4 Teste de hipóteses
Seja o vetor paramétrico β particionado tal que β = (β T1 , β T2 )T , β 1 e β 2
são subvetores de dimensão q e p − q, respectivamente. Suponha que temos
interesse em testar H0 : β 1 = 0 contra H1 : β 1 6= 0. McCullagh (1983)
mostra que também no caso de quase-verossimilhança a diferença entre duas
funções quase-desvio funciona como um teste da razão de verossimilhanças.
Ou seja, se denotarmos por D(y; µ̂0 ) a função quase-desvio sob H0 e por
D(y; µ̂) a função quase-desvio sob H1 , para n grande e sob H0 , temos que
1
D(y; µ̂0 ) − D(y; µ̂) ∼ χ2q ,
σ2
para σ 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore são também possı́veis de serem desenvolvidos.
Usando resultados do Capı́tulo 1 podemos mostrar que
em que V̂ar(β̂ 1 ) denota que a variância está sendo avaliada em β̂. Já o teste
quase-escore para testar H0 : β 1 = 0 contra H1 : β 1 6= 0 fica dado por
0 0
ξSR = Uβ1 (β̂ )T V̂ar0 (β̂ 1 )Uβ1 (β̂ ),
em que
∂Q(β)
Uβ1 =
∂β 1
1 T −1
= D V (y − µ),
σ2 1
379
0 0T 0
com todas as quantidades sendo avaliadas em β̂ = (0T , β̂ 2 )T e β̂ 2 sendo
a estimativa de β 2 sob H0 . Sob H0 e sob condições usuais de regularidade
temos que, para n → ∞, ξW , ξSR ∼ χ2q .
5.2.5 Resı́duos
O não conhecimento da verdadeira função de verossimilhança de β dificulta
o desenvolvimento de alguns métodos de diagnóstico. Tanto o estudo de
resı́duos como de medidas de influência dependem em geral do conhecimento
de L(β). O que tem sido proposto em modelos de quase-verossimilhança
no sentido de avaliar a qualidade do ajuste são gráficos de resı́duos. Uma
sugestão (vide McCullagh e Nelder, 1989, Cap. 9) é o gráfico do resı́duo de
Pearson
yi − µ̂i
r̂Pi = p
σ̂ V (µ̂i )
contra alguma função dos valores ajustados, como por exemplo contra g(µ̂i ),
em que g(·) é a função de ligação. Espera-se uma distribuição aleatória dos
resı́duos em torno do eixo zero. Tendências diferentes, como por exemplo
aumento da variabilidade, podem indicar que a função V (µi ) não é adequada.
Um outro resı́duo que pode também ser utilizado, embora de forma descritiva,
é dado por
±d( yi ; µ̂i )
tDi = p ,
σ̂ 1 − ĥii
em que d(yi ; µ̂i ) é a raiz quadrada com sinal de yi − µ̂i do i-ésimo compo-
nente do quase-desvio D(y; µ̂), enquanto hii é o i-ésimo elemento da diagonal
principal da matriz
380
5.2.6 Influência
Uma versão da distância de Cook para os modelos de quase-verossimilhança
fica dada por
ĥii
LDi = r̂P2 i ,
(1 − ĥii )2
5.2.8 Aplicações
Mosca do chifre
No arquivo mosca.txt é apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuição do número de ácaros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas são depósitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuária brasileira. Os ácaros são inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.txt tem-se a distribuição do número de ácaros
de quatro espécies segundo algumas variáveis de interesse: (i) N, número de
381
partes da posição da placa onde foram coletados os ácaros, (ii) Posiç~
ao,
posição na placa onde foram coletados os ácaros (1: lateral, 0: central), (iii)
ao, região onde a placa foi coletada (1: São Roque, 2: Pindamonhan-
Regi~
gaba, 3: Nova Odessa e 4: Ribeirão Preto) e (iv) Temp, temperatura no local
da coleta (em o C).
Tabela 5.1
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (µ) = µ2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos Sem pontos aberrantes
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante -0,828 -0,74 -2,575 -2,13
Posição -0,288 -0,64 0.380 0,78
Pinda -0,424 -0,66 -0,910 -1,31
N. Odessa -1,224 -1,71 -1,836 -2,36
R. Preto -2,052 -2,98 -2,589 -3,46
Temp. 0,029 0,67 0,087 1,84
2
σ 5,129 5,913
em que
logλijk = α + βi + γj + δTempjk , (5.5)
382
logNijk desempenha papel de offset, βi denota o efeito da posição, γj o efeito
da região e Tempjk a temperatura na j-ésima região no momento da coleta
da k-ésima placa. Temos as restrições β1 = γ1 = 0. O desvio do modelo
ajustado para a espécie 6 foi de D(y; µ̂) = 318, 69 (96 graus de liberdade)
indicando fortes indı́cios de sobredispersão. Propomos então um modelo
de quase-verossimilhança com função dada por V (µijk ) = µijk . Esse modelo
parece também inadequado pelo gráfico de resı́duos de Pearson r̂Pijk = (yijk −
p
µ̂ijk )/σ̂ µ̂ijk contra logµ̂ijk (Figura 5.1).
5
4
Residuo de Pearson
3
2
1
0
-1
-2 -1 0 1
Figura 5.1: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ aos dados sobre a mosca do chifre.
383
e que logN denota o logaritmo do número de partes da placa. O número de
ácaros será denotado por acaros. A sequência de comandos é dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).
84
28 61
3
Residuo de Pearson
2
1
0
-2 -1 0 1
Figura 5.2: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ2 aos dados sobre a mosca do chifre.
384
com função quadrática V (µijk ) = µ2ijk e parte sistemática dada por (5.4)-
(5.5). O gráfico do resı́duo de Pearson contra o logaritmo das médias ajus-
tadas (Figura 5.2) parece bastante razoável, embora apareçam 9 placas com
valores para r̂Pijk acima de 2. Na Tabela 5.1 apresentamos as estimativas dos
parâmetros com todas as placas e também eliminando as placas com resı́duos
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos são dados abaixo
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2"), maxit=50)
fit2.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeirão Preto apresentam um número médio de ácaros bem menor do
que as outras duas regiões. Não há indı́cios de efeito de posição, porém a
eliminação das três placas com valores mais aberrantes faz com que o efeito de
temperatura fique mais acentuado, havendo indı́cios de que o número médio
de ácaros cresce com o aumento da temperatura.
As placas #28, #61 e #84 têm em comum o fato de apresentarem um
número médio de ácaros (por parte de placa) pelo menos duas vezes acima da
média em temperaturas relativamente baixas. Essas placas foram coletadas
nas regiões de Pindamonhangaba, Nova Odessa e Ribeirão Preto, respectiva-
mente. Assim, é esperado que a eliminação dessas placas reduza o valor das
estimativas dos efeitos dessas regiões como também aumente a estimativa
do coeficiente da temperatura. A fim de que as 9 placas com resı́duos mais
aberrantes possam ser melhor ajustadas pode-se tentar outras formas para
a função V (µ), como por exemplo V (µ) = µ2 (1 + µ)2 (vide Paula e Tavares,
385
1992).
Demanda de TV a cabo
Vamos reanalisar nesta seção o exemplo sobre demanda de TV a cabo discu-
tido no Capı́tulo 4 sob um enfoque de modelo log-linear com resposta bino-
mial negativa. Proporemos aqui um modelo um pouco diferente. Ao invés de
ser ajustado o número médio esperado de assinantes de TV a cabo será ajus-
tada a proporção esperada de assinantes de TV a cabo em cada área. A pro-
porção observada é dada por Razao = Nass/Domic. Como 0 ≤ Razao ≤ 1,
propomos o seguinte modelo de quase-verossimilhança:
E(Razaoi ) = πi e
Var(Razaoi ) = σ 2 πi (1 − πi ),
386
14
3
0.5
2
0.4
1
Resíduo de Pearson
Distância de Cook
0.3
0
0.2
−1
0.1
−2
0.0
−3
Tabela 5.2
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (π) = π(1 − π) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos Sem áreas 5 e 14
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Intercepto -2,407 -1,72 -2,440 -1,60
−4 −4
Percap 4 × 10 2,50 4 × 10 2,80
Taxa 0,023 0,93 0,016 0,64
Custo -0,203 -1,79 -0,252 -2,27
Ncabo 0,073 1,94 0,079 2,22
Ntv -0,216 -2,61 -0,201 -2,61
σ2 0,114 0,098
387
0.5
14
3
5
0.4
2
1
Resíduo de Pearson
0.3
Distância de Cook
0
0.2
−1
0.1
−2
0.0
−3
388
Nota-se, que sob esse ajuste, mais variáveis permanecem no modelo do que
sob o ajuste do número esperado de domicı́lios com TV a cabo com resposta
binomial negativa, como foi visto no Capı́tulo 4.
Para o ajuste do modelo de quase-verossimilhança com V (π) = π 2 (1−π)2
é preciso requerer a library gnm e usar a famı́lia wedderburn conforme os
comandos dados abaixo
require(gnm)
ajuste.tvcabo = glm(razao ∼ percap + taxa + custo + ncabo + ntv,
family=wedderburn).
Todavia, os resultados com a famı́lia wedderburn ficaram muito parecidos
com aqueles resultados apresentados com a função V (π) = π(1 − π).
0.8
Area Afetada
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10
Variedade
389
0.8
Area Afetada
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9
Local
390
supor o seguinte modelo de quase-verossimilhança:
E(Yij ) = πij e
Var(Yij ) = σ 2 V (πij ),
391
funções V (µ) para um mesmo modelo como também possibilitar a obtenção
de uma estimativa para o erro padrão assintótico de σ̂ 2 , Nelder e Pregibon
(1987) propuseram uma (log) quase-verossimilhança estendida, definida por
1 1
Q+ (µ; y) = − 2
D(y; µ) − log{2πσ 2 V (y)},
2σ 2
Ry 1
em que D(y; µ) = 2 µ
{(y −t)/V (t)}dt é o quase-desvio e φ = σ2
o parâmetro
de dispersão.
65
3
1.5
38
1
Resíduo de Pearson
1.0
Distância de Cook
0
−1
0.5
−2
0.0
−3
0 20 40 60 80 −8 −6 −4 −2 0 2
392
24
3
1.0
2
0.8
65
1
Resíduo de Pearson
Distância de Cook
0.6
76
52
0
0.4
−1
0.2
−2
0.0
−3
0 20 40 60 80 −8 −6 −4 −2 0 2
393
distribuições de Poisson, binomial e binomial negativa, Q+ é obtida do lo-
garitmo da função de verossimilhança correspondente substituindo qualquer
fatorial k! pela aproximação de Stirling k! ∼
= (2πk)1/2 k k e−k . Discussões mais
interessantes e aplicações da classe estendida são dadas em Nelder e Pregibon
(1987).
em que E(Yit ) = µit = b0 (θit ), Var(Yit ) = φ−1 Vit , Vit = dµit /dθit é a função
de variância e φ−1 > 0 é o parâmetro de dispersão, em geral desconhecido.
Podemos definir um modelo linear generalizado para cada instante t acres-
centando a (5.6) a parte sistemática
394
e n
X
Kββ = φ DTi Vi Di , (5.9)
i=1
1/2 1/2
em que Di = Wi Vi Xi , Xi é uma matriz ri × p de linhas xTit , Wi =
diag{ωi1 , . . . , ωiri } é a matriz de pesos com ωit = (dµit /dηit )2 /Vit , Vi =
diag{Vi1 , . . . , Viri }, yi = (yi1 , . . . , yiri )T e µi = (µi1 , . . . , µiri )T . Quando há
ligação canônica a função escore e a matriz de informação de Fisher ficam
dadas por Uβ = φ ni=1 XTi (yi − µi ) e Kββ = φ ni=1 XTi Vi Xi , respectiva-
P P
395
variância-covariância para Yi , por definição, é dada por
1/2 1/2
Var(Yi ) = φ−1 Vi Ri Vi , (5.10)
que no caso de dados não correlacionados fica simplesmente dada por φ−1 Vi .
A ideia é introduzirmos em (5.10) uma matriz de correlação não diagonal,
por exemplo dada por Ri (β), com reflexos na função escore que passaria a
depender também de Ri (β). O incoveniente dessa proposta é o fato da cor-
relação, que é restrita ao intervalo [−1, 1], depender de β, o que aumentaria
a complexidade do processo de estimação. A solução encontrada para con-
tornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlação dada por Ri (ρ), em que ρ = (ρ1 , . . . , ρq )T é um vetor de
parâmetros de perturbação que não dependem de β. Ou seja, os parâmetros
da matriz de correlação não dependem dos parâmetros de posição.
Para entender melhor essa proposta definimos
1/2 1/2
Ωi = φ−1 Vi Ri (ρ)Vi ,
Sβ (β̂ G ) = 0, (5.11)
Note que (5.11) reduz-se a Uβ = 0 quando Ri (ρ) = Iri , isto é, quando é igno-
rada a estrutura de correlação intraunidade experimental. Na verdade Sβ (β)
396
depende também de φ e ρ = (ρ1 , . . . , ρq )T que são estimados separadamente
de β.
5.4.1 Estimação
O processo iterativo para a estimação de β, que é uma modificação do método
escore de Fisher, é dado por
n
−(m)
(m+1) (m)
X (m)T (m)
βG = βG +{ Di Ωi Di }−1 ×
i=1
n
−(m)
X (m)T (m)
[ Di Ωi {yi − µi }], (5.12)
i=1
em que
n
X n
X n
X
Σ = lim [n( DTi Ω−1 −1
i Di ) { DTi Ω−1 −1
i Var(Yi )Ωi Di }( DTi Ω−1 −1
i Di ) ].
n→∞
i=1 i=1 i=1
n
X −1
H1 (β̂ G ) = (D̂Ti Ω̂i D̂i ),
i=1
tente. Um estimador robusto para Var(β̂ G ), sugerido por Liang and Zeger
397
(1986), é dado por
V̂G = H−1 −1
1 (β̂ G )H2 (β̂ G )H1 (β̂ G ),
−1 −1
em que H2 (β̂ G ) = ni=1 {D̂Ti Ω̂i (yi − µ̂i )(yi − µ̂i )T Ω̂i D̂i }. O estimador
P
Simétrica ou permutável
Neste caso assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de Ri
fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ, para j 6= j 0 . Um estimador
consistente para ρ fica dado por
n ri ri
φX 1 X X (yij − µ̂ij ) (yij 0 − µ̂ij 0 )
ρ̂ = q q .
n i=1 ri (ri − 1) j=1 j 0 =1,j 0 6=j
V̂ij V̂ij 0
Autoregressiva AR(1)
Aqui também assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de
0
Ri fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ|j−j | , para j 6= j 0 . Um
estimador consistente para ρ fica dado por
n i r −1
φX 1 X (yij − µ̂ij ) (yi(j+1) − µ̂i(j+1) )
ρ̂ = q q .
n i=1 (ri − 1) j=1
V̂ij V̂i(j+1)
398
Parâmetro de dispersão
O parâmetro de dispersão φ−1 pode ser estimado consistentemente por
in r
−1 1 XX (yij − µ̂ij )2
φ̂ = ,
(N − p) i=1 j=1 V̂ij
Pn
em que N = i=1 ri . Assim, o processo iterativo (5.12) deve alternar com
as estimativas para ρ e φ até a convergência.
Testes de hipóteses para β ou para subconjuntos de β podem ser desenvol-
vidos através de estatı́sticas tipo Wald com a matriz de variância-covariância
estimada V̂G .
Resı́duos
Aplicando para as EEGs um procedimento similar àquele apresentado na
Seção 1.10.2 chega-se ao seguinte resı́duo de Pearson:
1/2
eTij Âi (V̂i Ŵi )−1 (yi − µ̂i )
r̂Pij = q ,
1 − ĥijj
1/2 1/2 1/2
para i = 1, . . . , n e j = 1, . . . , ri , em que Ai = φWi R−1
i Wi é uma
matriz de dimensão ri × ri , eTij é um vetor de dimensão 1 × ri de zeros com
1 na j-ésima posição e hijj é o j-ésimo elemento da diagonal principal da
matriz
1/2 1/2
Hi = Ai Xi (XT AX)−1 XTi Ai ,
399
em que X = (XT1 , . . . , XTn )T tem dimensão N × p e A = diag{A1 , . . . , An }
tem dimensão N × N com N = ni=1 ri .
P
Alavanca
Duas medidas de alavanca são usualmente aplicadas em EEGs. Medida de
alavanca referente ao j-ésimo indivı́duo do i-ésimo grupo, dada por ĥijj e
medida de alavanca referente ao i-ésimo grupo, definida por
ri
1X
ĥi = hijj .
ri j=1
Gráficos de ı́ndices para ĥijj e ĥi ou contra os valores ajustados são recomen-
dados.
Influência
Uma versão aproximada da distância de Cook para avaliar o impacto da
eliminar individual das observações na estimativa β̂ G é dada por
ĥijj
LDij = r̂P2 ij .
(1 − ĥijj )
400
de independência. Esse critério pode ser aplicado para selecionar submode-
los encaixados ou para selecionar a matriz de correlação para um modelo
especı́fico.
5.5 Exemplos
5.5.1 Ataques epilépticos
100
placebo
progabide
80
60
Ataques
40
20
0
8 10 12 14 16
Tempo
401
antiepiléptica denominada progabide ou placebo. Os dados de cada indivı́duo
consistiram de um número inicial de ataques epilépticos num perı́odo de
oito semanas antes do tratamento, seguido do número de ataques em cada
perı́odo de duas semanas, num total de quatro perı́odos, após o tratamento.
O interesse da pesquisa é saber se a droga reduz a taxa de ataques epilépticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada através do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais através de outras subrotinas que facilitam, por exemplo,
a elaboração de gráficos de perfis. Nesses casos, será necessário informarmos
nos comandos de ajuste como as unidades experimentais estão dispostas e o
tipo de correlação intraunidade experimental a ser assumida.
No caso dos ataques epilépticos uma possı́vel distribuição marginal para
os dados é a distribuição de Poisson, uma vez que tem-se dados de contagem.
Contudo, observando-se a tabela abaixo, onde estão descritos os valores amos-
trais para a razão variância/média para os 10 grupos experimentais, nota-se
um forte indı́cio de sobredispersão sugerindo que o parâmetro de dispersão
φ não deve ser fixado como sendo igual a um.
402
será possı́vel uma comparação com os demais perı́odos de 2 semanas. Na Fi-
gura 5.9 temos o gráfico de perfis com os dois tratamentos. Nota-se que pelo
menos um paciente (#49), que foi tratado com a droga progabide, apresenta
um número alto de ataques antes e depois do tratamento.
20
(49,1)
(18,1)
(15,1)
15
Resíduo de Pearson Padronizado
(29,1)
(38,1)
(5,1) (25,4)
10
5
0
0 10 20 30 40 50 60
Unidade Experimental
403
mos também uma estrutura de correlação permutável para cada indivı́duo,
isto é, Corr(Yijk , Yijk0 ) = ρ, para k 6= k 0 e (i, j) fixos. A parte sistemática do
modelo será dada por
logλ10 = α,
logλ1j = α + β,
logλ20 = α + γ e
logλ2j = α + γ + β + δ,
20
15
Resíduo de Pearson Padronizado
10
5
0
−5
−3 −2 −1 0 1 2 3
Percentil da N(0,1)
404
o efeito de grupo e δ a interação entre tratamento e grupo. Note que, antes
do tratamento, o logaritmo da razão entre as taxas dos dois grupos é dado
por
log{λ20 /λ10 } = α + γ − α = γ. (5.13)
Tabela 5.3
Estimativas dos parâmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilépticos.
Com todos os pacientes Sem o paciente #49
Parâmetro Estimativa z-robusto Estimativa z-robusto
α 1,347 8,564 1,347 8,564
β 0,112 0,965 0,112 0,965
γ 0,027 0,124 -0,107 -0,551
δ -0,105 -0,491 -0,302 -1,768
ρ 0,771 0,593
−1
φ 19,68 10,53
Se denotarmos por µij = E(Yijk ), a parte sistemática do modelo em função
das médias fica dada por
405
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo re-
presenta o perı́odo (=0 antes, =1 depois), semanas o número de semanas,
paciente o número do paciente (são 59 pacientes) e corstr o tipo de cor-
relação a ser assumida.
8
(18,1)
(49,1)
6
(15,1)
Distância de Cook
4
2
0
0 10 20 30 40 50 60
Unidade Experimental
406
indivı́duo. No entanto, mesmo quando essa distribuição não é totalmente
desconhecida é possı́vel, em alguns casos, gerar a distribuição empı́rica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parâmetro de dispersão φ−1
é muito diferente da suposição de φ = 1 para modelos com resposta de Pois-
son, sugerindo indı́cios fortes de sobredispersão. Assim, para uma análise
de resı́duos mais qapropriada deve-se considerar o resı́duo de Pearson pa-
dronizado r̂P∗ ij = φ̂r̂Pij cujo gráfico é descrito na Figura 5.10. Nota-se 7
resı́duos com valores superiores a 10,0, todos referentes a medidas de diferen-
tes pacientes. O gráfico normal de probabilidades para o resı́duo de Pearson
padronizado r̂P∗ ij (Figura 5.11) mostra alguns afastamentos da suposição de
modelo marginal de Poisson, provavelmente devido à sobredispersão que não
foi totalmente controlada.
Finalmente, na Figura 5.12, temos a distância de Cook aproximada em
que três medidas se destacam. Nota-se novamente uma medida referente ao
paciente (#49) cujo perfil destoa na Figura 5.9. Vamos fazer um estudo das
estimativas não considerando esse paciente no ajuste. Os comandos em R são
dados abaixo:
407
5.5.2 Condição Respiratória
Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seção 6.5) que envolve a comparação de dois tratamentos apli-
cados em pacientes com problemas respiratórios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
paciente foi observado em quatro ocasiões em que mediu-se a condição res-
piratória (boa ou ruim). Foram também observados o sexo e a idade (em
anos) de cada paciente além da pré-existência de um nı́vel base (sim ou não).
Apenas como ilustração descrevemos abaixo a incidência do problema respi-
ratório em cada ocasião segundo os dois tratamentos.
Nota-se pela tabela acima que na primeira visita há uma incidência alta para
ambos os tratamentos de pacientes em condição respiratória ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variação para os pacientes tratados com
placebo. Portanto, há fortes indı́cios de que a droga reduz a chance de
condição respiratória ruim. Os dados completos desse experimento estão
descritos no arquivo respiratorio.txt.
Vamos denotar por Yij a condição (=1 ruim, =0 boa) do i-ésimo paci-
ente na j-ésima ocasião, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binária será assumido marginalmente que Yij ∼ Be(πij ) com parte
sistemática dada por
πij
log α + β1 Idadei + β2 Trati + β3 Sexoi + β4 Basei ,
1 − πij
408
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 pla-
cebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausência do nı́vel
base, =1 presença do nı́vel base) do i-ésimo paciente. Seguindo a sugestão
de Myers, Montgomery e Vining (2002, Seção 6.5) será assumida uma estru-
tura de correlação AR(1) para as respostas de cada paciente, ou seja, que
0
Corr(Yij , Yij 0 ) = 1 para j = j 0 e Corr(Yij , Yij 0 ) = ρ|j−j | para j 6= j 0 . Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao ∼ idade + trat + sexo + base,
id=paciente, family=binomial, corstr="AR-M", M=1).
Tabela 5.4
Estimativas dos parâmetros do modelo logı́stico aplicado
aos dados sobre condição respiratória.
Correlação AR(1) Independência
Parâmetro Estimativa z-robusto Estimativa z-robusto
α -0,377 -0,529 -0,404 -0,563
β1 0,043 3,380 0,048 3,683
β2 1,001 3,066 1,070 3,254
β3 -2,003 -2,988 -2,178 -3,207
β4 0,492 0,586 0,498 0,585
ρ 0,275 0,00
409
ou seja, as mulheres têm aproximadamente 7,41 vezes a chance dos ho-
mens terem o problema. Pacientes que foram tratados com placebo têm
ψ̂ = e1,001 = 2, 72 vezes a chance dos pacientes que foram tratados com
a droga de terem condição respiratória ruim. Em todos os cálculos acima
supõe-se que as demais variáveis estão fixadas.
2
1
0
Resíduo de Pearson
−1
−2
−3
(18,4) (28,4)
0 10 20 30 40 50
Unidade Experimental
410
(Figura 5.14) não indica afastamentos da suposição de distribuição marginal
Bernoulli com estrutura de correlação AR(1).
2
0
Resíduo de Pearson
−2
−4
−6
−3 −2 −1 0 1 2 3
Percentil da N(0,1)
Já o gráfico da distância de Cook descrito na Figura 5.15 destaca três me-
didas de pacientes diferentes sendo duas dessas medidas destacadas também
no gráfico com o resı́duo de Pearson. Contudo, o ajuste sem considerarmos
esses três pacientes não causa mudanças inferenciais.
411
5.5.3 Placas dentárias
Hadgu e Koch(1999) discutem os resultados de um ensaio clı́nico com 109
adultos voluntários com pré-existência de placa dentária. Nesse estudo os
indivı́duos foram distribuı́dos de forma aleatória para receberem um lı́quido
tipo A (34 indivı́duos), um lı́quido tipo B (36 indivı́duos) e um lı́quido con-
trole (39 indivı́duos). As placas dentárias de cada indivı́duo foram avaliadas
e classificadas segundo um escore no inı́cio do tratamento, após 3 meses e
após 6 meses. Os dados encontram-se no arquivo rinse.txt.
0.5
(18,4)
(28,4)
0.4
(53,4)
Distância de Cook
0.3
0.2
0.1
0.0
0 10 20 30 40 50
Unidade Experimental
412
Tabela 5.5
Medidas resumo para os escores das placas
dentárias segundo os tratamentos e
perı́odos de escovação.
Inı́cio 3 Meses 6 Meses
2,562 1,786 1,738
Controle (0,343) (0,700) (0,595)
n=39 n=39 n=36
2,568 1,315 1,259
Lı́quido A (0,354) (0,715) (0,744)
n=34 n=34 n=34
2,479 1,255 1,032
Lı́quido B (0,296) (0,550) (0,451)
n=36 n=36 n=36
413
Placebo
3.5
3.0
2.5
2.0
1.5
1.0
0.5
A
3.5
3.0
2.5
Escore
2.0
1.5
1.0
0.5
B
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Figura 5.16: Gráfico de perfis para o escore dos voluntários que receberam
placebo, lı́quido tipo A e lı́quido tipo B referente aos dados sobre placas
dentárias.
Tabela 5.6
Estimativas dos parâmetros do modelo log-linear gama aplicado aos
dados sobre placas dentárias.
Parâmetro Estimativa z-robusto Parâmetro Estimativa z-robusto
α 0,941 44,407 (βγ)22 -0,308 -3,124
β2 0,002 0,080 (βγ)32 -0,319 -3,835
β3 -0,033 -1,138 (βγ)23 -0,333 -3,266
γ2 -0,278 -7,335 (βγ)33 -0,492 -5,792
γ3 -0,004 -8,321
ρ 0,38
φ−1 5,68
414
3
2
1
Resíduo de Pearson
0
−1
−2
0 20 40 60 80 100
Unidade Experimental
logµij = α + βi + γj + (βγ)ij ,
415
Claramente confirma-se a existência de interação entre perı́odo e tratamento.
Os lı́quidos A e B reduzem em média a quantidade de placas dentárias,
havendo indı́cios de uma redução mais acentuada com o lı́quido B de 3 meses
para 6 meses de escovação.
Para ajustar esse modelo no R deve-se usar os comandos
tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score ∼ + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
6
4
Residuo de Pearson
2
0
−2
−3 −2 −1 0 1 2 3
Percentil da N(0,1)
416
(22,3)
(70,3)
0.025
0.020
Distância de Cook
0.015
0.010
0.005
0.000
0 20 40 60 80 100
Unidade Experimental
417
após a 2a medida. Essas tendências que destoam do esperado para o lı́quido
tipo B podem ter elevado o valor da distância de Cook para a 3a medida des-
ses voluntários. A retirada desses dois vonluntários, contudo, altera muito
pouco as estimativas e não altera os resultados inferenciais. Cardoso-Neto
e Paula (2001) analisaram este exemplo supondo restrições em alguns dos
parâmetros e encontraram evidências mais fortes com relação aos resultados
obtidos por Hadgu e Koch(1999).
5.6 Exercı́cios
1. Supor as funções de variância V (t) = t3 e V (t) = t + t2 /k para t >
0, k > 0. Encontre para cada caso a função Q(µ; y) e verifique sob
quais restrições as funções encontradas são proporcionais a funções de
verossimilhança da famı́lia exponencial.
418
no intervalo (0,1), será considerada agora como variável resposta. Ini-
cialmente, faça uma análise descritiva dos dados e procure agrupar
as variáveis categóricas em um número menor de categorias. Apli-
que modelos de quase-verossimilhança com funções V (µ) = µ(1 − µ)
e V (µ) = µ2 (1 − µ)2 , em que µ denota o valor esperado para a ex-
posição do veı́culo, para explicar a variável resposta dadas as demais
variáveis explicativas. Para o modelo selecionado faça uma análise de
diagnóstico e procure interpretar os coeficientes estimados através de
razões de chances.
419
Para µ1 − µ2 e φ fixos e ρ ≥ 0 discutir o comportamento do poder de
ξW conforme ρ cresce para as situações (a) e (b). São esperados esses
comportamentos? Comente.
d √ 1 du
e dx
arcsen{u(x)} = 1−u2 dx
.
420
9. Como fica a diferença entre desvios para testar H0 : β1 = 0 contra H1 :
β1 6= 0 num modelo de quase-verossimilhança com V (µi ) = µ2i (1 − µi )2 ,
g(µi ) = ηi = xTi β e β = (β T1 , β T2 )T ?
10. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-ésimo elemento do i-ésimo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = µi , Var(Yijt ) = Vi φ−1 e que
Yijt pertence à famı́lia exponencial. Mostre que dado ρ̂ a equação de
estimação generalizada para µi pode ser expressa na forma S(µ̂i ) = 0,
em que
ri
X
S(µi ) = 1TT Rij (ρ)(yij − µi 1T ),
j=1
R−1 −1 −1
i (ρ) = (1 − ρ) [Iri − ρ{1 + (ri − 1)ρ} J],
421
12. Supor que Yij ∼ Be(µ) para i = 1, . . . , n e j = 1, . . . , ri , em que
Corr(Yij , Yij 0 ) = ρ (fixado) para j 6= j 0 com parte sistemática dada
n o
µ
por log 1−µ = β. Responda às seguintes questões: (i) como fica a
equação de estimação generalizada para estimar β? (ii) expresse em
forma fechada a estimativa β̂G (obtenha inicialmente µ̂G ) e (iii) como
fica a variância assintótica (não robusta) de β̂G ?
422
(iv) discuta o comportamento de n em função de ρ mantendo-se as
demais quantidades fixas.
Mistura
Dia Método 1 2 3 4
1 64,5 66,3 74,1 66,5
1 2 68,3 69,5 73,8 70,0
3 70,3 73,1 78,0 72,3
423
condição de leucemia induzida. Três drogas quimio-terápicas foram uti-
lizadas no tratamento dos animais. Foram coletadas de cada animal a
quantidade de células brancas (WBC), a quantidade de células verme-
lhas (RBV) e o número de colônias de células cancerosas (RESP) em
quatro perı́odos diferentes. Assuma distribuição de Poisson para RESP
em cada perı́odo e verifique através de um modelo log-linear se existe
diferenças significativas entre os três tratamentos considerando WBC
e RBC como variáveis explicativas. Compare os resultados supondo
estruturas de correlação independente e AR(1). Faça uma análise de
diagnóstico.
iid iid
17. Sejam Yi1 ∼ FE(µ1 , φ) e Yi2 ∼ FE(µ2 , φ), em que Corr(Yi1 , Yi2 ) = ρ,
para i = 1, . . . , n. Para testar H0 : µ1 − µ2 = 0 contra H1 : µ1 − µ2 6= 0
considere a estatı́stica
(Ȳ1 − Ȳ2 )2
ξW = ,
Var(Ȳ1 − Ȳ2 )
que sob H0 segue assintoticamente distribuição χ21 central. Sob a hipótese
alternativa ξW segue assintoticamente distribuição χ21 (λ), em que λ =
(µ1 − µ2 )2 /2Var(Ȳ1 − Ȳ2 ) é o parâmetro de não centralidade. Seja
Pn (λ, ρ) = P (ξW > c|H1 ) o poder do teste (probabilidade de rejeitar
H0 quando há diferença entre as médias populacionais). Calcule inicial-
mente Var(Ȳ1 − Ȳ2 ) e discuta o comportamento do poder do teste à me-
dida que varia o coeficiente de correlação linear de Pearson −1 ≤ ρ ≤ 1,
supondo fixados µ1 , µ2 , φ e n. Procure responder para quais situações
será necessário um tamanho amostral maior para detectar a mesma
diferença (entre as médias populacionais) com a mesma probabilidade.
424
trite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variáveis explicativas g^
enero (1: masculino, 0: feminino) e a idade
do paciente em anos além do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasiões (1: inı́cio, 2: 1 mês, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo próprio
paciente (1: ruim, 2: regular, 3: bom). Faça inicialmente uma análise
descritiva com os dados.
425
é categórica através do comando
Diet=factor(Diet).
Fazer inicialmente uma análise descritva dos dados, por exemplo, apre-
sentando os perfis dos animais segundo a quantidade de proteı́na ob-
servada ao longo das semanas e para cada dieta gráficos de densidade e
boxplots. Ajustar inicialmente uma equação de estimação generalizada
gama com estrutura de correlação do tipo AR(1) e considere o tempo
como variável explicativa contı́nua. Verifique se é possı́vel incluir in-
teração entre Diet e Time. Faça uma análise de diagnóstico e interprete
os resultados do modelo selecionado.
426
em que σ 2 > 0, Yij = (Yij1 , . . . , Yij17 )> . Compare o modelo acima su-
pondo as estruturas de correlação simétrica e AR(1). Para a estrutura
selecionada tente melhorar o modelo, por exemplo, incluindo interação.
Faça uma análise de diagnóstico do modelo final e interpetre os resul-
tados.
427
Apêndice A
Neste apêndice são descritos os conjuntos de dados usados nos exemplos e nos
exercı́cios propostos. As variáveis são descritas na ordem em que aparecem
em cada arquivo.
Capı́tulo 1
canc3.txt: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo
(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).
imoveis.txt: imposto do domicı́lio (em 100 USD), área do terreno (em 1000
pés quadrados), área construı́da (em 1000 pés quadrados), idade da
residência (em anos) e preço de venda do imóvel (em 1000 USD).
reg1.txt: área (em mil pés quadrados) e preço (em mil USD).
428
reg2.txt: sigla do estado, taxa do combustı́vel (em USD), porcentagem de
motoristas licenciados, renda per capita (em USD), ajuda federal às
estradas do estado (em mil USD) e consumo per capita de combustı́vel
(em galões por ano).
salarios.txt: salário anual (em mil USD), sexo, posição na empresa (escore
de 1 a 9) e experiência (em anos).
trees.txt: diâmetro (em polegadas), altura (em pés) e volume da árvore (em
pés cúbicos).
429
Capı́tulo 2
claims.txt: valor do veı́culo (em 10000 dolares australianos), exposição do
veı́culo, número de sinistros no perı́odo, custo total dos sinistros (em do-
lares australianos), tipo do veı́culo (em 11 categorias), idade do veı́culo
(em 4 categorias), sexo do condutor principal, área de residência do
condutor principal (em 6 categorias) e idade do condutor principal (em
6 categorias).
fluxo.txt : idade (em anos), gênero, interj (interjeiçôes por minuto), fpm
(frequência de sı́labas por minuto) e fsm (frequência de sı́labas por
minuto).
pesca.txt: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), lati-
tude (de 23,25o a 28,25o ), longitude (de 41,25o a 50,75o ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforço).
430
raia.txt : perı́odo (seco e chuvoso), local (local da pesca), mare (maré,
quadratura e sizı́gia), vvento (velocidade do vento m/s), tmax (tempe-
ratura máxima em graus Celsus), tmin (temperatura mı́nima em graus
Celsus), ins (insolação em horas) e cpue (captura por unidade de es-
forço).
Capı́tulo 3
besouros.txt: besouros mortos, besouros expostos e dose.
431
dengue.txt: idade (em anos) do entrevistado, nı́vel sócio-econômico (1:alto,
2:médio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnóstico da doença (1:sim, 0:não).
432
leuce.txt: idade do paciente (em anos), mancha diferencial da doença, infil-
tração na medula, células com leucemia, malignidade da doença, tempe-
ratura máxima antes do tratamento, tratamento (1:satisfatório, 0:não),
tempo de sobrevivência (em meses) e situação (1:sobrevivente, 0:não
sobrevivente).
olhos.txt: cor dos olhos dos pais, cor dos olhos dos avós, número total de
filhos e número de filhos com olhos claros.
433
rotifers.txt: densidade, rotifers suspensos, rotifers expostos e espécie (1:
Polyarthra, 0:Keratella).
Capı́tulo 4
breslow.txt: número de casos de câncer, total de pessoas-anos, número de
cigarros por dia (1:não fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etária (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).
434
heart.txt: doença das coronárias (1:sim, 2:não), nı́vel de colesterol (1:me-
nor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),pressão
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e número de indivı́duos.
navios.txt: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricação (1:60-
64, 2:65-69, 3:70-74, 4:75-79), perı́odo de operação (1:60-74, 2:75-79),
tempo de operação (em meses) e número de avarias.
435
canais a cabo disponı́veis na área e número de canais não pagos com
sinal de boa qualidade disponı́veis na área.
Capı́tulo 5
artrite.txt: paciente, ocasião (1:inı́cio, 2:1 mês, 3:2 meses, 4:3 meses), gênero
(1:masculino, 0:feminino), idade (em anos), tratamento (0:placebo, 1:au-
ronofin), resultado (1:ruim, 2:regular, 3:bom).
436
rinse.txt: voluntário, perı́odo (1:inı́cio, 2:após 3 meses, 3:após 6 meses),
tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.
437
Apêndice B
438
epsilon[,i] = rnorm(n,0,1)
e[,i] = (ident - H)%*%epsilon[,i]
u = diag(ident - H)
e[,i] = e[,i]/sqrt(u)
e[,i] = sort(e[,i]) }
#
for ( i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(tsi,e1,e2)
par(pty="s")
qqnorm(tsi, xlab="Quantil da N(0,1)", ylab = "Resı́duo Studentizado",
ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab= , type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)
439
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit.model,type="response")
fi = (n-p)/sum((ro/(fitted(fit.model)))^ 2)
td = resid(fit.model,type="deviance")*sqrt(fi/(1-h))
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rgamma(n,fi)
resp = (fitted(fit.model)/fi)*resp
fit = glm(resp ∼ X, family=Gamma)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit, type="response")
phi = (n-p)/sum((ro/(fitted(fit)))^ 2)
e[,i] = sort(resid(fit, type="deviance")*sqrt(phi/(1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
440
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)
441
#
e = matrix(0,n,100)
for(i in 1:100){
dif = runif(n) - fitted(fit.model)
dif[ dif >=0 ] = 0
dif[dif < 0] = 1
nresp = dif
fit = glm(nresp ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")
442
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)
443
xmat = cbind(tot,n-tot)
fit = glm(xmat ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(k)
e2 = numeric(k)
#
for(i in 1:k){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]}
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td,xlab="Quantil da N(0,1)", ylab="Componente do Desvio",
ylim=faixa)
#
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=,ylab=,type="l",ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=,ylab=, type="l",ylim=faixa,lty=1)
444
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)
445
#
for(i in 1:n){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)
446
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rnegbin(n,fitted(fit.model),fi)
fit = glm.nb( resp ∼ X)
fi = fit$theta
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt((1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty= "s")
447
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)
448
Bibliografia
Atkinson AC (1981) Two graphical display for outlying and influential ob-
servations in regression. Biometrika 68:13-20.
449
Atkinson AC (1985) Plots, Transformations and Regressions. Oxford Sta-
tistical Science Series, Oxford.
Boice JD, Monson RR (1977) Breast cancer in women after repeated flu-
oroscopic examinations of the chest. Journal of the National Cancer
Institute 59:823-832.
450
Breslow NE, Day NE (1987) Statistical Methods in Cancer Research, Vol.
II, The Design and Analysis of Cohort Studies. IARC Scientific Publi-
cations, International Agency for Research on Cancer, Lyon.
Buse A (1982) The likelihood ratio, Wald and Lagrange multiplier tests: an
expository note. The American Statistician 36:153-157.
451
Cordeiro GM, McCullagh P (1991) Bias correction in generalized linear
models. Journal of the Royal Statistical Society B 53:629-643.
Cordeiro GM, Ferrari SLP, Paula GA (1993) Improved score tests for gene-
ralized linear models. Journal of the Royal Statistical Society B 55:661-
674.
Cordeiro GM, Paula GA, Botter DA (1994) Improved likelihood ratio tests
for dispersion models. International Statistical Review 62:257-274.
Cordeiro GM, Paula GA (1989) Improved likelihood ratio statistics for ex-
ponential family nonlinear models. Biometrika 76:93-100.
Cox DR (1972) Regression models and life tables (with discussion). Journal
of the Royal Statistical Society B 74:187-220.
Cox DR, Hinkley DV (1974) Theorical Statistics. Chapman and Hall, Lon-
don.
Cox DR, Oakes D (1984) Analysis of Survival Data. Chapman and Hall,
London.
452
Cox DR, Snell EJ (1968) A general definition of residuals (with discussion).
Journal of the Royal Statistical Society B 30:248-275.
Cox DR, Snell EJ (1989) The Analysis of Binary Data, 2nd Edition. Chap-
man and Hall, London.
Davison AC, Gigli A (1989) Deviance residuals and normal scores plots.
Biometrika 76:211-221.
Diggle PJ, Liang KY, Zeger SL (1994) Analysis of Longitudinal Data. Ox-
ford University Press.
453
Emerson JD, Hoaglin DC, Kempthorne PJ (1984) Leverage in least squa-
res additive-plus-multiplicative fits for two-way tables. Journal of the
American Statistical Association 79:329-335.
454
Fieller EC (1954) Some problems in interval estimation. Journal of the
Royal Statistical Society B 16:175-185.
Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Regres-
sion. New York: Springer.
Hand DJ, Daly F, Lunn AD, McConway KJ, Ostrowski E (1994) A Hand-
book of Small Data Sets. Chapman and Hall, London.
455
Hinde J (1982) Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.
Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.
Innes JRM, Ulland BM, Valerio MG, Petrucelli L, Fishbein L, Hart ER,
Pallota AJ, Bates RR, Falk HL, Gart JJ, Klein M, Mitchell I, Peters J
(1969) Biossay of pesticides and industrial chemicals for tumorigenicity
in mice: A preliminary note. Journal of the National Cancer Institute
42:1101-1114.
Kwan CW, Fung WK (1998) Assessing local influence for specific restricted
likelihood: Applications to factor analysis. Psychometrika 63:35-46.
Lawless JF (1982) Statistical Models and Methods for Lifetime Data. John
Wiley, New York.
456
Lawrence AJ (1988) Regression transformation diagnostics using local in-
fluence. Journal of the American Statistical Association 84:125-141.
Lee ET (1991) Statistical Methods for Survival Data Analysis, Second Edi-
tion. John Wiley, New York.
Lee Y, Nelder JA, Pawitan Y (2006) Generalized Linear Models with Ran-
dom Effects: Unified Analysis via h-likelihood. Boca Raton: Chapman
& Hall/CRC.
457
McCullagh P (1983) Quasi-likelihood functions. Annals of Statistics 11:
59-67.
McCulloch CE, Searle SR (2001) Linear and Generalized Linear Mixed Mo-
dels. Wiley, New York.
458
Nelder JA, Pregibon D (1987) An extended quasi-likelihood function. Bio-
metrika 74:221-232.
Palmgren J (1981) The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68:563-566.
Paula GA, Denaro-Machado L, Ogata TT, Machado JC, Matta MS, Petrella
SMCN (1992) Caquexia cancerosa em modelo experimento rato nude
atı́mico/tumor humano KB. Revista Laes Haes 76:28-30.
459
Paula GA, Oshiro CH (2001) Relatório de Análise Estatı́stica sobre o Pro-
jeto: Análise de Captura por Unidade de Esforço do Peixe-Batata na
Frota Paulista. RAE-CEA0102, IME-USP.
Pettitt AN, Bin Daud I (1989) Case-weight measures of influence for pro-
portional hazards regression. Applied Statistics 38:51-67.
460
Pregibon D (1984) Data analytic methods for matched case-control studies.
Biometrics 40:639-651.
Seber GAF, Wild CJ (1989) Nonlinear Regression. John Wiley, New York.
461
Smyth GK, Verbyla A (1999) Adjusted likelihood methods for modelling
dispersion in generalized linear models. Environmetrics 10:696-709.
462
Wei BC, Hu YQ, Fung WK (1998) Generalized leverage and its applications.
Scandinavian Journal of Statistics 25:25-37.
Wolf (1955) On estimating the relationship between blood group and dise-
ase. Annals of Human Genetic 19:251-253.
Wood FS (1973) The use of individual effects and residuals in fitting equa-
tions to data. Technometrics 15:677-687.
463