0% acharam este documento útil (0 voto)

5 visualizações475 páginas

Texto MLGs

O documento aborda a modelagem estatística de regressão, destacando a evolução dos modelos lineares generalizados desde a década de 1970 e sua aplicação em diversas áreas do conhecimento. Ele é estruturado em capítulos que discutem diferentes tipos de modelos, estimativas, diagnósticos e aplicações práticas, incluindo exemplos e exercícios. O texto é direcionado a alunos com conhecimentos prévios em inferência estatística e regressão linear, e inclui códigos em R para análise de dados.

Enviado por

matheuslb

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

5 visualizações475 páginas

Texto MLGs

Enviado por

matheuslb

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 475

MODELOS DE REGRESSÃO

com apoio computacional

Gilberto A. Paula
Instituto de Matemática e Estatı́stica
Universidade de São Paulo
e-mail:giapaula@ime.usp.br
Prefácio

A área de modelagem estatı́stica de regressão recebeu um grande impulso

desde a criação dos modelos lineares generalizados (MLGs) no inı́cio da
década de 1970. O crescente interesse pela área motivou a realização de
vários encontros informais no inı́cio dos anos 1980, a maioria deles na Ingla-
terra, até que em 1986 foi realizado na cidade de Innsbruck na Áustria o “1st
International Workshop on Statistical Modelling”(1st IWSM). Esse encontro
tem sido realizado anualmente sendo que o último (37th IWSM) aconteceu
em julho de 2023 em Dortmund, Alemanha. O 38th IWSM será realizado em
julho de 2024 em Durham, Inglaterra. No Brasil a área começou efetivamente
a se desenvolver a partir de meados da década de 1980 e em particular após
a 1a Escola de Modelos de Regressão (1EMR) realizada na Universidade de
São Paulo em 1989. As demais escolas ocorreram desde então a cada dois
anos sendo que a 17EMR foi realizada remotamente em novembro/dezembro
de 2021 na ENCE-IBGE, Rio de Janeiro e a 18EMR ocorreu em novembro
de 2023 em Belém do Pará.
Este texto começou a ser desenvolvido a partir de 1994 quando a disciplina
Modelos Lineares Generalizados passou a ser ministrada regularmente no
programa de pós-graduação em Estatı́stica do IME-USP. O texto é direcio-
nado para alunos que tenham cursado um semestre de inferência estatı́stica
e que tenham conhecimentos de regressão linear. Portanto, trata-se de um
segundo curso de modelagem estatı́stica de regressão com um enfoque infe-

i
rencial básico e várias aplicações. O texto tem sido também utilizado nas dis-
ciplinas Análise de Dados Categorizados e Modelos de Regress~
ao II
ministradas aos alunos do Bacharelado em Estatı́stica do IME-USP.
No Capı́tulo 1 a classe dos modelos lineares generalizados (MLGs) é des-
crita juntamente com alguns conceitos básicos. Em seguida são discutidos
a estimação dos parâmetros, propriedades assintóticas dos estimadores de
máxima verossimilhança e a aplicação de alguns testes estatı́sticos mais co-
nhecidos. Uma revisão de métodos de diagnóstico é apresentada na sequência,
inicialmente fazendo-se uma sı́ntese para o modelo normal linear com ex-
tensões para a classe dos MLGs. Discute-se também a seleção de modelos e
sempre que possı́vel as metodologias são apresentadas em separado para os
modelos normais lineares e posteriormente estendidas para toda a classe dos
MLGs. O capı́tulo é concluı́do com a análise de 6 conjuntos de dados através
de MLGs apropriados.
O Capı́tulo 2 é dedicado aos modelos com resposta gama e resposta nor-
mal inversa para a análise de dados assimétricos positivos. Inicialmente
aborda-se os modelos com resposta gama sendo apresentados alguns resul-
tados inferenciais e técnicas de diagnóstico. Três conjuntos de dados são
analisados. Em seguida, alguns modelos usualmente aplicados em Econome-
tria são discutidos e um exemplo é apresentado. Em seguida são discutidos
modelos com resposta normal inversa, alguns resultados teóricos são apre-
sentados e 2 conjuntos de dados são analisados. No final do capı́tulo são
apresentados os MLGs duplos, em que a média e a dispersão são ajusta-
dos conjuntamente. Apresenta-se o processo de estimação conjunto, alguns
procedimentos de diagnóstico e um exemplo ilustrativo.
No Capı́tulo 3 discute-se modelos para a análise de dados binários, com
ênfase para os modelos logı́sticos lineares. Inicialmente uma revisão de pro-
cedimentos tradicionais para a análise de tabelas de contigência 2 × 2 é apre-
sentada. Duas aplicações são descritas nesta primeira parte do capı́tulo. Em

ii
seguida o modelo logı́stico linear é apresentado. Alguns procedimentos são
revisados, tais como seleção de modelos, análise de dados retrospectivos, qua-
lidade do ajuste e técnicas de diagnóstico. Quatro conjuntos de dados são
analisados. Discute-se no final do capı́tulo modelos de dose-resposta, sobre-
dispersão e modelos logı́sticos aplicados na análise de dados emparelhados e
mais quatro aplicações são apresentadas.
No Capı́tulo 4 são discutidos alguns modelos para a análise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresenta-se uma revisão de
metodologias tradicionais para a análise da tabelas de contingência do tipo
2 × 2 com dados de contagem. Uma aplicação é apresentada. Em seguida
discute-se modelos de Poisson para a análise de dados de seguimento e mode-
los log-lineares de Poisson. Dois exemplos são apresentados. Na sequência são
derivados modelos com resposta binomial negativa para a análise de dados
de contagem com sobredispersão. Um processo iterativo para a estimação
dos parâmetros, resultados assintóticos e metodologias de diagnóstico são
apresentados, bem como 3 aplicações. Modelos log-lineares com resposta
de Poisson são comparados com modelos log-lineares com resposta multino-
mial, sendo 2 conjuntos de dados analisados. Finalmente, uma breve resenha
dos modelos com excesso de zeros é apresentada, em particular, os modelos
ajustados em zero (modelos de fronteira) e os modelos inflacionados de zeros.
O Capı́tulo 5 é dedicado aos modelos de quase-verossimilhança e às equações
de estimação generalizadas. Inicia-se o capı́tulo com a introdução do con-
ceito de quase-verossimilhança. Em seguida são apresentados os modelos de
quase-verossimilhança para respostas independentes juntamente com o pro-
cesso de estimação, alguns resultados assintóticos e técnicas de diagnóstico.
Três aplicações são apresentadas. Na sequência deriva-se as equações de
estimação generalizadas para a análise de dados correlacionados não gaussi-
anos. Apresenta-se o processo de estimação, alguns resultados assintóticos

iii
e metodologias de diagnóstico. Esse subtópico é ilustrado com 3 aplicações.
No Apêndice A são descritos os conjuntos de dados usados nas aplicações e
nos exercı́cios propostos e no Apêndice B são descritos alguns códigos em R.
No final de cada capı́tulo são propostos exercı́cios teóricos e aplicados e ao
longo do texto são apresentados códigos e subrotinas em R, particularmente
na análise dos exemplos. Procura-se diversificar as aplicações com conjun-
tos de dados das diversas áreas do conhecimento, tais como Agricultura,
Biologia, Ciências Atuariais, Ciências Sociais, Economia, Engenharia, Geo-
grafia, Medicina, Nutrição, Pesca e Odontologia. Alguns conjuntos de dados
são oriundos de trabalhos desenvolvidos no Centro de Estatı́stica Aplicada
(CEA) do IME-USP. Página na Web onde estão disponı́veis informações sobre
este texto: http://www.ime.usp.br/∼giapaula/textoregressao.htm.
Finalizando, fica um agradecimento aos alunos que cursaram as discipli-
nas Modelos Lineares Generalizados e Tópicos de Regress~
ao e contri-
buiram com suas sugestões para o aprimoramento dos primeiros manuscritos.

São Paulo, agosto de 2024

Gilberto A. Paula
e-mail:giapaula@ime.usp.br

iv
Sumário

Prefácio i

Sumário v

1 Modelos Lineares Generalizados 1

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . 5
1.3 Ligações canônicas . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Outras ligações . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Medida R2 . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.2 Resultados assintóticos . . . . . . . . . . . . . . . . . . 17
1.4.3 Análise do desvio . . . . . . . . . . . . . . . . . . . . . 18
1.5 Função escore e informação de Fisher . . . . . . . . . . . . . . 22
1.5.1 Escore e Fisher para β . . . . . . . . . . . . . . . . . . 22
1.5.2 Escore e Fisher para φ . . . . . . . . . . . . . . . . . . 24
1.5.3 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 24
1.5.4 Casos particulares . . . . . . . . . . . . . . . . . . . . . 24
1.6 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . 26
1.6.1 Estimação de β . . . . . . . . . . . . . . . . . . . . . 26
1.6.2 Estimação de φ . . . . . . . . . . . . . . . . . . . . . . 28

v
1.6.3 Distribuição assintótica . . . . . . . . . . . . . . . . . . 29
1.7 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.7.1 Hipóteses simples . . . . . . . . . . . . . . . . . . . . . 30
1.7.2 Modelos encaixados . . . . . . . . . . . . . . . . . . . . 33
1.7.3 Modelo de análise de variância . . . . . . . . . . . . . . 38
1.7.4 Regressão linear simples . . . . . . . . . . . . . . . . . 40
1.7.5 Hipóteses restritas . . . . . . . . . . . . . . . . . . . . 40
1.8 Bandas de confiança . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 42
1.8.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 42
1.9 Técnicas de diagnóstico modelo normal linear . . . . . . . . . 43
1.9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 44
1.9.3 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9.4 Outra interpretação para t∗i . . . . . . . . . . . . . . . 49
1.9.5 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.9.6 Ilustração . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.9.7 Influência local . . . . . . . . . . . . . . . . . . . . . . 55
1.9.8 Gráfico da variável adicionada . . . . . . . . . . . . . . 60
1.9.9 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 61
1.10 Técnicas de diagnóstico MLGs . . . . . . . . . . . . . . . . . . 64
1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 64
1.10.2 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.10.3 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.10.4 Influência local . . . . . . . . . . . . . . . . . . . . . . 72
1.10.5 Gráfico da variável adicionada . . . . . . . . . . . . . . 73
1.10.6 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 75
1.11 Seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . 76
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 76

vi
1.11.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 78
1.12 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 79
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 84
1.12.3 Sobrevivência de bactérias . . . . . . . . . . . . . . . . 87
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustı́vel . . . . . . . . . . . . . . . . . 93
1.12.6 Salário de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2 Modelos para Dados Positivos Assimétricos 114

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2 Distribuição gama . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.3 Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118
2.3.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119
2.3.2 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 120
2.4 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1 Comparação de cinco tipos de turbina de avião . . . . 121
2.4.2 Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127
2.4.3 Aplicação em seguros . . . . . . . . . . . . . . . . . . . 137
2.5 Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
2.5.1 Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 145
2.5.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 146
2.6 Distribuição normal inversa . . . . . . . . . . . . . . . . . . . 149
2.7 Modelos com resposta normal inversa . . . . . . . . . . . . . . 151
2.7.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 152
2.7.2 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 152
2.8 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
2.9 Modelagem simultânea da média e da dispersão . . . . . . . . 161

vii
2.9.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 164
2.9.2 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 166
2.9.3 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

3 Modelos para Dados Binários 188

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
3.2 Métodos clássicos: uma única tabela 2 × 2 . . . . . . . . . . . 189
3.2.1 Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 190
3.2.2 Modelo probabilı́stico não condicional . . . . . . . . . . 192
3.2.3 Modelo probabilı́stico condicional . . . . . . . . . . . . 194
3.2.4 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . 197
3.3 Métodos clássicos: k tabelas 2 × 2 . . . . . . . . . . . . . . . . 201
3.3.1 Estimação da razão de chances comum . . . . . . . . . 202
3.3.2 Testes de homogeneidade . . . . . . . . . . . . . . . . . 204
3.4 Métodos clássicos: tabelas 2 × k . . . . . . . . . . . . . . . . . 205
3.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
3.5.1 Associação entre fungicida e desenvolvimento de tumor 208
3.5.2 Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 211
3.6 Regressão logı́stica linear . . . . . . . . . . . . . . . . . . . . . 212
3.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . 212
3.6.2 Regressão logı́stica simples . . . . . . . . . . . . . . . . 212
3.6.3 Regressão logı́stica múltipla . . . . . . . . . . . . . . . 216
3.6.4 Bandas de confiança . . . . . . . . . . . . . . . . . . . 218
3.6.5 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 218
3.6.6 Amostragem retrospectiva . . . . . . . . . . . . . . . . 223
3.6.7 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 224
3.6.8 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 226
3.6.9 Aplicacões . . . . . . . . . . . . . . . . . . . . . . . . . 228

viii
3.7 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.8 Modelos de dose-resposta . . . . . . . . . . . . . . . . . . . . . 246
3.8.1 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 248
3.8.2 Estimação da dose letal . . . . . . . . . . . . . . . . . 254
3.8.3 Modelos de retas paralelas . . . . . . . . . . . . . . . . 256
3.9 Sobredispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 259
3.9.1 Caso I . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
3.9.2 Caso II . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
3.9.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 262
3.9.4 Teste de ausência de sobredispersão . . . . . . . . . . . 265
3.9.5 Modelo beta-binomial . . . . . . . . . . . . . . . . . . 266
3.9.6 Quase-verossimilhança . . . . . . . . . . . . . . . . . . 266
3.9.7 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 268
3.10 Modelo logı́stico condicional . . . . . . . . . . . . . . . . . . . 272
3.10.1 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 274
3.10.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 276
3.10.3 Emparelhamento 1:M . . . . . . . . . . . . . . . . . . . 278
3.11 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

4 Modelos para Dados de Contagem 296

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
4.2 Métodos clássicos: uma única tabela 2 × 2 . . . . . . . . . . . 297
4.2.1 Modelo probabilı́stico não condicional . . . . . . . . . . 298
4.2.2 Modelo probabilı́stico condicional . . . . . . . . . . . . 299
4.2.3 Estratificação: k tabelas 2 × 2 . . . . . . . . . . . . . . 304
4.3 Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 310
4.3.1 Propriedades da Poisson . . . . . . . . . . . . . . . . . 310
4.3.2 Modelos log-lineares: k tabelas 2 × 2 . . . . . . . . . . 311
4.3.3 Modelos gerais de Poisson . . . . . . . . . . . . . . . . 316

ix
4.3.4 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 318
4.3.5 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 318
4.3.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 320
4.4 Modelos com resposta binomial negativa . . . . . . . . . . . . 324
4.4.1 Distribuição binomial negativa . . . . . . . . . . . . . . 324
4.4.2 Modelos de regressão com resposta binomial negativa . 326
4.4.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 330
4.4.4 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 331
4.4.5 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 332
4.4.6 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 333
4.4.7 Sobredispersão e quase-verossimilhança . . . . . . . . . 341
4.5 Relação entre a multinomial e a Poisson . . . . . . . . . . . . 346
4.5.1 Modelos log-lineares hierárquicos . . . . . . . . . . . . 349
4.5.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 351
4.6 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 356
4.6.1 Modelos ajustados em zero . . . . . . . . . . . . . . . . 356
4.6.2 Modelos de regressão ajustados em zero . . . . . . . . 358
4.6.3 Modelos inflacionados de zeros . . . . . . . . . . . . . . 359
4.6.4 Modelos de regressão inflacionados de zeros . . . . . . 361
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361

5 Modelos de Quase-Verossimilhança 372

5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
5.2 Respostas independentes . . . . . . . . . . . . . . . . . . . . . 376
5.2.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 377
5.2.2 Estimador de momentos . . . . . . . . . . . . . . . . . 377
5.2.3 Função quase-desvio . . . . . . . . . . . . . . . . . . . 378
5.2.4 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . 379
5.2.5 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 380

x
5.2.6 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.2.7 Seleção de Modelos . . . . . . . . . . . . . . . . . . . . 381
5.2.8 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 391
5.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 394
5.4.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 397
5.4.2 Estruturas de correlação . . . . . . . . . . . . . . . . . 398
5.4.3 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 399
5.4.4 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 400
5.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
5.5.1 Ataques epilépticos . . . . . . . . . . . . . . . . . . . . 401
5.5.2 Condição Respiratória . . . . . . . . . . . . . . . . . . 408
5.5.3 Placas dentárias . . . . . . . . . . . . . . . . . . . . . . 412
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

Apêndice A 428

Apêndice B 438

Bibliografia 449

xi
Capı́tulo 1

Modelos Lineares
Generalizados

1.1 Introdução
Durante muitos anos os modelos normais lineares foram utilizados na ten-
tativa de descrever a maioria dos fenômenos aleatórios. Mesmo quando o
fenômeno sob estudo não apresentava uma resposta para a qual fosse razoável
a suposição de normalidade, algum tipo de transformação era sugerida a fim
de alcançar a normalidade procurada. Provavelmente a transformação mais
conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
y λ −1

se λ 6= 0
z= λ
logy se λ = 0,
sendo λ uma constante desconhecida. O objetivo da transformação de Box
e Cox, quando aplicada a um conjunto de valores observados, é produzir
aproximadamente a normalidade, a constância de variância e também a li-
nearidade E(Z) = η, em que η = β1 x1 + β2 x2 + · · · + βp xp . No entanto, isso
raramente ocorre para um único valor de λ (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na década de 70, alguns

1
modelos que exigiam a utilização de processos iterativos para a estimação
dos parâmetros começaram a ser mais aplicados, como por exemplo o mo-
delo normal não linear. Todavia, a proposta mais interessante e pode-se
dizer inovadora no assunto foi apresentada por Nelder e Wedderburn (1972),
que propuseram os modelos lineares generalizados (MLGs). A ideia básica
consiste em abrir o leque de opções para a distribuição da variável resposta,
permitindo que a mesma pertença á famı́lia exponencial linear de distri-
buições, bem como dar maior flexibilidade para a relação funcional entre a
média da variável resposta e o preditor linear η. Assim, por exemplo, para
√
dados de contagem, em vez de aplicar a transformação y no sentido de
buscar a normalidade dos dados e constância de variância, pode-se supor que
a distribuição de Y é Poisson e que a relação funcional entre a média de Y
e o preditor linear é dada por log(µ) = η. Essa relação funcional é conveni-
ente, uma vez que garante para quaisquer valores dos parâmetros do preditor
linear um valor positivo para µ. Similarmente, para proporções, pode-se pen-
sar na distribuição binomial para a resposta e numa relação funcional do tipo
log{µ/(1 − µ)}, em que 0 < µ < 1 denota a proporção esperada de sucessos.
Nelder e Wedderburn propuseram também um processo iterativo para a
estimação dos parâmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliação da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resı́duos e medidas de diagnóstico. Inúmeros
trabalhos relacionados com modelos lineares generalizados foram publica-
dos desde 1972 bem como a implementação dos MLGs em alguns softwa-
res. Neste texto as saı́das e gráficas foram desenvolvidos no software R
(http://CRAN.R-project.org).
Os modelos de quase-verossimilhança, que estendem a ideia dos MLGs
para situações mais gerais incluindo dados correlacionados, foram propos-

2
tos por Wedderburn (1974). Os modelos de dispersão (Jørgensen, 1983)
ampliam o leque de opções para a distribuição da variável resposta. Li-
ang e Zeger (1986) estendem os modelos de quase-verossimilhança propondo
as equações de estimação generalizadas (EEGs) que permitem o estudo de
variáveis aleatórias correlacionadas não gaussianas. Os modelos não linea-
res de famı́lia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem
preditor não linear nos parâmetros. Tem-se ainda os modelos aditivos gene-
ralizados (Hastie e Tibshirani, 1990; Green e Silverman, 1994; Wood, 2017)
que supõem preditor linear formado também por funções aditivas e parciais
aditivas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993
e McCulloch e Searle, 2001) que admitem a inclusão de efeitos aleatórios
gaussianos no preditor linear. Mais recentemente, Lee e Nelder (1996, 2001)
estenderam o trabalho de Breslow e Clayton propondo modelos lineares ge-
neralizados hierárquicos em que o preditor linear pode ser formado por efei-
tos fixos e efeitos aleatórios não gaussianos. Muitos desses resultados são
discutidos no livro de Lee et al. (2006). Extensões de MLGs para séries
temporais, análise de dados de sobrevivência, modelos de espaço de estado e
outros modelos multivariados são descritas, por exemplo, em Fahrmeir e Tutz
(2001). Os modelos aditivos generalizados de localização, escala e forma pro-
postos por Rigby e Stasinopoulos (2005) contemplam as diversas extensões
dos MLGs. Referências de texto no assunto são os livros de McCullagh e
Nelder (1989) e Cordeiro (1986).
Neste capı́tulo os modelos lineares generalizados são introduzidos junta-
mente com vários resultados relacionados com estimação, teste de hipóteses,
métodos de diagnóstico e seleção de modelos. Algumas aplicações são apre-
sentadas no final do capı́tulo, como também vários exercı́cios teóricos e
práticos.

3
1.2 Definição
Sejam Y1 , . . . , Yn variáveis aleatórias independentes, cada uma com função
densidade de probabilidade ou função de probabilidade na forma dada abaixo

f (yi ; θi , φ) = exp[φ{yi θi − b(θi )} + c(yi , φ)], (1.1)

denominada famı́lia exponencial linear. Pode-se mostrar sob condições usuais

de regularidade que

∂logf (Yi ; θi , φ)
E = 0 e
∂θi
2 " 2 #
∂ logf (Yi ; θi , φ) ∂logf (Yi ; θi , φ)
E = −E ,
∂θi2 ∂θi

em que E(Yi ) = µi = b0 (θi ) e Var(Yi ) = φ−1 V (µi ), sendo Vi = V (µi ) =

dµi /dθi é denominada função de variância e φ−1 > 0 (φ > 0) é o parâmetro
de dispersão (precisão), i = 1, . . . , n. A função de variância desempenha um
papel importante na famı́lia exponencial, uma vez que a mesma caracteriza
a distribuição. Isto é, dada a função de variância, tem-se uma classe de dis-
tribuições correspondentes, e vice-versa. Para ilustrar, a função de variância
definida por V (µ) = µ(1 − µ), 0 < µ < 1, caracteriza a classe de distribuições
binomiais com probabilidades de sucesso µ e 1 − µ. Uma propriedade inte-
ressante envolvendo a distribuição de Y e a função de variância é a seguinte:
p
φ(Y − µ) →d N(0, V (µ)), quando φ → ∞.

Ou seja, para φ grande Y segue distribuição aproximadamente normal de

média µ e variância φ−1 V (µ). Esse tipo de abordagem assintótica, diferente
da usual em que n é grande, foi introduzida por Jørgensen (1987).
Os modelos lineares generalizados são definidos por (1.1) e pela parte
sistemática
g(µi ) = ηi , (1.2)

4
em que ηi = x> >
i β é o preditor linear, β = (β1 , . . . , βp ) , p < n, é um vetor

de parâmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )> repre-

senta os valores de variáveis explicativas e g(·) é uma função monótona e
diferenciável, denominada função de ligação. Apresenta-se a seguir as distri-
buições mais conhecidas pertencentes à famı́lia exponencial linear.

1.2.1 Casos particulares

Normal
Seja Y uma variável aleatória com distribuição normal de média µ e variância
σ 2 , Y ∼ N(µ, σ 2 ). A função densidade de probabilidade de Y é expressa na
forma
µ2 y2

1 1 2 1 1 2
√ exp − 2 (y − µ) = exp (µy − ) − {log(2πσ ) + 2 ,
σ 2π 2σ σ2 2 2 σ

em que −∞ < µ, y < ∞ e σ 2 > 0. Logo, para θ = µ, b(θ) = θ2 /2, φ = σ −2

1 φy 2
e c(y; φ) = 2
log(φ/2π) − 2
obtém-se (1.1). Verifica-se facilmente que a
função de variância é dada por V (µ) = 1.

Poisson
No caso de Y ∼ P(µ), a função de probabilidade fica dada por

e−µ µy /y! = exp{y log(µ) − µ − log(y!)},

em que µ > 0 e y = 0, 1, . . .. Fazendo log(µ) = θ, b(θ) = eθ , φ = 1 e

c(y; φ) = − log(y!) obtém-se (1.1). Segue portanto que V (µ) = µ.

Binomial
Seja Y ∗ a proporção de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrência µ. Denota-se nY ∗ ∼ B(n, µ). A função de

5
probabilidade de Y ∗ fica então expressa na forma

n ny ∗ n−ny ∗ n ∗ µ
µ (1−µ) = exp log + ny log + n log(1 − µ) ,
ny ∗ ny ∗ 1−µ

em que 0 < µ, y ∗ < 1. Obtém-se (1.1) fazendo φ = n, θ = log{µ/(1 − µ)},

b(θ) = log(1 + eθ ) e c(y ∗ ; φ) = log φyφ∗ . A função de variância fica dada por

V (µ) = µ(1 − µ).

Gama
Seja Y uma variável aleatória com distribuição gama de média µ e coeficiente
1
de variação φ− 2 , denota-se Y ∼ G(µ, φ). A função densidade de probabili-
dade de Y é dada por
φ
1 φy φy
exp − d(logy) = exp[φ{(−y/µ) − log(µ)} − log(Γ(φ)) +
Γ(φ) µ µ
φlog(φy) − log(y)],
R∞
em que y > 0, φ > 0, µ > 0 e Γ(φ) = 0
tφ−1 e−t dt é a função gama. Logo,
fazendo θ = −1/µ, b(θ) = − log(−θ) e c(y; φ) = (φ − 1) log(y) + φ log(φ) −
log(Γ(φ)) obtém-se (1.1).
Para 0 < φ < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y → ∞. A exponencial é um caso especial quando
φ = 1. Para φ > 1 a função densidade assume zero na origem, tem um
máximo em y = µ − µ/φ e depois decresce para y → ∞. A χ2k é um outro
caso especial quando φ = k/2 e µ = k. A distribuição normal é obtida
fazendo φ → ∞. Isto é, quando φ é grande Y ∼ N(µ, φ−1 V (µ)). Tem-se que
φ = E2 (Y )/Var(Y ) é o inverso do coeficiente de variação de Y ao quadrado,
p
ou seja, φ = 1/(CV(Y ))2 , em que CV(Y ) = Var(Y)/E(Y ). A função de
variância da gama é dada por V (µ) = µ2 .

6
Normal inversa
Seja Y uma variável aleatória com distribuição normal inversa de média µ e
parâmetro de precisão φ, denotada por Y ∼ NI(µ, φ) e cuja função densidade
de probabilidade é dada por
s
φ(y − µ)2

φ y 1 1 3 φ
exp − = exp φ − 2 + − log(2πy /φ) + ,
2πy 3 2µ2 y 2µ µ 2 y

em que y > 0, µ > 0. Fazendo θ = − 2µ1 2 , b(θ) = −(−2θ)1/2 e c(y; φ) =

1 φ
2
log{φ/(2πy 3 )}− 2y obtém-se (1.1). A normal inversa se aproxima da normal
quando φ → ∞. Ou seja, para φ grande tem-se que Y ∼ N(µ, φ−1 V (µ)). A
função de variância fica aqui dada por V (µ) = µ3 .
Na Tabela 1.1 é descrito um resumo dessas distribuições.

Tabela 1.1
Principais distribuições pertencentes à famı́lia exponencial linear.
Distribuição b(θ) θ φ V (µ)
2 −2
Normal θ /2 µ σ 1
θ
Poisson e log(µ) 1 µ
Binomial log(1 + eθ ) log{µ/(1 − µ)} n µ(1 − µ)
Gama − log(−θ)
√ −1/µ 1/(CV(Y ))2 µ2
N.Inversa − −2θ −1/2µ2 φ µ3

1.3 Ligações canônicas

Supondo φ conhecido, o logaritmo da função de verossimilhança de um MLG
com respostas independentes pode ser expresso na forma
n
X n
X
L(β) = φ{yi θi − b(θi )} + c(yi , φ).
i=1 i=1

Um caso particular importante ocorre quando o parâmetro canônico (θ) coin-

cide com o preditor linear, isto é, quando θi = ηi = pj=1 xij βj . Nesse caso,
P

7
L(β) fica dado por
n p p n
X X X X
L(β) = φ{yi xij βj − b( xij βj )} + c(yi , φ).
i=1 j=1 j=1 i=1
Pn
Definindo a estatı́stica Sj = φ i=1 Yi xij , L(β) fica então reexpresso na forma
p n p n
X X X X
L(β) = sj βj − φ b( xij βj ) + c(yi , φ).
j=1 i=1 j=1 i=1

Logo, pelo teorema da fatorização a estatı́stica S = (S1 , . . . , Sp )> é suficiente

minimal para o vetor β = (β1 , . . . , βp )> . As ligações que correspondem a tais
estatı́sticas são chamadas de ligações canônicas e desempenham um papel
importante na teoria dos MLGs. As ligações canônicas mais comuns são
dadas abaixo.

Distribuição Normal Binomial

n o Poisson Gama N. Inversa
µ
Ligação µ=η log 1−µ =η log(µ) = η µ−1 = η µ−2 = η
Uma das vantagens de usar ligações canônicas é que as mesmas garantem
a concavidade de L(β) e consequentemente muitos resultados assintóticos
são obtidos mais facilmente. Por exemplo, a concavidade de L(β) garante
a unicidade da estimativa de máxima verossimilhança de β, quando essa
existe. Para ligações não canônicas Wedderburn (1976) discute condições
para a existência da concavidade de L(β).

1.3.1 Outras ligações

Ligação probito
Seja µ a proporção de sucessos de uma distribuição binomial. A ligação
probito é definida por
Φ−1 (µ) = η,

8
em que Φ(·) é a função de distribuição acumulada da normal padrão.

Ligação complemento log-log

A distribuição do valor extremo (logaritmo da exponencial) tem função den-
sidade de probabilidade dada por

f (y) = exp{y − exp(y)},

em que −∞ < y < ∞. Logo, a função de distribuição acumulada fica dada

por

F (y) = 1 − exp{−exp(y)}.
1.0

Logistica
V.Extremo
0.8
0.6
F(y)

0.4
0.2
0.0

-3 -2 -1 0 1 2 3

Figura 1.1: Função de distribuição acumulada das curvas logı́stica e do valor

extremo.

9
O modelo binomial com ligação complemento log-log é definido tal que

µ = 1 − exp{−exp(η)},

ou, equivalentemente,
log{−log(1 − µ)} = η.

A ligação logito é definida de forma similar. A função densidade de pro-

babilidade da distribuição logı́stica é dada por
exp(y)
f (y) = ,
{1 + exp(y)}2
em que −∞ < y < ∞. Daı́ segue que a função de distribuição acumulada
fica expressa na forma
ey
F (y) = .
(1 + ey )
O modelo logı́stico binomial é obtido substituindo F (y) por µ e y por η na
expressão acima. Como no caso binomial o parâmetro de interesse sempre é
uma probabilidade, fica muito razoável que funções de distribuições acumu-
ladas sejam utilizadas para gerarem novas ligações e consequentemente novos
modelos. Na Figura 1.1 tem-se a F (y) da distribuição logı́stica e da distri-
buição do valor extremo para valores de y variando no intervalo [−3 , 3]. Note
que a curva logı́stica é simétrica em torno de F (y) = 1/2, enquanto que a
curva do valor extremo apresenta comportamentos distintos para F (y) ≤ 1/2
e F (y) > 1/2.

Ligação de Box-Cox
Uma classe importante de ligações, pelo menos para observações positivas, é
a classe de ligações de Box-Cox definida por

η = (µλ − 1)/λ,

10
30
λ = 0.3
25
λ = 0.5
λ = 0.8
20
15
µ
10
5
0

−2 0 2 4 6
η

Figura 1.2: Ligação de Box-Cox para alguns valores de λ.

para λ 6= 0 e η = log(µ) para λ → 0. A ideia agora é aplicar a transformação

de Box-Cox, definida na Seção 1.1, na média da variável resposta ao invés de
transfor a própria variável resposta. Tem-se na Figura 1.2 o comportamento
de µ para alguns valores de λ e para η variando no intervalo [0 , 10].

Ligação de Aranda-Ordaz
Uma outra transformação importante foi proposta por Aranda-Ordaz (1981)
para dados binários. A transformação é dada por
(1 − µ)−α − 1

η = log ,
α
em que 0 < µ < 1 e α é uma constante desconhecida. Quando α = 1 tem-se a
ligação logito η = log{µ/(1−µ)}. Quando α → 0 tem-se {(1−µ)−α −1}/α →

11
1.0
α = 0.5
α=1
0.8

α=2
0.6
µ
0.4
0.2

−2 −1 0 1 2 3
η

Figura 1.3: Ligação de Aranda-Ordaz para alguns valores de α.

log(1−µ)−1 de modo que η = log{−log(1−µ)} e obtém-se portanto a ligação

complemento log-log. Na Figura 1.3 tem-se o comportamento de µ para
alguns valores de α. Em muitas situações práticas o interesse pode ser testar
se o modelo logı́stico é apropriado, H0 : α = 1, contra a necessidade de uma
transformação na ligação, H1 : α 6= 1.
Os MLGs são ajustados no aplicativo R através do comando glm. Para
ilustrar uma aplicação, supor que o interesse é ajustar um modelo de Poisson
com ligação canônica e que a variável resposta é denotada por resp com
variáveis explicativas cov1 e cov2. Pode-se mandar os resultados do ajuste
para um arquivo (objeto no R), por exemplo com nome fit.poisson, através
do comando
fit.poisson = glm( resp ∼ cov1 + cov2, family=poisson).
Com o comando
summary(fit.poisson)

12
tem-se um resumo dos resultados do ajuste.

1.4 Função desvio

Sem perda de generalidade, supor que o logaritmo da função de verossimi-
lhança seja agora definido por
n
X
L(µ; y) = L(µi ; yi ),
i=1

em que µi = g −1 (ηi ) e ηi = x>

i β. Para o modelo saturado (p = n) a função

L(µ; y) é estimada por

n
X
L(y; y) = L(yi ; yi ).
i=1

Ou seja, a estimativa de máxima verossimilhança de µi fica nesse caso dada

por µ̃i = yi . Quando p < n, denota-se a estimativa de L(µ; y) por L(µ̂; y).
Aqui, a estimativa de máxima verossimilhança de µi será dada por µ̂i =
g −1 (η̂i ), em que η̂i = x>
i β̂.

A qualidade do ajuste de um MLG é avaliada através da função desvio

D∗ (y; µ̂) = φD(y; µ̂) = 2{L(y; y) − L(µ̂; y)},

que é uma distância entre o logaritmo da função de verossimilhança do

modelo saturado (com n parâmetros) e do modelo sob investigação (com
p parâmetros) avaliado na estimativa de máxima verossimilhança β̂. Um
valor pequeno para a função desvio indica que, para um número menor de
parâmetros, tem-se um ajuste tão bom quanto o ajuste com o modelo sa-
turado. Denotando por θ̂i = θi (µ̂i ) e θ̃i = θi (µ̃i ) as estimativas de máxima
verossimilhança de θ para os modelos com p parâmetros (p < n) e saturado

13
(p = n), respectivamente, tem-se que a função D(y; µ̂) (não escalonada por
φ) fica, alternativamente, dada por
n
X
D(y; µ̂) = 2 {yi (θ̃i − θ̂i ) + (b(θ̂i ) − b(θ̃i ))}.
i=1

A seguir a função desvio é derivada para alguns casos particulares. O

desvio no R sai com o nome deviance após o ajuste do modelo e o número
de graus de liberdade correspondente é dado por n − p. É usual denotar
D(y; µ̂) = ni=1 d2 (yi ; µ̂i ), em que d2 (yi ; µ̂i ) será denominado componente do
P

desvio não escalonado.

Normal
Aqui θi = µi , logo θ̃i = yi e θ̂i = µ̂i . O desvio fica portanto dado por
n
X n
X
D(y; µ̂) = 2 {yi (yi − µ̂i ) + µ̂2i /2 − yi2 /2} = (yi − µ̂i )2 ,
i=1 i=1

que coincide com a soma de quadrados de resı́duos.

Poisson
Neste caso tem-se θi = log(µi ), o que implica em θ̃i = log(yi ) para yi > 0 e
θ̂i = log(µ̂i ). Assim,
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1

Se yi = 0 o i-ésimo termo de D(y; µ̂) vale 2µ̂i . Resumindo, tem-se o seguinte

resultado para o modelo de Poisson:

2 2{yi log(yi /µ̂i ) − (yi − µ̂i )} se yi > 0;
d (yi ; µ̂i ) =
2µ̂i se yi = 0.

14
Binomial
No caso binomial em que Yi ∼ B(ni , µi ), i = 1, . . . , k, obtém-se θ̃i = log{yi /(ni −
yi )} e θ̂i = log{µ̂i /(1 − µ̂i )} para 0 < yi < ni . Logo, o desvio assume a se-
guinte forma:
k
X
D(y; µ̂) = 2 [yi log(yi /ni µ̂i ) + (ni − yi )log{(1 − yi /ni )/(1 − µ̂i )}].
i=1

Todavia, quando yi = 0 ou yi = ni , o i-ésimo termo de D(y; µ̂) vale −2ni log(1−

µ̂i ) ou −2ni logµ̂i , respectivamente. Portanto, os componentes do desvio no
caso binomial assumem as seguintes formas:

 yi log(yi /ni µ̂i ) + (ni − yi )log{(1 − yi /ni )/(1 − µ̂i )} se 0 < yi < ni ;
d2 (yi ; µ̂i ) = −2ni log(1 − µ̂i ) se yi = 0;
−2ni logµ̂i se yi = ni .


Gama
No caso gama, θ̃i = −1/yi e θ̂i = −1/µ̂i . Assim, segue que o desvio (quando
todos os valores são positivos) pode ser expresso na forma
n
X
D(y; µ̂) = 2 {−log(yi /µ̂i ) + (yi − µ̂i )/µ̂i }.
i=1

Se algum componente de yi é igual a zero o desvio fica indeterminado. Mc-

Cullagh e Nelder (1989) sugerem substituir D(y; µ̂) nesse caso por
n
X n
X
D∗ (y; µ̂) = 2φC(y) + 2φ log(µ̂i ) + 2φ (yi /µ̂i ),
i=1 i=1

em que C(y) é uma função arbitrária, porém limitada. Pode-se, por exemplo,
usar C(y) = ni=1 yi /(1 + yi ).
P

15
Normal inversa
Para este caso θ̃i = −1/2yi2 e θ̂i = −1/2µ̂2i . A função desvio fica então dada
por
n
X
D(y; µ̂) = (yi − µ̂i )2 /(yi µ̂2i ).
i=1

1.4.1 Medida R2
Na regressão normal linear, como é bem conhecido, uma medida de qualidade
do ajuste é dada pelo coeficiente de determinação, definido por
Pn
2 SQRes (yi − ŷi )2
R =1− = 1 − Pi=1
n 2
,
SQT i=1 (yi − ȳ)

em que SQRes e SQT denotam, respectivamente, a soma de quadrados de

resı́duos e a soma de quadrados total, e 0 ≤ R2 ≤ 1. Um refinamento dessa
medida é obtido ajustando-se os graus de liberdade das formas quadráticos,
obtendo-se o coeficiente de determinação ajustado
(n − 1) ni=1 (yi − ŷi )2
P
2 SQRes/(n − p)
R =1− =1− .
(n − p) ni=1 (yi − ȳ)2
P
SQT/(n − 1)
2 2
Mostra-se facilmente que R ≤ R2 e não necessariamente R aumenta com o
aumento do número de variáveis explicativas.
Uma extensão natural para os MLGs é dada por
D(y; µ̂)
R2 = 1 − ,
D(y; ȳ)
em que D(y; ȳ) denota o desvio do modelo apenas com o intercepto. Na
prática o coeficiente de determinação para os MLGs (exceto para o caso
normal) raramente é superior a 0, 40, sendo portanto esse valor utilizado
como referência de excelente ajuste. Contudo, há várias outras propostas de
pseudo R2 em regressão. Por exemplo, a proposta de Cox e Snell em que

16
2
R2 = 1 − {L(ȳ; y)/L(µ̂; y)} n . A ideia aqui é subtrair de 1 a n-ésima raiz
de duas vezes a razão entre o menor valor e o valor ajustado do logaritmo
da função de verossimilhança. Como essa quantidade em geral não alcança
o valor 1, Nagelkerke, Cragg e Uhler propõem uma correção R2 = [1 −
2 2
{L(ȳ; y)/L(µ̂; y)} n ]/[1−L(ȳ; y) n ]. Esss duas quantidades podem ser obtidas
na biblioteca GAMLSS do R (ver, por exemplo, Stasinopoulos et al., 2017)
através dos comandos
require(gamlss)
ajuste = gamlss(resp ∼ cov1 + cov2, family=PO)
Rsq(ajuste, type="both").

1.4.2 Resultados assintóticos

Embora seja usual comparar os valores observados da função desvio com os
quantis da distribuição qui-quadrado com n − p graus de liberdade, em geral
D(y; µ̂) não segue assintoticamente uma χ2n−p . No caso binomial quando
k é fixo e ni → ∞ para cada i, D(y; µ̂) segue sob a hipótese de que o
modelo é verdadeiro uma χ2k−p . Isso não vale quando n → ∞ e ni µi (1 − µi )
permanece limitado. Para o modelo de Poisson, quando µi → ∞ para todo
i, segue que D(y; µ̂) ∼ χ2n−p . No caso normal, como é conhecido para σ 2
fixo, D(y; µ̂) ∼ σ 2 χ2n−p . Lembre que E(χ2r ) = r, assim um valor do desvio
próximo de n−p pode ser uma indicação de que o modelo está bem ajustado.
Em geral, para os casos em que D∗ (y; µ̂) depende do parâmetro de dispersão
φ−1 , o seguinte resultado (Jørgensen, 1987) para a distribuição nula da função
desvio pode ser utilizado:

D∗ (y; µ̂) ∼ χ2n−p , quando φ → ∞.

Isto é, quando a dispersão é pequena, fica razoável comparar os valores ob-
servados de D∗ (y; µ̂) com os quantis da χ2n−p . Em particular, para o caso

17
Pn
normal linear, o resultado acima diz que i=1 (yi − µ̂i )2 /σ 2 ∼ χ2n−p quando
σ 2 → 0. No caso do modelo gama, o desvio estará bem aproximado por uma
qui-quadrado com n − p graus de liberdade à medida que o coeficiente de
variação ficar próximo de zero.

1.4.3 Análise do desvio

Supor para o vetor de parâmetros β a partição β = (β > > >
1 , β 2 ) , em que β 1

é um vetor q-dimensional, enquanto β 2 tem dimensão p − q e φ é conhecido

(ou fixo). Portanto, pode haver interesse em testar as hipóteses H0 : β 1 = 0
contra H1 : β 1 6= 0. As funções desvio correspondentes aos modelos sob H0
e H1 serão denotadas por D(y; µ̂0 ) e D(y; µ̂), respectivamente, em que µ̂0 é
a estimativa de máxima verossimilhança sob H0 . A estatı́stica do teste da
razão de verossimilhanças fica nesse caso dada por

ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)}, (1.3)

isto é, a diferença entre dois desvios. Como é conhecido, sob a hipótese nula,
ξRV ∼ χ2q quando n → ∞. De forma similar, pode-se definir a estatı́stica
{D(y; µ̂0 ) − D(y; µ̂)}/q
F= , (1.4)
D(y; µ̂)/(n − p)
cuja distribuição nula assintótica é uma Fq,(n−p) quando o denominador de
(1.4) é uma estimativa consistente de φ−1 (ver, por exemplo, Jørgensen,
1987). A vantagem em utilizar (1.4) em relação a (1.3) é que a estatı́stica F
não depende do parâmetro de dispersão. O resultado (1.4) também é verifi-
cado quando φ → ∞ e n é arbitrário. Quando φ é desconhecido a estatı́stica
do teste da razão de verossimilhanças assume uma expressão diferente de
(1.3). A estatı́stica F acima fica, no caso normal linear, reduzida à forma
conhecida dada abaixo
Pn Pn
i=1 (yi − µ̂0i )2 − i=1 (yi − µ̂i )2
F= ,
qs2

18
Pn
em que s2 = 2
i=1 (yi − µ̂i ) /(n − p) é o erro quadrático médio do modelo com
p parâmetros. A forma da estatı́stica F dada em (1.4) pode ser obtida, em
particular, quando tem-se uma hipótese de igualdades lineares num modelo
de regressão normal linear. Como ilustração, supor o modelo

y = Xβ + Wγ + ,

em que ∼ N(0, σ 2 In ), X é uma matriz n × p, In é a matriz identidade

de ordem n, W é aqui uma matriz n × q, ambas de posto completo, β =
(β1 , . . . , βp )> e γ = (γ1 , . . . , γq )> . Considere as hipóteses

H0 : Cθ = 0 contra H1 : Cθ 6= 0,

em que θ = (β > , γ > )> e C é uma matriz k × (p + q) de posto completo. O

acréscimo na soma de quadrados de resı́duos devido às restrições em H0 é
dado por
ASQ(Cθ = 0) = (Cθ̂)> {C(Z> Z)−1 C> }−1 (Cθ̂),

em que θ̂ = (Z> Z)−1 Z> y e Z = (X, W). A estatı́stica F para testar H0 fica
então dada por
ASQ(Cθ = 0)/k
F= ,
D(y; µ̂)/(n − p − q)
em que D(y; µ̂) é o desvio do modelo completo com p + q parâmetros e
ASQ(Cθ = 0) = D(y; µ̂0 ) − D(y; µ̂), com D(y; µ̂0 ) sendo o desvio do modelo
sob H0 . Portanto, F assume a forma
{D(y; µ̂0 ) − D(y; µ̂)}/k
F= ,
D(y; µ̂)/(n − p − q)
e segue, sob H0 , uma distribuição Fk,(n−p−q) . No caso de testar H0 : γ = 0
contra H1 : γ 6= 0, a matriz C tem dimensão q × (p + q) com a i-ésima
linha tendo o valor 1 na posição p + i e zeros nas demais posições. Essa
formulação pode também ser aplicada quando há interesse na inclusão de
novas covariáveis num modelo de regressão normal linear.

19
Tabela 1.2
Análise do desvio (ANODEV) supondo dois fatores na parte sistemática.
Modelo Desvio Diferença G.L. Testando
Constante D0
D0 − DA n(A) − 1 A ignorando B
D0 − DB n(B) − 1 B ignorando A
+A DA
DA − DA+B n(B) − 1 B|A ignorando AB
+B DB
DB − DA+B n(A) − 1 A|B ignorando AB
+A+B DA+B
DA+B − DAB {n(A) − 1}× AB|A + B
{n(B) − 1}
+A+B+AB DAB

Para ilustrar o uso das diferenças de desvios para hipóteses em modelos

encaixados, supor um MLG com dois fatores, A e B. O fator A com n(A)
nı́veis e o fator B com n(B) nı́veis. Na Tabela 1.2 tem-se os possı́veis testes
envolvendo os dois fatores. Em particular, se o interesse é testar a inclusão do
fator B dado que o fator A já está no modelo, deve-se comparar a diferença
φ{D(y; µ̂A )−D(y; µ̂A+B )} com os nı́veis crı́ticos da distribuição qui-quadrado
com {n(B) − 1} graus de liberdade. Alternativamente, pode-se comparar o
valor observado da estatı́stica F correspondente com os nı́veis da distribuição
F com {n(B) − 1} e {n − n(A) − n(B) + 1} graus de liberdade. No caso
normal linear pode ser construı́da a tabela ANOVA utilizando a estatı́stica F
no lugar da diferença entre desvios. A vantagem disso é o fato do parâmetro
de dispersão φ−1 não precisar ser estimado. Através do comando anova() o
R fornece uma tabela ANODEV para os ajustes colocados como objetos. Por
exemplo, supor que os objetos fit1.reg, fit2.reg e fit3.reg correspon-
dam aos ajustes de um MLG com um, dois e três fatores, respectivamente.
Então, o comando

20
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os três fatores.
Como aplicação do ANODEV, considere o exemplo descrito na Seção 1.12.2
em que um modelo logı́stico com resposta Bernoulli é ajustado para explicar a
ocorrência de câncer de pulmão numa amostra de 175 pacientes com processo
infeccioso pulmonar, em que foram observadas as variáveis explicativas SEXO
e IDADE e a intensidade das células HF e FF. A parte sistemática do modelo
é representada abaixo

1 + SEXO + IDADE + HL + FF,

em que 1 denota a presença de intercepto no modelo, SEXO (1:feminino,

0:masculino), IDADE (em anos) e HL e FF são dois fatores com 4 nı́veis
cada um representando a intensidade de dois tipos de célula. A Tabela 1.3
resume alguns resultados.

Tabela 1.3
Análise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo Desvio Diferença G.L. Testando
Constante 236,34 - - -

+ SEXO 235,20 1,14 1 SEXO

+ IDADE 188,22 46,98 1 IDADE | SEXO

+ HL 162,55 25,67 3 HL | SEXO +

IDADE
+ FF 157,40 5,15 3 FF | SEXO +
IDADE + HL

Para calcular os nı́veis descritivos das diferenças apresentadas na Tabela

21
1.3, pode-se aplicar o comando pchisq(dv,q) do R. Por exemplo, para cal-
cular o nı́vel descritivo referente ao efeito do fator SEXO, aplica-se
1 - pchisq(1.14,1)
obtendo-se P = 0, 285. Similarmente, para testar a inclusão de FF dado que
já temos no modelo 1+SEXO+IDADE+HL, aplica-se
1 - pchisq(5.15,3)
e obtém-se P = 0, 1611, indicando que o fator FF é não significativo a 10%.

1.5 Função escore e informação de Fisher

1.5.1 Escore e Fisher para β
Considere a partição θ = (β > , φ)> e denote o logaritmo da função de verossi-
milhança por L(θ). Para obter a função escore para o parâmetro β deriva-se
inicialmente L(θ) com relação a cada coeficiente
n
X dθi dµi ∂ηi db(θi ) dθi dµi ∂ηi
∂L(θ)/∂βj = φ yi −
i=1
dµi dηi βj dθi dµi dηi ∂βj
n
X (dµi /dηi ) (dµi /dηi )
= φ yi xij − µi xij
i=1
Vi Vi
n r
X ωi
= φ (yi − µi )xij ,
i=1
Vi

em que ωi = (dµi /dηi )2 /Vi . Logo, é possı́vel escrever a função escore na

forma matricial
∂L(θ) 1 1
Uβ (θ) = = φX> W 2 V− 2 (y − µ),
∂β
em que X é uma matriz n × p de posto completo cujas linhas serão de-
notadas por x>
i , i = 1, . . . , n, W = diag{ω1 , . . . , ωn } é a matriz de pesos,

V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> .

22
A matriz de informação de Fisher para o parâmetro β é obtida derivando-
se novamente L(θ) com relação aos coeficientes
n 2
d2 θi

2
X dµi
∂ L(θ)/∂βj ∂β` = φ (yi − µi ) 2 xij xi`
i=1
dµi dηi
n
X dθi d2 µi
+φ (yi − µi ) x x
2 ij i`
i=1
dµ i dηi
n 2
X dθi dµi
−φ xij xi` ,
i=1
dµ i dη i

cujos valores esperados ficam dados por

n 2
2
X dθi dµi
E ∂ L(θ)/∂βj ∂β` = −φ xij xi`
i=1
dµi dηi
n
X (dµi /dηi )2
= −φ xij xi`
i=1
Vi
Xn
= −φ ωi xij xi` .
i=1

Logo, a submatriz de informação de Fisher para β fica expressa na forma

matricial
∂ 2 L(θ)

Kββ (θ) = E − >
= φX> WX.
∂β∂β
Em particular, para ligação canônica (θi = ηi ), essas quantidades tomam
formas simplificadas

Uβ = φX> (y − µ) e Kββ = φX> VX,

respectivamente. Particionando o vetor de parâmetros tal que β = (β > > >

1 , β2 ) ,

a função escore e a matriz de informação de Fisher ficam para o parâmetro

1 1
−2
β 1 , respectivamente, dadas por Uβ1 = φX>
1W V
2 (y − µ) e Kβ1 β1 =
φX>
1 WX1 .

23
1.5.2 Escore e Fisher para φ
A função escore para o parâmetro φ fica dada por
∂L(θ)
Uφ (θ) =
∂φ
Xn n
X
= {yi θi − b(θi )} + c0 (yi ; φ),
i=1 i=1

em que c0 (yi ; φ) = dc(yi , φ)/dφ. Para obter a informação de Fisher para φ é

preciso calcular ∂ 2 L(θ)/∂φ2 = ni=1 c00 (yi ; φ), em que c00 (yi ; φ) = d2 c(yi , φ)/dφ2 .
P

Assim, a informação de Fisher para φ fica dada por

n
X
Kφφ (θ) = − E{c00 (Yi ; φ)}.
i=1

1.5.3 Ortogonalidade
Pn p
Tem-se que ∂ 2 L(θ)/∂β∂φ = i=1 ωi Vi−1 (yi − µi )xi . Portanto, verificamos
facilmente que β e φ são ortogonais, isto é, Kβφ (θ) = E[−∂ 2 L(θ)/∂β∂φ] = 0.
Logo, segue que a matriz de informação de Fisher para θ é bloco diagonal
sendo dada por Kθθ = diag{Kββ , Kφφ }. A função escore para θ fica dada
por Uθ = (U> >
β , Uφ ) . A seguir são discutidos alguns casos particulares.

1.5.4 Casos particulares

Normal
A função de variância no caso normal é dada por V (µ) = 1 (dµ/dθ = 1).
Logo, ω = (dθ/dη)2 . Em particular para ligação canônica (θ = η), obtém-se
ω = 1. Assim,

Uβ = σ −2 X> (y − µ) e Kββ = σ −2 X> X,

24
como é conhecido. Segue ainda o resultado
n n
µ2i
X X
Uφ = yi µi − + c0 (yi ; φ),
i=1
2 i=1

em que c0 (yi ; φ) = 1/2φ − yi2 /2. Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
Kφφ = − ni=1 E{c00 (Yi ; φ)} = n/2φ2 .
P

Poisson
Aqui a função de variância é dada por V (µ) = µ. Logo, ω = µ(dθ/dη)2 .
Para ligação canônica (log(µ) = η) os pesos são as próprias médias, isto é
√
ω = µ. Em particular, para ligação raiz quadrada ( µ = η), obtém-se ω = 4.
1
Assim, Uβ = X> V− 2 (y − µ) e Kββ = X> X.

Binomial
No caso binomial, a função de variância é definida por V (µ) = µ(1 − µ), em
que 0 < µ < 1. Portanto, segue que ω = µ(1 − µ)(dθ/dη)2 . Por convenção é
assumido que ω = nµ(1 − µ)(dθ/dη)2 e φ = 1. No caso de ligação canônica
(log{µ/(1 − µ)} = η) os pesos são as variâncias das binomiais, isto é ω =
nµ(1 − µ). As matrizes Uβ e Kββ ficam nesse caso dadas por

Uβ = X> (y − µ) e Kββ = X> VX,

em que X é uma matriz k × p, y = (y1 , . . . , yn )> , µ = (n1 µ1 , . . . , nk µk )> e

V = diag{n1 µ1 (1 − µ1 ), . . . , nk µk (1 − µk )}.

Gama
Para o caso gama V (µ) = µ2 . Logo, ω = µ2 (dθ/dη)2 . Em particular, para
um modelo log-linear (log(µ) = η), obtém-se dµ/dη = µ, o que implica em
ω = 1. Assim, Uβ = φX> V−1/2 (y − µ) e Kββ = φX> X, similarmente ao

25
caso normal. Para ligação canônica, ω = µ2 . A função escore para φ fica
dada por
n Xn
X yi
Uφ = − + log(µi ) + c0 (yi ; φ),
i=1
µi i=1

em que c (yi ; φ) = log(yi ) + log(φ) + 1 − ψ(φ) e ψ(φ) = Γ0 (φ)/Γ(φ) é a função

digama. Daı́ segue que c00 (yi ; φ) = 1/φ − ψ 0 (φ) e portanto

n
X
Kφφ = − E{c00 (Yi ; φ)} = n{φψ 0 (φ) − 1}/φ,
i=1

em que ψ 0 (φ) = dψ(φ)/dφ é a função trigama.

Normal inversa
Neste caso a função de variância é dada por V (µ) = µ3 . Assim, ω =
µ3 (dθ/dη)2 . Pode ser muito razoável aplicar aqui um modelo log-linear, uma
vez que as respostas são sempre positivas. No entanto, diferente dos modelos
log-lineares com resposta de Poisson, os pesos aqui são inversamente pro-
porcionais às médias, isto é ω = µ−1 . Em particular para ligação canônica,
ω = µ3 , e portanto Uβ = φX> (y − µ) e Kββ = φX> VX. Tem-se ainda o
resultado n n
X 1 yi X
Uφ = − 2 + c0 (yi ; φ),
i=1
µi 2µi i=1

em que c (yi ; φ) = 1/2φ − 1/2yi . Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
0

Kφφ = − ni=1 E{c00 (Yi ; φ)} = n/2φ2 .

1.6 Estimação dos parâmetros

1.6.1 Estimação de β
O processo iterativo de Newton-Raphson para a obtenção da estimativa de
máxima verossimilhança de β é definido expandindo a função escore Uβ em

26
torno de um valor inicial β (0) , tal que
0 (0)
Uβ ∼
(0)
= Uβ + Uβ (β − β (0) ),

em que U0β denota a primeira derivada de Uβ com respeito a β > , sendo

(0)
Uβ 0 (0) e Uβ , respectivamente, essas quantidades avaliadas em β (0) . Assim,
repetindo o procedimento acima, chega-se ao processo iterativo
(m)
β (m+1) = β (m) + {(−U0β )−1 }(m) Uβ ,

m = 0, 1, . . .. Como a matriz −U0β pode não ser positiva definida, a aplicação

do método escore de Fisher substituindo a matriz −U0β pelo correspondente
valor esperado Kββ pode ser mais conveniente. Isso resulta no seguinte pro-
cesso iterativo:
(m)
β (m+1) = β (m) + {K−1
ββ }
(m)
Uβ ,

m = 0, . . .. Trabalhando um pouco o lado direito da expressão acima, chega-

se a um processo iterativo de mı́nimos quadrados reponderados

β (m+1) = (X> W(m) X)−1 X> W(m) z(m) , (1.5)

1 1
m = 0, 1, . . ., em que z = η + W− 2 V− 2 (y − µ). A quantidade z desempenha
o papel de uma variável dependente modificada, enquanto W é uma matriz
de pesos que muda a cada passo do processo iterativo. A convergência de
(1.5) ocorre em geral num número finito de passos, independente dos valores
iniciais utilizados. É usual iniciar (1.5) com η (0) = (g(y1 ), . . . , g(yn ))> .
Apenas como ilustração, para o caso logı́stico binomial, tem-se que ω =
nµ(1−µ) e variável dependente modificada dada por z = η+(y−nµ)/nµ(1 − µ).
Lembrando, para o modelo normal linear não é preciso recorrer ao processo
iterativo (1.5) para a obtenção da estimativa de máxima verossimilhança.
Nesse caso, β̂ assume a forma fechada

β̂ = (X> X)−1 X> y.

27
Observa-se que o lado direito de (1.5) não depende de φ. Portanto, para
obter β̂ não é preciso conhecer φ.

1.6.2 Estimação de φ
Igualando a função escore Uφ a zero chega-se à seguinte solução:
n n
X
0 1 X
c (yi ; φ̂) = D(y; µ̂) − {yi θ̃i − b(θ̃i )},
i=1
2 i=1

em que D(y; µ̂) denota o desvio do modelo sob investigação. Verifica-se que
a estimativa de máxima verossimilhança para φ nos casos normal e normal
inversa, igualando Uφ a zero, é dada por
n
φ̂ = .
D(y; µ̂)
Para o caso gama, a estimativa de máxima verossimilhança de φ sai da
equação
2n{logφ̂ − ψ(φ̂)} = D(y; µ̂).
A equação acima pode ser resolvida diretamente pelo R através da biblioteca
MASS (Venables e Ripley, 1999). Como ilustração, supor que os resultados do
ajuste sejam guardados em fit.model. Então, para encontrar a estimativa
de máxima verossimilhança de φ com o respectivo erro padrão aproximado
deve-se aplicar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para φ (de momentos) que não envolve
processo iterativo é baseado na estatı́stica de Pearson, sendo dado por
(n − p)
φ̂ = Pn (y −µ̂ )2 .
i=1 { V (µ̂i ) }
i i

A suposição aqui é que β̂ tem sido consistentemente estimado. O R solta a

estimativa φ̂ = (n − p)/D(y; µ̂) que não é consistente para φ.

28
1.6.3 Distribuição assintótica
Para mostrar que β̂ e φ̂ são assintoticamente normais e independentes, con-
sidere os resultados abaixo

E(Uθ ) = 0 e Var(Uθ ) = Kθθ ,

com as funções escore de β e φ sendo, respectivamente, expressas nas formas

Uβ = ni=1 Uiβ , em que
P

q n
X
−1
Uiβ = φ ωi Vi (yi − µi )xi e Uφ = Uiφ ,
i=1

com Uiφ = {yi θi − b(θi )} + c0 (yi ; φ). Portanto, para n grande, segue pelo
Teorema Central do Limite que Uθ ∼ Np+1 (0, Kθθ ). Em particular, assinto-
ticamente Uβ ∼ Np (0, Kββ ) e Uφ ∼ N(0, Kφφ ) e Uβ e Uφ são independentes.
Expandindo Uθ̂ em série de Taylor em torno de θ obtém-se

Uθ̂ ∼
= Uθ + U0θ (θ̂ − θ),

em que U0θ = ∂Uθ /∂θ > . Assim, como θ̂ é o estimador de máxima verossimi-
lhança de θ tem-se que Uθ̂ = 0 e daı́ segue a relação

θ̂ ∼
= θ + (−U0θ )−1 Uθ .

Supondo que para n grande −U0θ ∼

= Kθθ (para ligação canônica Kββ = −U0β ),
então obtém-se
θ̂ ∼
= θ + K−1
θθ Uθ ,

ou seja, para n grande θ̂ ∼ Np+1 (θ, K−1

θθ ). Como Kθθ = diag{Kββ , Kφφ }

então assintoticamente segue que β̂ ∼ Np (β, K−1 −1

ββ ) e φ̂ ∼ N(0, Kφφ ) e β̂ e φ̂

são independentes. Demonstrações mais rigorosas desses resultados podem

ser encontradas, por exemplo, em Fahrmeir e Kaufmann (1985) e Sen e Singer
(1993, Cap. 7).

29
1.7 Teste de hipóteses
1.7.1 Hipóteses simples
Buse (1982) apresenta de uma forma bastante didática a interpretação geométrica
dos testes da razão de verossimilhanças, escore e Wald para o caso de hipóteses
simples. A seguir são apresentadas as generalizações para os MLGs. Supor,
inicialmente, a seguinte situação de hipóteses simples:

H0 : β = β 0 contra H1 : β 6= β 0 ,

em que β 0 é um vetor p-dimensional conhecido e φ é também assumido

conhecido.

Teste da razão de verossimilhanças

O teste da razão de verossimilhanças, no caso de hipóteses simples, é usual-
mente definido por
ξRV = 2{L(β̂) − L(β 0 )}.

Essa estatı́stica pode também ser expressa, para os MLGs, como a diferença
entre duas funções desvio

ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 = g−1 (η̂ 0 ), η̂ 0 = Xβ 0 . Em particular, para o caso normal linear,

tem-se que ξRV = { ni=1 (yi − µ̂0i )2 − ni=1 (yi − µ̂i )2 }/σ 2 .
P P

Teste de Wald
O teste de Wald é definido, nesse caso, por

ξW = [β̂ − β 0 ]> V̂ar−1 (β̂)[β̂ − β 0 ],

30
em que V̂ar(β̂) denota a matriz de variância-covariância assintótica de β̂
estimada em β̂. Para os MLGs, V̂ar(β̂) = K−1 (β̂). Assim, a estatı́stica de
Wald fica reexpressa na forma

ξW = φ[β̂ − β 0 ]> (X> ŴX)[β̂ − β 0 ].

Em particular, para o caso de p = 1, o teste de Wald é equivalente ao teste

t2 usual
(β̂ − β 0 )2
ξW = .
V̂ar(β̂)
Um problema com a estatı́stica de Wald, especialmente quando η(β) é não
linear em β, é a dependência de ξW com a parametrização utilizada. Isto
é, duas formas diferentes e equivalentes para η(β), podem levar a diferentes
valores de ξW .

Teste de escore
O teste de escore, também conhecido como teste de Rao, é definido quando
Uβ (β̂) = 0 por
ξSR = Uβ (β 0 )> V̂ar0 (β̂)Uβ (β 0 ),

em que V̂ar0 (β̂) denota que a variância assintótica de β̂ está sendo estimada
sob H0 . Para os MLGs tem-se que

ξSR = φ−1 Uβ (β 0 )> (X> Ŵ0 X)−1 Uβ (β 0 ),

em que Ŵ0 é estimado sob H0 , embora tenha a forma do modelo em H1 .

A estatı́stica de escore pode ser muito conveniente em situações em que a
hipótese alternativa é bem mais complexa do que a hipótese nula. Nesses ca-
sos, somente seria necessário estimar os parâmetros sob H1 quando o modelo
em H0 fosse rejeitado. Novamente, ilustrando o caso normal linear, tem-se

31
que a estatı́stica de escore fica expressa na forma

ξSR = (y − Xβ 0 )> X(X> X)−1 X> (y − Xβ 0 )/σ 2 .

Observe que, nesse caso, as estatı́sticas ξRV e ξW coincidem com ξSR .

Teste F
A estatı́stica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipóteses simples:

{D(y; µ̂0 ) − D(y; µ̂)}/p

F= ,
D(y; µ̂)/(n − p)
que para φ → ∞ e sob H0 segue uma Fp,(n−p) . Esse resultado vale também
para n → ∞ quando coloca-se no denominador da estatı́stica F uma esti-
mativa consistente para φ−1 . Uma propriedade interessante das estatı́sticas
ξRV , ξSR e F é o fato de serem invariantes com reparametrizações. Isso pode
ser muito útil na construção de regiões de confiança para os parâmetros. A
estatı́stica F tem a vantagem adicional de não depender do parâmetro de
dispersão φ−1 . Como essa estatı́stica pode ser obtida diretamente de funções
desvio, talvez seja a mais conveniente para uso prático. Assintoticamente e
sob a hipótese nula, segue que ξRV , ξW e ξSR ∼ χ2p .
Uma região assintótica de confiança para β baseada no teste de Wald e
com coeficiente de confiança (1 − α), é dada por

[β; (β̂ − β)> (X> ŴX)(β̂ − β) ≤ φ−1 χ2p (1 − α)],

em que χ2p (1 − α) denota o quantil (1 − α) de uma distribuição qui-quadrado

com p graus de liberdade. Como essa região pode depender da parame-
trização utilizada quando η é não linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construir a região utilizando uma

32
das estatı́sticas invariantes. Em particular, se a estatı́stica da razão de ve-
rossimilhanças for escolhida, a região assintótica fica dada por

[β; 2{L(β̂) − L(β)} ≤ χ2p (1 − α)].

Se há interesse num subconjunto β 1 q-dimensional, a região assintótica de

confiança utilizando as estatı́sticas de Wald e da razão de verossimilhanças
ficam, respectivamente, dadas por
−1
[β; (β̂ 1 − β)> V̂ar (β̂ 1 )(β̂ 1 − β) ≤ φ−1 χ2q (1 − α)]

e
[β; 2{L(β̂) − L(β, β̂ 2 (β))} ≤ χ2q (1 − α)],

em que β é aqui q-dimensional e β̂ 2 (β) é a estimativa de máxima verossimi-

lhança de β 2 dado β (ver, por exemplo, Seber e Wild, 1989).

1.7.2 Modelos encaixados

φ conhecido
Supor novamente a partição β = (β > > >
1 , β2 ) definida na Seção 1.4.2 e as
seguintes hipóteses: H0 : β 1 = β 01 contra H1 : β 1 6= β 01 . Para esse caso
tem-se que
ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 é a estimativa de máxima verossimilhança do MLG com parte

sistemática η = η̂10 + η2 , em que η̂10 = qj=1 xj βj0 e η2 = pj=q+1 xj βj . A
P P

quantidade η̂10 desempenha o papel de um offset (parte conhecida no preditor

linear), conforme a nomenclatura de modelos lineares generalizados. Para
ilustrar a utilização do offset, supor um modelo de Poisson com ligação log-
linear, resposta resp, covariáveis cov1 e cov2 e offset dado por logt0. Para

33
ajustar o modelo e armazenar os resultados em fit1.poisson deve-se aplicar
o comando
fit1.poisson = glm(resp ∼ cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso é muito utilizado em estudos de seguimento em que cada
indivı́duo é observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustração, supor um MLG com distribuição normal inversa, ligação
canônica e preditor linear dado por η = β1 + β2 cov2 + β3 cov3 e que o interesse
é testar H0 : β2 = b, em que b é uma constante diferente de zero, contra
H1 : β2 6= b. Os ajustes correspondentes a H0 e H1 são, respectivamente,
dados por
fit1.ni = glm(resp ∼ cov3 + offset(b*cov2),
family=inverse.gaussian)
fit2.ni = glm(resp ∼ cov2+cov3, family=inverse.gaussian).
Logo, de (1.4), a estatı́stica F para testar H0 : β2 = b contra H1 : β2 6= b fica
dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm(resp ∼ cov3, family=inverse.gaussian).

Teste de Wald
Para testar H0 , a estatı́stica de Wald fica expressa na forma

ξW = [β̂ 1 − β 01 ]> V̂ar−1 (β̂ 1 )[β̂ 1 − β 01 ],

34
> >
em que β̂ 1 sai do vetor β̂ = (β̂ 1 , β̂ 2 )> . Usando resultados conhecidos de
álgebra linear, mostra-se que a variância assintótica de β̂ 1 é dada por
1 1
Var(β̂ 1 ) = φ−1 [X> −1
1 W M 2 W X1 ] ,
2 2

em que X1 sai da partição X = (X1 , X2 ), sendo portanto n×q, X2 é n×(p−q),

1 1
M2 = In − H2 e H2 = W 2 X2 (X> −1 >
2 WX2 ) X2 W é a matriz de projeção
2

ortogonal de vetores do Rn no subespaço gerado pelas colunas da matriz

1
W 2 X2 . Em particular, no caso normal linear, tem-se as simplificações H2 =
X2 (X> −1 > 2 > −1
2 X2 ) X2 e Var(β̂ 1 ) = σ [X1 (In − H2 )X1 ] .

Teste de escore
1 1
A função escore pode ser expressa na forma Uβ = φ 2 X> W 2 rP , em que
1 1
rP = φ 2 V− 2 (y − µ) é conhecido como resı́duo de Pearson. Observe que rP
tem a mesma distribuição de Y, no entanto, E(rP ) = 0 e Var(rP ) = In . O
teste de escore é definido por
0 0
ξSR = Uβ1 (β̂ )> V̂ar0 (β̂ 1 )Uβ1 (β̂ ),
1 1 0 0>
em que Uβ1 (β) = ∂L(β)/∂β 1 = φX>
1W V
2
−2
(y − µ), β̂ = (β 0> >
1 , β̂ 2 ) e
0
β̂ 2 é a estimativa de máxima verossimilhança de β 2 sob o modelo com parte
sistemática η = η̂ 01 + η 2 , isto é, sob H0 , em que η̂ 01 = X1 β 01 e η 2 = X2 β 2 .
Trabalhando um pouco mais a expressão para Var(β̂ 1 ), chega-se ao seguinte
resultado:
Var(β̂ 1 ) = φ−1 (R> WR)−1 ,

em que R = X1 − X2 C e C = (X> −1 >

2 WX2 ) X2 WX1 . Aqui C é uma matriz

n × q cuja j-ésima coluna é o vetor de coeficientes da regressão linear (com

pesos W) da j-ésima coluna de X1 sobre X2 . Assim, R pode ser interpretado
como sendo uma matriz n×q de resı́duos. A j-ésima coluna de R corresponde

35
aos resı́duos ordinários da regressão linear (com pesos W) da j-ésima coluna
de X1 sobre X2 . Assim, o teste de escore fica reexpresso na forma (vide
Cordeiro, et al., 1993)
1 1
ξSR = r̂> > −1 >
P0 Ŵ0 X1 (R̂0 Ŵ0 R̂0 ) X1 Ŵ0 r̂P0 ,
2 2

0
com as quantidades r̂P0 , Ŵ0 e R̂0 sendo avaliadas em β̂ .
Para ilustrar o cálculo da estatı́stica de escore, supor um MLG com pre-
ditor linear dado por η = β1 + β2 cov2 + β3 cov3 + β4 cov4 e que o interesse
é testar H0 : β3 = β4 = 0. As matrizes X1 e X2 serão então dadas por
X1 = [cov3 , cov4 ] e X2 = [1 , cov2 ]. Para um modelo de Poisson, por exem-
plo com ligação canônica, tem-se que ω = µ. Logo, Ŵ0 = diag{µ̂01 , . . . , µ̂0n },
em que µ̂01 , . . . , µ̂0n são os pesos sob H0 , ou seja, os pesos do modelo ajustado
de Poisson com preditor linear η = β1 + β2 cov2 . Portanto, é preciso apenas
fazer esse ajuste e computar Ŵ0 , R̂0 , r̂P0 e finalmente ξSR . Chamando no R
os pesos por w, Ŵ0 por W, r̂P0 por rp e R̂0 por R, os passos para o cálculo de
ξSR são dados abaixo

X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm(resp ∼ cov2, family=poisson)
rp = resid(fit.poisson, type=‘‘pearson’’)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C

36
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.

Em particular, para o caso normal linear, C = (X> −1 >

2 X2 ) X2 X1 e rP =

(y − µ)/σ. Logo, ξSR = σ −2 (y − µ̂0 )> X1 (R> R)−1 X1 >(y − µ̂0 ), em que
R = X1 − X2 (X> −1 >
2 X2 ) X2 X1 = (In − H2 )X1 . Aqui, também as estatı́sticas

da razão de verossimilhanças e de Wald coincidem com a estatı́stica de escore.

Isso em geral vale para o modelo normal linear.
A estatı́stica de Wald fica, analogamente ao caso anterior, dada por

ξW = φ[β̂ 1 − β 01 ]> [R̂> ŴR̂][β̂ 1 − β 01 ].

O cálculo de R̂ segue os mesmos passos descritos para o cálculo do teste de

escore, com a única diferença de que os pesos sairão do ajuste do modelo com
todos os parâmetros. As mudanças nos comandos são as seguintes:
fit1.poissom = glm( resp ∼ cov2 + cov3 + cov4,
family=poisson)
w = fit1.poisson$weights
W = diag(w).
Sob H0 e para grandes amostras, tem-se que ξRV , ξW e ξSR ∼ χ2q .

φ desconhecido
No caso de φ ser desconhecido e o interesse for testar H0 : β 1 = β 01 contra
H1 : β 1 6= β 01 , as estatı́sticas ξRV , ξSR e ξW assumem formas diferentes
daquelas apresentadas para o caso de φ ser conhecido. Em particular, denote
por φ̂0 e φ̂ as estimativas de máxima verossimilhança de φ sob H0 e H1 ,
respectivamente. Para facilitar a notação da estatı́stica ξRV usa-se o resultado
c(y, φ) = d(φ) + φa(y) + u(y) válido para algumas distribuições da famı́lia
exponencial dada em (1.1) (por exemplo normal, gama e normal inversa), em

37
que a(·), d(·) e u(·) são funções diferenciáveis. Assim, a estatı́stica da razão
de verossimilhanças fica expressa na forma

ξRV = 2{φ̂t(µ̂) − φ̂0 t(µ̂0 )} + 2n{d(φ̂) − d(φ̂0 )},

Pn
em que t(µ) = i=1 {yi θi
− b(θi ) + a(yi )} e θi = θ(µi ). Para o modelo
gama, por exemplo, tem-se que t(µ) = ni=1 {log(yi /µi ) − yi /µi } e d(φ) =
P

φ log(φ) − log{Γ(φ)}. A estatı́stica de Wald fica, por sua vez, dada por
−1
ξW = [β̂ 1 − β 01 ]> V̂ar (β̂ 1 )[β̂ 1 − β 01 ]
= φ̂[β̂ 1 − β 01 ]> (R̂> ŴR̂)[β̂ 1 − β 01 ].

Já a estatı́stica de escore assume a forma

0 0
ξSR = Uβ1 (θ̂ )> V̂ar0 (β̂ 1 )Uβ1 (θ̂ )
1 1
= r̂> > −1 >
P0 Ŵ0 X1 (R̂0 Ŵ0 R̂0 ) X1 Ŵ0 r̂P0 ,
2 2

q
0 0>
em que r̂P0 = φ̂0 V̂0−1 (y − µ̂0 ) e θ̂ = (β̂ , φ̂0 )> é a estimativa de máxima
verossimilhança de θ sob H0 . As três estatı́sticas seguem assintoticamente e
sob H0 distribuição χ2q .

1.7.3 Modelo de análise de variância

Como ilustração supor o modelo de análise de variância balanceado com um
fator e dois grupos
g(µij ) = α + βi ,

em que i = 1, 2, j = 1, . . . , m, β1 = 0, β2 = β e φ é conhecido. Considere

as hipóteses H0 : β = 0 contra H1 : β 6= 0. Aqui X2 é um vetor 2m × 1 de
10 s enquanto X1 é um vetor 2m × 1 com 00 s nas m primeiras posições e 10 s
nas m restantes. Daı́ segue que X> >
2 WX2 = m(ω1 + ω2 ), X2 WX1 = mω2 ,

38
C = ω2 /(ω1 + ω2 ) e consequentemente
mω1 ω2
R> WR = ,
(ω1 + ω2 )
em que ω1 e ω2 são os pesos correspondentes aos dois grupos. A estatı́stica
de escore fica então dada por
m
!2
2 X 0
ξSR = r̂ ,
m j=1 P2j

em que r̂P0 2j , j = 1, . . . , m, são os resı́duos estimados de Pearson, sob H0 ,

1 1
correspondentes ao segundo grupo, sendo dados por r̂P0 2j = φ 2 (y2j − µ̂0 )/V̂02 .
Em particular, sob a hipótese nula, µ̂0 = ȳ. Assim, obtém-se a simplificação
φm
ξSR = (ȳ1 − ȳ2 )2 , (1.6)
2V̂0
em que ȳ1 e ȳ2 são as médias amostrais correspondentes aos dois grupos e
V̂0 = V (ȳ) é a função de variância sob a hipótese nula1 .

Tabela 1.4
Expressões para as estatı́sticas de escore e de Wald.
Distribuição ξSR ξW
m 2 m 2
Normal (ȳ − ȳ2 )
2σ 2 1 2σ 2
β̂

m mȳ1 ȳ2 2
Poisson (ȳ
2ȳ 1
− ȳ2 )2 (ȳ1 +ȳ2 )
β̂

2m β̂ 2 y1 (m−y1 )y2 (m−y2 )

Binomial (y
y(2m−y) 1
− y2 )2 m y1 (m−y1 )+y2 (m−y2 )

φm φm(ȳ1 ȳ2 )2 2
Gama (ȳ
2ȳ 2 1
− ȳ2 )2 (ȳ12 +ȳ22 )
β̂

φm φm(ȳ1 ȳ2 )3 2
Normal inversa (ȳ
2ȳ 3 1
− ȳ2 )2 (ȳ13 +ȳ23 )
β̂
1
no caso binomial tomar ȳi = yi /m e V (ȳ) = ȳ(1 − ȳ)

39
Similarmente, pode-se mostrar que a estatı́stica de Wald fica dada por
φmω̂1 ω̂2 2
ξW = β̂ , (1.7)
(ω̂1 + ω̂2 )

em que β̂ denota a estimativa de máxima verossimilhança de β. Na Tabela

1.4 são apresentadas as expressões das estatı́sticas ξSR e ξW para alguns casos
da famı́lia exponencial.

1.7.4 Regressão linear simples

Supor agora um MLG com parte sistemática na forma linear simples

g(µi ) = α + βxi , i = 1, . . . , n,

e as hipóteses H0 : β = 0 contra H1 : β 6= 0 com φ conhecido. Nesse caso

obtém-se Rj = (xj ni=1 ωi − ni=1 ωi xi )/ ni=1 ωi e R> WR = ni=1 ωi Ri2 .
P P P P
Pn
Consequentemente, R̂0j = xj − x̄ e R̂> 0 Ŵ0 R̂0 = ω̂0
2
i=1 (xi − x̄) . Aqui,

também obtém-se µ̂0 = ȳ.

A estatı́stica de escore fica, portanto, dada por
φ { ni=1 xi (yi − ȳ)}2
P
ξSR = Pn 2
, (1.8)
V̂0 i=1 (xi − x̄)

em que V̂0 = V (ȳ).

Similarmente, obtém-se para a estatı́stica de Wald
n
X
2
ξW = φβ̂ ω̂i R̂i2 , (1.9)
i=1

em que β̂ é a estimativa de β sob H1 .

1.7.5 Hipóteses restritas

Pode ser de interesse, em algumas situações práticas, testar hipóteses na
forma de igualdades lineares, isto é, H0 : Cβ = 0 contra H1 : Cβ 6= 0, em

40
que C é uma matriz k × p de posto linha completo e k ≤ p. A estimativa de
máxima verossimilhança sob a hipótese alternativa coincide com a estimativa
de máxima verossimilhança irrestrita β̂. No entanto, obter a estimativa de
máxima verossimilhança sob H0 pode ser mais complexo, requerendo o uso de
algum procedimento iterativo. Nyquist (1991) propõe um processo iterativo
para a obtenção da estimativa de máxima verossimilhança em MLGs com
parâmetros restritos na forma Cβ = 0. O processo iterativo é dado abaixo
(m+1) (m+1)
β (m+1)
c = β̃ − (X> W(m) X)−1 C> {C(X> W(m) X)−1 C> }−1 Cβ̃ ,
(m+1)
m = 0, 1, . . ., em que β̃ é (1.5) avaliado na estimativa restrita β (m)
c . A

matriz de variância-covariância assintótica de β̂ c fica dada por

Var(β̂ c ) = φ−1 (X> WX)−1 [In − C> {C(X> WX)−1 C> }−1 C(X> WX)−1 ].

Os testes estatı́sticos assumem formas similares aos testes do caso irrestrito.

Em particular, quando φ é conhecido, o teste da razão de verossimilhanças
fica dado por
ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 denota aqui a estimativa de máxima verossimilhança de µ sob

H0 : Cβ = 0. Já, o teste de escore, assume a forma

ξSR = φ−1 Uβ (β̂ c )> (X> Ŵ0 X)−1 Uβ (β̂ c ),

em que Ŵ0 é aqui avaliado em β̂ c . Finalmente, o teste de Wald fica dado

por

ξW = [Cβ̂ − 0]> [V̂ar(Cβ̂)]−1 [Cβ̂ − 0]

>
= φβ̂ C> [C(X> ŴX)−1 C> ]−1 Cβ̂.

Sob H0 e para amostras grandes, as estatı́sticas ξRV , ξW e ξSR seguem uma

distribuição χ2k . A distribuição nula assintótica dos testes acima para o caso

41
H0 : Cβ = 0 contra H1 − H0 , em que H1 : Cβ ≥ 0, é uma mistura de
distribuições do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs.

1.8 Bandas de confiança

1.8.1 Modelo normal linear
Uma banda de confiança de coeficiente 1−α pode ser construı́da para µ(z) =
z>β, ∀z ∈ IRp (ver, por exemplo, Casella e Strawderman, 1980). Tem-se que
β̂ − β ∼ Np (0, σ 2 (X> X)−1 ). Logo, uma banda de confiança de coeficiente
1 − α para a média µ(z), ∀z ∈ IRp , fica dada por
√ 1
z> β̂ ± σ cα {z> (X> X)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. É importante observar que z é

um vetor p × 1 que varia livremente no IRp enquanto X é uma matriz fixa
com os valores das variáveis explicativas.

1.8.2 Extensão para os MLGs

Uma banda assintótica de confiança de coeficiente 1 − α pode ser também
construı́da para µ(z) = g −1 (z>β), ∀z ∈ IRp (Piegorsch e Casella, 1988) ge-
neralizando os resultados da seção anterior. Assintoticamente tem-se que
β̂ − β ∼ Np (0, φ−1 (X> WX)−1 ). Logo, uma banda assintótica de confiança
de coeficiente 1 − α para o preditor linear z> β, ∀z ∈ IRp , fica dada por
p 1
z> β̂ ± φ−1 cα {z> (X> WX)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. Aplicando a transformação g −1 (·)

tem-se, equivalentemente, uma banda assintótica de confiança de coeficiente

42
1 − α para µ(z), dada por
p 1
g −1 [z> β̂ ± φ−1 cα {z> (X> WX)−1 z} 2 ] ∀z ∈ IRp .

Lembrando que z é um vetor p × 1 que varia livremente no IRp , enquanto X

é uma matriz fixa com os valores das variáveis explicativas. As quantidades
W e φ devem ser estimadas consistentemente.

1.9 Técnicas de diagnóstico modelo normal

linear
1.9.1 Introdução
Uma etapa importante na análise de um ajuste de regressão é a verificação
de possı́veis afastamentos das suposições feitas para o modelo, especialmente
para o componente aleatório e para a parte sistemática do modelo, bem como
a existência de observações discrepantes, que também podem ser classificadas
como atı́picas ou destoantes, que causam alguma interferência desproporci-
onal ou inferencial nos resultados do ajuste. Essas observações são classifi-
cadas em três tipos: alavanca, aberrante ou influente. Tal etapa, conhecida
como análise de diagnóstico, tem longa data, e começou com a análise de
resı́duos para detectar a presença de pontos aberrantes e avaliar a adequação
da distribuição proposta para a variável resposta.
Inicialmente será apresentada uma sı́ntese dessas metodologias para o mo-
delo normal linear, sendo estendidas posteriormente para os MLGs. Então,
considere o seguinte modelo de regressão normal linear:

yi = β1 xi1 + β2 x2i + . . . + βp xpi + i ,

iid
em que i ∼ N(0, σ 2 ), yi e xi1 , . . . , xip denotam, respectivamente, valores
observados da resposta e de variáveis explicativas, i = 1, . . . , n.

43
1.9.2 Pontos de alavanca
O resı́duo para a i-ésima observação pode ser definido como uma função do
tipo ri = r(yi , µ̂i ) que procura medir a discrepância entre o valor observado e
o valor ajustado da i-ésima observação. O sinal de ri indica a direção dessa
discrepância. A definição mais usual de resı́duo é dada por ri = yi − µ̂i
(resı́duo ordinário), todavia há outras formas de definir resı́duo que serão
discutidos mais adiante. O vetor de resı́duos ordinários é definido por r =
(r1 , . . . , rn )> . Logo, da regressão normal linear segue que r = y − µ̂ =
y − Hy = (In − H)y, em que H = X(X> X)−1 X> é a matriz de projeção
ortogonal de vetores do Rn no subespaço gerado pelas colunas da matriz X.
A matriz H é simétrica e idempotente e é conhecida como matriz hat,
uma vez que faz µ̂ = Hy. Por ser idempotente, tem-se que posto(H) =
Pn > > −1
tr(H) = i=1 hii = p. O elemento hii = xi (X X) xi desempenha um

papel importante na construção de técnicas de diagnóstico. Adicionalmente,

1 1
tem-se que n
≤ hii ≤ c
(ver, por exemplo, Cook e Weisberg, 1982), em que
c é o número de linhas de X idênticas a x>
i . O i-ésimo valor ajustado fica

então dado por

X
ŷi = hii yi + hji yj , (1.10)
i6=j

e pelo fato da matriz H ser idempotente

X
h2ij = hii (1 − hii ).
j6=i

Em particular, hii = 1 implica em ŷi = yi , todavia a recı́proca não é necessa-

riamente verdadeira. Logo, para valores altos de hii predomina na expressão
(1.10) a influência de yi sobre o correspondente valor ajustado. Assim, é
muito razoável utilizar hii como uma medida da influência da i-ésima ob-
servação sobre o próprio valor ajustado. Tem-se também que hii = ∂ ŷi /∂yi ,

44
ou seja, hii corresponde à variação em ŷi quando yi é acrescido de um infi-
nitésimo.
Supondo que todos os pontos exerçam a mesma influência sobre os valores
tr(H)
ajustados, pode-se esperar que hii esteja próximo de n
= np . Convém então
examinar, por exemplo, aqueles pontos tais que hii ≥ 2pn
, que são conhecidos
como pontos de alavanca ou de alto leverage e geralmente estão localizados
em regiões remotas no subespaço gerado pelas colunas da matriz X. Esses
pontos podem ser também informativos com relação a β̂.
Uma outra maneira de entender hii é construindo a matriz Jacobiana de
alavancas (ver, por exemplo, St. Laurent e Cook, 1993) quando a i-ésima
observação é perturbada de modo que o novo valor observado seja dado por
yi (b) = yi + b, em que b é uma constante real. O novo vetor de valores
ajustados fica dado por

ŷ(b) = X(X> X)−1 X> y(b),

em que y(b) = (y1 , . . . , yi−1 , yi + b, yi+1 , . . . , yn )> . A matriz Jacobiana de

alavancas é definida por
1
J(b) = lim {ŷ(b) − ŷ},
b→0 b

e representa a variação no vetor de valores ajustados sob uma variação infi-

nitesimal no i-ésimo valor observado. Pode-se verificar que

J(b) = X(X> X)−1 X> f = Hf ,

em que f é um vetor n×1 de zeros com o valor 1 na i-ésima posição. Portanto,

tem-se que hii representa a variação no valor predito da i-ésima observação
quando o valor observado é acrescido de um infinitésimo.
Para ilustrar como são obtidos os valores hii no R, supor um modelo
normal linear de variável resposta resp, fatores A e B e covariáveis cov1 e

45
cov2 e que os resultados do ajuste são armazenadas em fit.model. Esse
modelo pode ser ajustado de duas formas
fit.model = lm(resp ∼ A + B + cov1 + cov2)
ou, alternativamente, como um MLG
fit.model = glm(resp ∼ A + B + cov1 + cov2,
family=gaussian).
É claro que a primeira maneira é mais simples. Para gerar a matriz modelo
(incluindo a constante) deve-se considerar
X = model.matrix(∼ A + B + cov1 + cov2).
Assim, tem-se em X a matriz modelo correspondente. O cálculo da matriz
de projeção H pode ser feito seguindo os passos descritos abaixo
H = X% ∗ %solve(t(X)% ∗ %X)% ∗ %t(X).
Logo, pode-se obter hii extraindo os elementos da diagonal principal de H
h = diag(H).
Outras maneiras mais ágeis de extrair os elementos h0ii s de uma regressão
linear são através dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construir um gráfico de ı́ndices para hii , a fim de detectar pontos de
alavanca, deve-se usar o comando
plot(h, xlab=‘‘Índice’’, ylab= ‘‘Alavanca’’).

1.9.3 Resı́duos
Dos resultados descritos na seção anterior segue que E(r) = (In −H)E(Y) = 0
e Var(r) = σ 2 (In − H). Isto é, ri tem distribuição normal de média zero e
variância Var(ri ) = σ 2 (1 − hii ). Além disso, a covariância entre ri e rj , i 6= j,
fica dada por Cov(ri , rj ) = −σ 2 hij .

46
Como os ri0 s têm variâncias diferentes, é conveniente expressá-los em
forma padronizada a fim de ser possı́vel uma comparação entre os mesmos.
Uma definição natural seria dividir ri pelo respectivo desvio padrão. Obtém-
se assim o resı́duo studentizado
ri
ti = p , i = 1, . . . , n,
s(1 − hii )
Pn
em que s2 = 2
i=1 ri /(n − p).
No entanto, como ri não é independente de s2 , ti não segue uma dis-
tribuição t de Student como se poderia esperar. Cook e Weisberg (1982)
1
mostram que t2i /(n − p) segue uma distribuição beta com parâmetros 2
e
(n − p − 1)/2. Logo, tem-se que E(ti ) = 0, Var(ti ) = 1 e Cov(ti , tj ) =
p
−hij / (1 − hii )(1 − hjj ), i < j. O problema da dependência entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrático médio cor-
respondente ao modelo sem a i-ésima observação. O ı́ndice (i) indica que a
i-ésima observação foi excluı́da. Mostra-se que

(n − p)s2 (n − p − 1)s2(i) ri2

= + ,
σ2 σ2 σ 2 (1 − hii )
e daı́ segue pelo teorema de Fisher-Cochran (ver, por exemplo, Rao, 1973,
p.185) a independência entre s2(i) e ri2 . Além disso, tem-se que
n
X ri2
(n − p − 1)s2(i) = rj2 −
j=1
(1 − hii )

e daı́ segue, após alguma álgebra, que

n − p − t2i

2 2
s(i) = s . (1.11)
n−p−1
Assim, fica fácil mostrar que o novo resı́duo studentizado
r
t∗i = √ i
s(i) 1 − hii

47
segue uma distribuição tn−p−1 . Se ainda (1.11) fou substituı́do na expressão
acima mostra-se que t∗i é uma transformação monótona de ti ,
12
n−p−1
t∗i = ti .
n − p − t2i
O resı́duo ti pode ser calculado pela sequência de comandos
lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/s*sqrt(1-h).
Logo, o resı́duo t∗i fica dado por
tsi = ti*sqrt((n-p-1)/(n-p-ti2 )).
Deve-se substituir n e p pelos respectivos valores numéricos.
Várias quantidades do modelo linear normal ajustado podem ser obtidas
diretamente no R através do uso de algumas funções apropriadas, as quais
são úteis na aplicação das técnicas de diagnóstico. Há um resumo na Tabela
1.5 de alguns casos.

Tabela 1.5
Quantidades úteis para diagnóstico obtidas no R.
Sı́mbolo Descrição Função Elemento
h Alavanca lm.influence() hat
β̂ Coeficientes coef()
r Resı́duos resid()
s Desvio padrão summary() sigma
amostral
s(i) Desvio padrão lm.influence() sigma
sem observação i
β̂ (i) Coeficiente sem lm.influence() coef
observação i
(X> X)−1 Covariância de β̂ summary() cov.unscaled
2
sem s

48
Como ilustração, supor um ajuste com resultados no objeto fit.model
e que o interesse é obter a estimativa do desvio padrão da variável res-
posta Yi sem considerar a i-ésima observação. Aplicando em R a função
lm.influence(fit.model)$sigma obtém-se um vetor de dimensão n com
todas as estimativas do desvio padrão de Yi excluindo cada observação cor-
respondente. Como é mostrado a seguir o resı́duo t∗i pode ser interpretado
como uma estatı́stica para avaliar se a i-ésima observação é aberrante.

1.9.4 Outra interpretação para t∗i

Supor que o i-ésimo ponto é suspeito de ser aberrante. Essa hipótese pode
ser testada através do modelo

yj = β1 + β2 x2j + . . . + βp xpj + ωj γ + j , (1.12)

j = 1, . . . , n, em que ωj = 1 para j = i e ωj = 0 em caso contrário.

Usando resultados da Seção 1.4.2 pode-se mostrar que, sob a hipótese
H0 : γ = 0, o acréscimo na soma de quadrados de resı́duos é dado por

D(y; µ̂0 ) − D(y; µ̂) = γ̂ 2 (1 − hii ),

0
em que γ̂ = ri (1 − hii )−1 e ri = yi − x>
i β̂. Assim, uma vez que D(y; µ̂ ) =

(n − p)s2 , a estatı́stica F para testar H0 : γ = 0 contra H1 : γ 6= 0 fica dada

por
γ̂ 2 (1 − hii )
F= n o .
r2
(n − p)s2 − (1−hi ii ) /(n − p − 1)
A estatı́stica F segue, sob H0 , distribuição qui-quadrado com 1 grau de li-
berdade. Trabalhando um pouco a expressão acima chega-se ao seguinte
resultado:
ri2 (n − p − 1)
F= = t∗2
i .
s2 (1 − hii )(n − p − t2i )

49
Portanto, valores altos para |t∗i | indicam, significativamente, que o i-ésimo
ponto é aberrante.

1.9.5 Influência
Supor φ conhecido. Então, o logaritmo da função de verossimilhança fica
agora expresso na forma
n
X
Lδ (β) = δj Lj (β), (1.13)
j=1

em que Lj (β) denota o logaritmo da função de verossimilhança correspon-

dente à j-ésima observação e δj é um tipo de perturbação, definida tal que
0 ≤ δj ≤ 1. Quando δj = 1, ∀j, significa que não há perturbação no modelo
e quando δj = 0 significa que a j-ésima observação foi excluı́da.
A estimativa de mı́nimos quadrados para β fica, supondo a estrutura
(1.13), dada por
β̂ δ = (X> ∆X)−1 X> ∆y,

em que ∆ = diag{δ1 , . . . , δn }. Em particular, quando apenas a i-ésima

observação é perturbada, isto é, quando δi = δ e δj = 1 para j 6= i, obtém-se

(1 − δ)ri
β̂ δ = β̂ − (X> X)−1 xi . (1.14)
{1 − (1 − δ)hii }

Para δ = 0, significa que o i-ésimo ponto foi excluı́do, então (1.14) fica
expressa na forma simplificada
ri
β̂ (i) = β̂ − (X> X)−1 xi , (1.15)
(1 − hii )

que é bastante conhecida da regressão normal linear (ver, por exemplo, Cook
e Weisberg, 1982).

50
A medida de influência mais conhecida é baseada na região de confiança
de coeficiente (1 − α) para o parâmetro β,

(β̂ − β)> (X> X)(β̂ − β) ≤ ps2 Fp,(n−p) (1 − α),

que para o caso de p = 2 é um elipsóide no R2 centrado em β̂. Tal medida,

conhecida como distância de Cook, é definida por

(β̂ − β̂ δ )> (X> X)(β̂ − β̂ δ )

Dδ = , (1.16)
ps2

e mede quanto a perturbação δ = (δ1 , . . . , δn )> afasta β̂ δ de β̂, segundo a

métrica M = X> X. Por exemplo, se Dδ > Fp,(n−p) (1 − α), significa que
a perturbação está deslocando o contorno do elipsóide para um contorno
correspondente a um nı́vel de significância menor do que α.
Em particular, quando o i-ésimo ponto é excluı́do, a distância de Cook
fica expressa na forma

(β̂ − β̂ (i) )> (X> X)(β̂ − β̂ (i) )

Di =
ps2
( )2
ri hii 1
= 1
s(1 − hii ) 2 (1 − hii ) p
hii 1
= t2i .
(1 − hii ) p
Portanto, Di será grande quando o i-ésimo ponto for aberrante (ti grande)
e/ou quando hii for próximo de um. A distância de Cook pode ser calculada
da seguinte maneira:
di = (ti2 )*h/(p*(1-h)).
A distância Di poderá não ser adequada quando ri for grande e hii for pe-
queno. Nesse caso, s2 pode ficar inflacionado e não ocorrendo nenhuma

51
compensação por parte de hii , Di pode ficar pequeno. Uma medida mais
apropriada foi proposta por Belsley et al.(1980), definida por
12
|ri | hii
DFFITSi = 1
s(i) (1 − hii ) 2 (1 − hii )
12
hii
= |t∗i | .
(1 − hii )
O DFFITSi é calculado conforme abaixo
dfit = abs(tsi)*sqrt(h/(1-h)).
Como o valor esperado de hii é np , é razoável dar mais atenção àqueles pontos
tais que
12
p
DFFITSi ≥ 2 .
(n − p)
Aparentemente Di e DFFITSi seriam medidas de influência competitivas,
uma vez que DFFITSi parece ser mais adequada para avaliar a influência
nas estimativas dos coeficientes de um ponto aberrante com hii pequeno.
No entanto, como mostram Cook et al.(1988) Di e DFFITSi medem coi-
sas diferentes. Ambas podem ser expressas a partir da medida mais ge-
ral de influência denominada afastamento pela verossimilhança (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida Di mede
essencialmente a influência das observações nos parâmetros de posição, en-
quanto DFFITSi tem o propósito de medir a influência das observações nos
parâmetros de posição e escala. Como é pouco provável que um ponto com
ri alto e hii pequeno seja influente nas estimativas dos coeficientes, o uso de
Di não compromete a detecção de observações influentes. Cook et al.(1988)
observam também que DFFITSi não é um medida completa de influência nos
parâmetros de posição e escala simultaneamente, podendo falhar em algumas
situações. Uma medida mais geral nesse caso é proposta pelos autores.

52
Atkinson (1985) propôs uma outra medida de influência que é um aper-
feiçoamento do DFFITSi , definida por
12
(n − p) hii
Ai = |t∗i |.
p (1 − hii )

Aqui, quando o experimento for balanceado, isto é, todos os h0ii s forem iguais,
obtemos Ai = |t∗i |. A vantagem de Ai é que a mesma pode ser utilizada em
gráficos normais de probabilidade.

1.9.6 Ilustração
As Figuras 1.4a-1.4d ilustram as diferenças entre pontos aberrantes, de ala-
vanca e influentes. Na Figura 1.4a tem-se os pontos alinhados sem nenhum
tipo de perturbação. Na Figura 1.4b perturba-se o ponto #3 fazendo-o aber-
rante. Note que a exclusão do mesmo (reta pontilhada) altera apenas o
intercepto, isto é, os valores ajustados. É um ponto que não está muito
afastado dos demais, logo tem um valor para hii relativamente pequeno. Já
na Figura 1.4c, perturba-se o ponto #5 de modo que o mesmo fique mais
afastado no subespaço gerado pelas colunas da matriz X. É um ponto de
alavanca, todavia a eliminação do mesmo não muda praticamente nada nas
estimativas dos parâmetros. Como é um ponto com hii relativamente alto, as
variâncias dos valores ajustados dos pontos próximos ao mesmo serão mai-
ores do que as variâncias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturba-se novamente o ponto #5
fazendo-o agora influente e também alavanca. O mesmo, além de mudar a
estimativa da inclinação da reta ajustada, continua mais afastado do que os
demais.
As possı́veis situações discutidas acima, quando detectadas num ajuste de
regressão, devem ser examinadas cuidadosamente antes de qualquer decisão.

53
Encontrar razões que expliquem o fato dos pontos terem um comportamento
atı́pico com relação aos demais pontos podem ajudar a entender melhor a
relação entre as variáveis explicativas e o fenômeno sob investigação como
também a traçar uma estratégia de utilização do modelo ajustado, que não
necessariamente implica na eliminação de tais pontos.
5

5
3
4

4
3

3
y

y
2

2
1

1 2 3 4 5 1 2 3 4 5

x x
(a) (b)

5 5
7

8
6
5

6
y

y
4

4
3
2

2
1

1 2 3 4 5 6 7 1 2 3 4 5 6 7

x x
(c) (d)

Figura 1.4: Ilustração de pontos aberrantes, influentes e de alavanca.

Mudanças na distribuição postulada para a variável resposta, inclusão ou

retirada de variáveis explicativas ou mesmo transformações de variáveis expli-
cativas podem atenuar a influência de observações atı́picas. Outra alternativa
é a aplicação de procedimentos robustos (vide, por exemplo, Montgomery

54
et al., 2021, Cap.15). Uma estratégia interessante é diferenciar mudanças
numéricas de mudanças inferenciais nas estimativas quando as abservaçõeas
atı́picas não são consideradas no ajuste.

1.9.7 Influência local

Um dos métodos mais modernos de diagnóstico foi proposto por Cook (1986).
A ideia básica consiste em estudar o comportamento de alguma medida par-
ticular de influência segundo pequenas perturbações (influ^
encia local)
nos dados ou no modelo. Isto é, verificar a existência de pontos que sob
modificações modestas no modelo causam variações desproporcionais nos re-
sultados.
Pode-se, por exemplo, querer avaliar a influência que pequenas mudanças
nas variâncias das observações causam nas estimativas dos parâmetros. Nesse
caso, pode-se utilizar a distância de Cook como medida de referência. Por ou-
tro lado, se o interesse é estudar a influência local das observações no ajuste,
a sugestão de Cook é perturbar as covariáveis ou a variável resposta e utili-
zar alguma medida adequada para quantificar a influência das observações.
Como ilustração, supor que uma variável explicativa que representa uma
distância particular é perturbada localmente e detecta-se através de uma
medida de influência que pontos com distâncias altas produzem variações
acentuadas na medida adotada. Isso sugere que a variável explicativa sob
estudo é bastante sensı́vel para valores altos, podendo não ser uma boa pre-
ditora nesses casos. A seguir é descrito o procedimento de influência local.

Curvatura normal
Para formalizar o método de influência local denote por L(θ) o logaritmo da
função de verossimilhança do modelo postulado e θ um vetor r-dimensional.

55
No caso de MLGs pode-se ter θ = (β > , φ)> e r = p+1 ou simplesmente θ = β
quando φ for conhecido. Seja δ um vetor q × 1 de perturbações, restritas a
um conjunto aberto Ω ⊂ IRq . Em geral tem-se q = n. As perturbações
são feitas no logaritmo da verossimilhança de modo que o mesmo assume
a forma L(θ|δ). Denotando o vetor de não perturbação por δ 0 , tem-se que
L(θ|δ 0 ) = L(θ). A fim de verificar a influência das perturbações na estimativa
de máxima verossimilhança θ̂, considere o afastamento pela verossimilhança

LD(δ) = 2{L(θ̂) − L(θ̂ δ )},

em que θ̂ δ denota a estimativa de máxima verossimilhança sob o modelo

L(θ|δ). Com a definição acima tem-se que LD(δ) ≥ 0.
A ideia de influência local consiste basicamente em estudar o comporta-
mento da função LD(δ) em torno de δ 0 . O procedimento procura selecionar
uma direção unitária `, k ` k= 1, e então estudar o gráfico de LD(δ 0 + a`)
contra a, em que a ∈ IR. Esse gráfico é conhecido como linha projetada. Em
particular, tem-se que LD(δ 0 ) = 0, assim LD(δ 0 + a`) tem um mı́nimo local
em a = 0. Cada linha projetada pode ser caracterizada por uma curvatura
normal C` (θ) em torno de a = 0. Essa curvatura é interpretada como sendo
o inverso do raio do melhor cı́rculo ajustado em a = 0. Uma sugestão é
considerar a direção `max que corresponde à maior curvatura denotada por
C`max . Por exemplo, o gráfico de |`max | contra a ordem das observações pode
revelar quais observações que sob pequenas perturbações exercem uma in-
fluência desproporcional em LD(δ). Cook(1986) usa conceitos de geometria
diferencial para mostrar que a curvatura normal na direção ` assume a forma

C` (θ) = 2|`> ∆> L̈−1

θ̂θ̂
∆`|,

em que −L̈θ̂θ̂ é a matriz de informação observada enquanto ∆ é uma matriz

r × q com elementos ∆ij = ∂ 2 L(θ|δ)/∂θi ∂δj , avaliados em θ = θ̂ e δ = δ 0 ,

56
i = 1, . . . , r e j = 1, . . . , q.
Tem-se que o máximo de `> B`, em que B = ∆> (−L̈θ̂θ̂ )−1 ∆, corresponde
ao maior autovalor (em valor absoluto) de B. Portanto, C`max corresponde
ao maior autovalor da matriz B e `max denota o autovetor correspondente.
Assim, o gráfico de |`max | contra a ordem das observações pode revelar
aqueles pontos com maior influência na vizinhança de LD(δ0 ). Tais pon-
tos podem ser responsáveis por mudanças substanciais nas estimativas dos
parâmetros sob pequenas perturbações no modelo ou nos dados. Seria, por-
tanto, prudente olhar com mais cuidado esses pontos a fim de entender me-
lhor a influência dos mesmos e consequentemente tentar propor uma forma
segura de usar o modelo ajustado. Quando C`max não for muito maior do que
o segundo autovalor, pode ser informativo olhar também os componentes do
segundo autovetor. É provável, nesse caso, que o segundo autovetor destaque
algum tipo de influência particular das observações nas estimativas. O maior
autovalor da matriz B pode ser obtido pelo comando abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor abso-
luto é obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Gráficos alternativos, tais como de C`i contra a ordem das observações, em
que `i denota um vetor n × 1 de zeros com um na i-ésima posição têm sido
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
Nesse caso deve-se padronizar Ci = Ci / nj=1 Cj . Uma sugestão é olhar com
P

mais atenção aqueles pontos tais que Ci > C̄ + kDP{Ci )}, para k = 1, 2, 3
dependendo do tamanho amostral, em que C̄ = n1 ni=1 Ci .
P

Por outro lado, se o interesse está num subvetor θ 1 de θ = (θ > > >
1 , θ2 ) ,

57
então a curvatura normal na direção ` fica dada por

C` (θ 1 ) = 2|`> ∆> (L̈−1

θ̂θ̂
− B1 )∆`|,

sendo !
0 0
B1 = −1 ,
0 L̈θ̂ θ̂
2 2

com −L̈θ̂2 θ̂2 denotando a matriz de informação observada para θ 2 . O gráfico

do maior autovetor de ∆> (L̈−1
θ̂θ̂
− B1 )∆ contra a ordem das observações pode
revelar os pontos com maior influência local em θ̂ 1 .
Poon e Poon (1999) propoêm uma variação da medida de curvatura nor-
mal de Cook, a qual denominam curvatura normal conformal, que é invariante
com mudanças de escala e é definida no intervalo unitário. Vários gráficos
novos de influência são propostas, em particular uma forma de agregar as
direções de maior curvatura em medidas resumo de influência.

Ponderação de casos
Para ilustrar uma aplicação particular considere o modelo normal linear com
σ 2 conhecido e esquema de perturbação ponderação de casos, em que
n
1 X
L(β|δ) = − 2 δi (yi − x>
i β)
2
2σ i=1

com 0 ≤ δi ≤ 1. A matriz ∆ nesse caso fica dada por X> D(r)/σ 2 em que
D(r) = diag{r1 , . . . , rn } com ri = yi −ŷi . Logo, desde que L̈ββ = −σ −2 (X> X)
a curvatura normal na direção unitária ` fica dada por
2 >
C` (β) = |` D(r)HD(r)`|,
σ2
com H = X(X> X)−1 X> . Portanto, `max é o autovetor correspondente ao
maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se for

58
considerada a direção `i correspondente à i-ésima observação, a curvatura
2
normal assume a forma simplificada Ci = h r2 .
σ 2 ii i
Os gráficos de ı́ndices de
`max e Ci podem revelar aquelas observações mais sensı́veis ao esquema de
perturbação adotado.
Cálculos similares para σ 2 desconhecido levam ao seguinte ∆ = (∆> > >
1 , ∆2 )

em que ∆1 = X> D(r)/σ̂ 2 e ∆2 = r(2)> /2σ̂ 4 com r(2)> = (r12 , . . . , rn2 ) e

−L̈θ̂θ̂ = diag{X> X/σ̂ 2 , n/2σ̂ 4 }. Logo, a curvatura normal na direção unitária
` fica dada por
2 >
C` (θ) = 2
|` {D(r)HD(r) + r(2) r(2)> /2nσ̂ 2 }`|.
σ̂
Quando o interesse é verificar a influência local das observações na esti-
mativa de um coeficiente particular β1 deve-se considerar a curvatura normal
C` (β1 ) = 2|`> B`|, em que

B = D(r)X{(X> X)−1 − B1 }X> D(r)

sendo B1 = diag{0, (X> −1

2 X2 ) } com X2 saindo da partição X = (X1 , X2 ).

Aqui X1 é um vetor n × 1 correspondente à variável explicativa sob estudo e

X2 é uma matriz n × (p − 1) correspondente às demais variáveis explicativas.
Cook (1986) mostra que `max , nesse caso, assume a forma
!
vr v r
`>
max = p 1 1 ,..., pn n ,
C`max C`max
em que v1 , . . . , vn são os resı́duos ordinários da regressão linear de X1 sobre as
colunas de X2 , ou seja, o vetor v = (v1 , . . . , vn )> é dado por v = (In −H2 )X1 ,
H2 = X2 (X> −1 >
2 X2 ) X2 . Aqui, a matriz B tem posto m = 1. Logo, há

apenas um autovalor diferente de zero. Nesse caso, pode-se tanto utilizar

o procedimento descrito acima para calcular `max como obtê-lo diretamente
sem precisar calcular a matriz H2 . Como ilustração, supor que os resultados

59
do ajuste estão armazenados em fit.model. Para extrair o vetor r pode-se
aplicar o comando
r = resid(fit.model).
Se o modelo tem as covariáveis cov1 e cov2 além dos fatores A e B, o vetor
`max correspondente, por exemplo à covariável cov1, sai de
fit = lm(cov1 ∼ A + B + cov2 - 1)
v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).

1.9.8 Gráfico da variável adicionada

Supor novamente o modelo de regressão dado em (1.12), em que ω é agora
uma variável adicional quantitativa. Definindo Z = (X, ω), pode-se mostrar
facilmente que a estimativa de mı́nimos quadrados de θ = (β > , γ)> é dada
por θ̂ = (Z> Z)−1 Z> y. Em particular obtém-se, após alguma álgebra, que

ω > (In − H)y

γ̂ =
ω > (In − H)ω
ω>r
= .
ω > (In − H)ω
Isto é, γ̂ é o coeficiente da regressão linear passando pela origem do vetor de
resı́duos r = (In − H)y sobre o novo resı́duo υ = (In − H)ω, dado por

γ̂ = (υ > v)−1 υ > r

= {ω > (In − H)(In − H)ω}−1 ω > (In − H)(In − H)y
ω > (In − H)y
= .
ω > (In − H)ω

60
Portanto, um gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação e quais observações que estão se desviando da mesma. Esse gráfico,
conhecido como gráfico da variável adicionada, pode revelar quais pontos que
estão influenciando (e de que maneira) a inclusão da nova variável no modelo.
Para ilustrar a construção do gráfico da variável adicionada, supor nova-
mente o modelo com duas covariáveis e dois fatores. O gráfico da variável
adicionada para avaliar a influência das observações no coeficiente de cov1,
pode ser construı́do com os comandos
fit = lm(resp ∼ cov2 + A + B)
r = resid(fit)
fit1 = lm(cov1 ∼ cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= ‘‘residuo v’’, ylab= ‘‘residuo r’’).

1.9.9 Técnicas gráficas

Os seguintes gráficos são recomendados para avaliar afastamentos importan-
tes das suposições feitas para o modelo normal linear, bem como a presença de
observações atı́picas: (i) pontos aberrantes, o gráfico de t∗i contra a ordem das
observações e o gráfico normal de probabilidades para t∗i ; (ii) variância não
constante, o gráfico de t∗i contra ŷi (valor ajustado); (iii) pontos influentes,
gráficos de Di , Ci , DFFITSi , hii ou |`max | contra a ordem das observações; (iv)
falta de algum termo extra numa variável explicativa quantitativa, gráfico da
variável adicionada; (v) correlação entre as observações, gráfico de t∗i contra
o tempo ou contra a ordem em que há suspeita de correlação, e (vi) afasta-
mentos da normalidade, gráfico normal de probabilidades. Esse último é o
gráfico dos valores dos quantis amostrais t∗(1) ≤ · · · ≤ t∗(n) contra os valores

61
0
esperados das estatı́sticas de ordem da normal padrão, Z(i) s. Tem-se que
i − 38

∼
E(Z(i) ) = Φ −1
,
n + 14
em que Φ(·) é a função de distribuição acumulada da N(0, 1). Portanto, na
prática, é o gráfico dos quantis amostrais do resı́duo t∗(i) contra os quantis
teóricos da normal padrão.
Há também o gráfico meio-normal de probabilidades, definido como sendo
o gráfico de |t∗(i) | contra os valores esperados de |Z(i) |. Tem-se a aproximação

∼ −1 n + i + 1/2
E(|Z(i) |) = Φ .
2n + 9/8
Em particular, o gráfico de Ai contra E(|Z(i) |) pode ser indicado para detec-
tarmos simultaneamente pontos aberrantes e/ou influentes. O gráfico normal
de probabilidades com a reta ajustada pode ser construı́do com os comandos
dados abaixo
qqnorm(tsi , ylab= ‘‘Residuo Studentizado’’)
qqline(tsi).
O comando qqline() traça uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resı́duos e da distribuição normal padrão. Devido
à dificuldade de avaliar se o gráfico normal de probabilidades se afasta efetiva-
mente da reta ajustada, a construção de um tipo de banda de confiança para
os resı́duos pode ser muito útil para detectar afastamentos importantes da
normalidade. Esse gráfico pode também ser informativo sobre a existência
de pontos discrepantes ou mesmo sobre a falta de linearidade. Todavia,
como a distribuição conjunta das estatı́sticas de ordem dos resı́duos t∗(i) 0 s
é bastante complicada e o uso simples das variâncias dos t∗i 0 s para a cons-
trução de tais bandas pode introduzir algum viés no cálculo do coeficiente de
confiança, Atkinson (1985) sugere a construção de um tipo de banda de con-
fiança através de simulações, a qual denominou envelope. O procedimento

62
consiste basicamente em gerar resı́duos que tenham média zero e matriz de
variância-covariância (In − H). O método é descrito a seguir.

1. Gerar n observações N(0, 1) as quais são armazenadas em y = (y1 , . . . , yn )> .

2. Ajustar y contra X e obter ri = yi − ŷi . Tem-se que E(ri ) = 0, Var(ri ) =

1 − hii e Cov(ri , rj ) = −hij , para i, j = 1, . . . , n.

3. Obter t∗i = √ ri , i = 1, . . . , n.
1−hii

4. Repetir os passos (1)-(3) m vezes. Logo, tem-se os resı́duos gerados t∗ij ,

i = 1, . . . , n e j = 1, . . . , m.

5. Colocar cada grupo de n resı́duos em ordem t∗(1)j ≤ · · · ≤ t∗(n)j , j =

1, . . . , m.

6. Obter os limites t∗(i)I = min{t∗(i)1 , . . . , t∗(i)m } e t∗(i)S = max{t∗(i)1 , . . . , t∗(i)m } e

a mediana t∗(i)M = mediana{t∗(i)1 , . . . , t∗(i)m }. Assim, os limites e a medi-
ana correspondentes ao i-ésimo resı́duo serão, respectivamente, dados
por t∗(i)I , t∗(i)S e t∗(i)M , i = 1, . . . , n.

7. Juntar (t∗(1)I , . . . , t∗(n)I ), (t∗(1)M , . . . , t∗(n)M ) e (t∗(1)S , . . . , t∗(n)S ) formando, res-

pectivamente, o limite superior, a mediana e o limite inferior do enve-
lope.

A sugestão de Atkinson (1985) é gerar m = 19 vezes. Desse modo, a

probabilidade do maior resı́duo de um envelope particular exceder o limite
superior fica sendo ∼
= 1/20. Programa descrito em Everitt (1994) é adaptado
para a geração dos envelopes de um modelo de regressão normal linear consi-
derando m = 100. Para rodar o programa é preciso apenas colocar o modelo
ajustado em fit.model. Daı́, deve-se fazer
source(‘‘envel norm’’)

63
em que envel norm é o nome do arquivo externo onde deve estar o programa
para geração dos gráficos (ver Apêndice B).

1.10 Técnicas de diagnóstico MLGs

1.10.1 Pontos de alavanca
Como já foi mencionado na Seção 1.9.2 a ideia principal que está por trás do
conceito de ponto de alavanca é de avaliar a influência de yi sobre o próprio
valor ajustado ŷi . Essa influência pode ser bem representada pela derivada
∂ ŷi /∂yi que coincide, como foi visto na Seção 1.9.2, com hii no caso normal
linear. Wei et al.(1998) propuseram uma forma geral para a obtenção da
matrix (∂ ŷ/∂y> )n×n quando a resposta é contı́nua e que pode ser aplicada
em diversas situações de estimação. No caso de MLGs, para φ conhecido, a
matriz ∂ ŷ/∂y> pode ser obtida da forma geral

c = ∂ ŷ = {Dβ (−L̈ββ )−1 L̈βy }| ,

GL β̂
∂y>
em que Dβ = ∂µ/∂β, L̈ββ = ∂ 2 L(β)/∂β∂β > e L̈βy = ∂ 2 L(β)/∂β∂y> . Tem-
se que
Dβ = NX e L̈βy = φX> V−1 N,

em que N = diag{dµ1 /dη1 , . . . , dµn /dηn }. Substituindo −L̈ββ pelo seu valor
esperado φ(X> WX), obtém-se aproximadamente

c ∼
GL = N̂X(X> ŴX)−1 X> V̂−1 N̂.

Assim, o elemento GL
c ii pode ser expresso na forma

c ii ∼
GL = ω̂i x> > −1
i (X ŴX) xi ,

em que ωi = (dµi /dηi )2 /Vi . Em particular, para ligação canônica em que

−L̈ββ = φ(X> VX) obtém-se exatamente GL c = V̂X(X> V̂X)−1 X> .

64
Outra definição de pontos de alavanca que tem sido utilizada na classe
dos MLGs, embora não coincida exatamente com a expressão acima, exceto
no caso de resposta contı́nua e ligação canônica, é construı́da fazendo uma
analogia entre a solução de máxima verossimilhança para β̂ num MLG e a
solução de mı́nimos quadrados de uma regressão normal linear ponderada.
Considerando a expressão para β̂ obtida na convergência do processo itera-
tivo dado em (1.5), tem-se que

β̂ = (X> ŴX)−1 X> Ŵẑ,

1 1
com ẑ = η̂ + Ŵ− 2 V̂− 2 (y − µ̂). Portanto, β̂ pode ser interpretado como
1
sendo a solução de mı́nimos quadrados da regressão linear de Ŵ 2 ẑ contra as
1
colunas de Ŵ 2 X. A matriz de projeção da solução de mı́nimos quadrados
da regressão linear de ẑ contra X com pesos Ŵ fica dada por
1 1
Ĥ = Ŵ 2 X(X> ŴX)−1 X> Ŵ 2 ,

que sugere a utilização dos elementos ĥii da diagonal principal de Ĥ para

detectar a presença de pontos de alavanca nesse modelo de regressão nor-
mal linear ponderada. Essa extensão para MLGs foi proposta por Pregibon
(1981). Pode-se verificar facilmente que ĥii = GL
c ii , ou seja, para grandes
amostras GL
c e Ĥ coincidem. No caso de ligação canônica essa igualdade
vale para qualquer tamanho amostral. Como em geral ĥii depende de µ̂ii é
sugerido para detectar pontos de alavanca o gráfico de ĥii contra os valores
ajustados.
Moolgavkar et al.(1984) estendem a proposta de Pregibon para modelos
não lineares e sugerem o uso dos elementos da diagonal principal da matriz
de projeção no plano tangente à solução de máxima verossimilhança µ(β̂)
para detectar pontos de alavanca. Hosmer et al.(2013) mostram, contudo,
que o uso da diagonal principal da matriz de projeção Ĥ deve ser feito com

65
algum cuidado em regressão logı́stica e que as interpretações são diferentes
daquelas do caso normal linear.

1.10.2 Resı́duos
A definição de um resı́duo studentizado para os MLGs pode ser feita analo-
gamente à regressão normal. Todavia, não necessariamente as propriedades
continuam valendo. Assim, torna-se importante a definição de outros tipos
de resı́duo cujas propriedades sejam conhecidas ou pelo menos estejam mais
próximas das propriedades de t∗i .
Uma primeira proposta seria considerar o resı́duo ordinário da solução
de mı́nimos quadrados da regressão linear ponderada de ẑ contra X, que é
definido por

1 1
r∗ = Ŵ 2 (ẑ − η̂) = V̂− 2 (y − µ̂).

Assumindo que Var(z) ∼

= Ŵ−1 φ−1 , tem-se aproximadamente

Var(r∗ ) ∼
= φ−1 (In − Ĥ).

Logo, pode-se definir o resı́duo padronizado

√
φ(yi − µ̂i )
tSi = q ,
V̂i (1 − ĥii )

em que hii é o i-ésimo elemento da diagonal principal da matriz H. Fica fácil

mostrar que r∗ = (In − Ĥ)Ŵ1/2 ẑ, isto é, Ĥ desempenha o papel de matriz
de projeção ortogonal local, como na regressão normal linear em que W é
identidade.
No entanto, na prática, η̂ não é fixo nem conhecido, bem como z não
segue distribuição normal. Uma implicação disso é que as propriedades de t∗i

66
não são mais verificadas para tSi . Williams (1984) mostra através de estudos
de Monte Carlo que a distribuição de tSi é em geral assimétrica, mesmo para
grandes amostras.
Outros resı́duos cujas distribuições poderiam estar mais próximas da nor-
malidade têm sido sugeridos para os MLGs. Por exemplo, o resı́duo de Ans-
combe √
φ{ψ(yi ) − ψ(µ̂i )}
tAi = q ,
ψ 0 (µ̂i ) V̂ (µ̂i )
em que ψ(·) é uma transformação utilizada para normalizar a distribuição de
Y . Para os MLGs essa transformação é definida por
Z µ
1
ψ(µ) = V − 3 (t)dt.
0

Em particular, para os principais MLGs a transformação ψ(µ) é descrita na

tabela dada abaixo.

Distribuição
Normal Binomial Poisson Gama N. Inversa
R µ −1 − 1 3 32 1
ψ(µ) µ 0
t 3 (1 − t) 3 dt 2
µ 3µ 3 log(µ)

Contudo, um dos resı́duos mais utilizados MLGs é definido a partir dos

componentes da função desvio. A versão padronizada (ver McCullagh, 1987;
Davison e Gigli, 1989) é a seguinte:
√
d∗ (yi ; µ̂i ) φd(yi ; µ̂i )
tDi =p = p ,
1 − ĥii 1 − ĥii
√ 1
em que d(yi ; µ̂i ) = ± 2{yi (θ̃i − θ̂i ) + (b(θ̂i ) − b(θ̃i ))} 2 . O sinal de d(yi ; µ̂i )
é o mesmo de yi − µ̂i . Williams (1984) verificou através de simulações que
a distribuição de tDi tende a estar mais próxima da normalidade do que as

67
distribuições dos demais resı́duos. McCullagh (1987, p. 214) mostra para os
MLGs que a distribuição de probabilidade de
d∗ (Yi ; µi ) + ρ3i /6
p
1 + (14ρ23i − 9ρ4i )/36

é aproximadamente N(0, 1), em que ρ3i e ρ4i são os coeficientes de assi-

metria e curtose de ∂L(ηi )/∂ηi , respectivamente, e d∗ (Yi ; µi ) é o i-ésimo
componente do desvio D∗ (y; µ̂) avaliado no parâmetro verdadeiro. Pode-
se mostrar usando resultados de Cox e Snell (1968) que E{d∗ (Yi ; µi )} = 0 e
Var{d∗ (Yi ; µi )} = 1 − hii , em que os termos negligenciados são de O(n−1 ).
p
Esses resultados reforçam o uso da padronização 1 − ĥii para d∗ (yi ; µ̂i ).
Um quarto resı́duo foi definido por Williams (1987) e pode ser interpre-
tado como uma média ponderada entre tSi e tDi ,
1
tGi = sinal(yi − µ̂i ){(1 − ĥii )t2Di + ĥii t2Si } 2 .

Williams (1987) verificou através de simulações e para alguns MLGs que

tGi tem esperança ligeiramente diferente de zero, variância excedendo um,
assimetria desprezı́vel e alguma curtose.
√
O R solta os resı́duos di = d(yi ; µ̂i ) e r̂Pi sem o termo φ. Precisa,
para padronizá-los, calcular os correspondentes ĥ0ii s bem como extrair φ̂ nos
casos em que φ 6= 1. Inicialmente, é ilustrado como calcular ĥii . Supor um
modelo com duas covariáveis e dois fatores e que os resultados do ajuste são
armazenados em fit.model. A matriz X é obtida com um dos comandos
abaixo
X = model.matrix( ∼ cov1 + cov2 + A + B)
X = model.matrix(fit.model).
Em V pode-se armazenar a matriz V̂. Os elementos da diagonal principal de
V devem ser obtidos dos valores ajustados do modelo, os quais por sua vez

68
são extraı́dos através do comando fitted(fit.model). Como exemplo, a
matriz com as funções de variância estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
Em particular, a matriz Ŵ também depende dos valores ajustados, no en-
tanto, como é a matriz de pesos, pode ser obtida diretamente fazendo
w = fit.model$weights
W = diag(w).
Assim, uma vez obtida a matriz Ŵ pode-se obter os elementos ĥii com
os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa φ̂ (o R solta φ̂−1 ), os componentes do
desvio e os resı́duos studentizados são obtidos da seguinte maneira:
rd = resid(fit.model, type= ‘‘deviance’’)
td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= ‘‘pearson’’)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligações canônicas W e V coincidem.
Por fim, tem-se o resı́duos quantı́lico (Dunn e Smyth, 1996) que é definido
para variáveis contı́nuas por

rqi = Φ−1 {F (yi ; θ̂)},

em que Φ(·) e F (yi ; θ) denotam, respectivamente, as funções de distribuição

acumuladas da N (0, 1) e da distribuição postulada para a resposta, i =

69
1, . . . , n. Para n grande os resı́duos rq1 , . . . , rqn são independentes e igual-
mente distribuı́dos N (0, 1). Assim, o gráfico entre os quantis amostrais
rq(1) ≤ · · · ≤ rq(n) contra os quantis teóricos da normal padrão é recomen-
dado para avaliar afastamentos da distribuição postulada para a resposta
bem como a presença de observações aberrantes. Esse resı́duo é estendido
para o caso discreto, contudo o resı́duo não é único, e a sugestão é trabalhar
com resı́duos aleatorizados.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo. Além desse
painel gráfico, o GAMLSS também disponibiliza o worm plot que é o gráfico
entre rq(i) − E(Z(i) ) contra E(Z(i) ). Esse gráfico pode ser interpretado como
um refinamento do gráfico normal de probabilidades, podendo ser acionado
para variáveis contı́nuas através do comando
wp(ajuste).
No caso de variáveis discretas, a sugestão é gerar m gráficos, que são avaliados
conjuntamente. Por exemplo para m = 8 o gráfico pode ser realizado através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).

A construção de bandas emprı́ricas de confiança para o gráfico normal de

probabilidades com o resı́duo quantı́lico seria recomendada no caso de amos-
tras pequenas e moderadas, uma vez que os resı́duos são correlacionados.
Embora o resı́duo quantı́lico tenha uma distribuição assintótica conhecida,
sob o modelo postulado, tendo portanto aplicação direta em modelagem de
regressão, o resı́duo componente do desvio pode continuar sendo aplicado

70
de forma complementar por tratar-se de um resı́duo condicional. Ou seja,
tem-se o componente do desvio para a localização fixando a dispersão, e de
forma similar pode-se ter o resı́duo componente do desvio para a dispersão
fixando a localização. Isso se estende para outros modelos de regressão em
que há mais de dois tipos de parâmetros para serem modelados.

1.10.3 Influência
Supondo φ conhecido, o afastamento pela verossimilhança quando elimina-se
a i-ésima observação é denotado por

LDi = 2{L(β̂) − L(β̂ (i) )},

sendo portanto uma medida que verifica a influência da retirada da i-ésima

observação em β̂. Não sendo possı́vel obter uma forma analı́tica para LDi , é
usual utilizar a segunda aproximação por série de Taylor de L(β) em torno
de β̂, obtendo-se L(β) ∼
= L(β̂) + 1 (β − β̂)> {−L̈ββ (β̂)}(β − β̂). Essa expansão
2
leva ao seguinte resultado:

LDi ∼
= (β − β̂)> {−L̈ββ (β̂)}(β − β̂).

Substituindo −L̈ββ (β̂) pelo correspondente valor esperado e β por β̂ (i) , obtém-
se
LDi ∼
= φ(β̂ − β̂ (i) )> (X> ŴX)(β̂ − β̂ (i) ). (1.17)

Assim, tem-se uma boa aproximação para LDi quando L(β) for aproxima-
damente quadrática em torno de β̂.
Como em geral não é possı́vel obter uma forma fechada para β̂ (i) , a apro-
ximação de um passo tem sido utilizada (ver, por exemplo, Cook e Weisberg,
1982), que consiste em tomar a primeira iteração do processo iterativo pelo
método escore de Fisher quando o mesmo é iniciado em β̂.

71
Essa aproximação, introduzida por Pregibon (1981), é dada por
1 1 1
β̂ (i) = β̂ + (X> ∆ŴX)−1 X> ∆Ŵ 2 V̂− 2 (y − µ̂),

em que ∆ = diag{δ1 , . . . , δn } com δi = 0 e δj = 1 para j 6= i. Após algumas

manipulações algébricas obtém-se
p
1 r̂Pi ω̂i φ−1
β̂ (i) = β̂ − (X> ŴX)−1 xi (1.18)
(1 − ĥii )
e, finalmente, substituindo a expressão acima em (1.17) tem-se que
( )
ĥ
LDi ∼
ii
= t2Si .
(1 − ĥii )
A distância de Cook aproximada fica facilmente obtida com o comando
LD = h*(ts2 )/(1 - h).
A validade da aproximação de um passo tem sido investigada por alguns
pesquisadores. A constatação é que a mesma em geral subestima o verdadeiro
valor de LDi , no entanto é suficiente para chamar a atenção dos pontos
influentes.

1.10.4 Influência local

A metodologia de influência local pode ser facilmente estendida para a classe
de MLGs. Em particular, considerando φ conhecido e perturbação de casos
em que L(β|δ) = ni=1 δi Li (β) com 0 ≤ δi ≤ 1, a matriz ∆ assume a forma
P

p 1
∆ = φX> Ŵ 2 D(r̂P ),
√ p
em que D(r̂P ) = diag{r̂P1 , . . . , r̂Pn } e r̂Pi = φ(yi − µ̂i )/ V̂i é o i-ésimo
resı́duo de Pearson estimado. Assim, substituindo −L̈ββ por φ(X> WX)
tem-se que a curvatura normal na direção unitária ` assume a forma

C` (β) = 2|`> D(r̂P )ĤD(r̂P )`|.

72
Se o interesse é calcular a curvatura normal na direção `i da i-ésima ob-
servação, então pode-se avaliar o gráfico de ı́ndices de Ci = 2ĥii r̂P2 i .
Em particular, o vetor `max para avaliar a influência local das observações
nas estimativas dos parâmetros é o autovetor correspondente ao maior auto-
valor da seguinte matriz n × n:

B = D(r̂P )ĤD(r̂P ).

Para obter `max , a maneira mais simples é construir a matriz B e extrair o seu
autovetor correspondente ao maior autovalor. Os comandos são os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se há interesse em detectar observações influentes na estima-
tiva de um coeficiente particular, associado por exemplo à variável explicativa
X1 , o vetor `max fica dado por
!
v r̂ v r̂
`>
max = p1 P1 , . . . , pn Pn ,
C`max C`max
em que v1 , . . . , vn são agora obtidos da regressão linear de X1 contra as
1 1
colunas de X2 com matriz de pesos V̂, isto é v = V̂ 2 X1 − V̂ 2 X2 (X>
2

V̂X2 )−1 X>

2 V̂X1 .

Para ligação não canônica os resultados continuam valendo desde que a

matriz observada seja substituı́da pela matriz de informação de Fisher.

1.10.5 Gráfico da variável adicionada

A seguir é apresentada a versão do gráfico da variável adicionada para os
MLGs. Supor um MLG com p parâmetros, β1 , . . . , βp , φ conhecido, e que

73
um coeficiente adicional γ relacionado a uma variável quantitativa Z está
sendo incluı́do no modelo. O interesse é testar H0 : γ = 0 contra H1 : γ 6= 0.
Seja η(β, γ) o preditor linear com p + 1 parâmetros, isto é

η(β, γ) = X> β + γZ.

A função escore para γ é dada por

∂L(β, γ) 1 1
Uγ = = φ 2 Z > W 2 rP ,
∂γ

em que Z = (z1 , . . . , zn )> . De resultados anteriores segue que

1 1
Var(γ̂) = φ−1 [Z> W 2 MW 2 Z]−1 ,

em que M = In − H. Logo, Var(γ̂) = φ−1 (R> WR)−1 com R = Z − XC e

C = (X> WX)−1 X> WZ.
Portanto, a estatı́stica de escore para testar H0 : γ = 0 contra H1 : γ 6= 0
fica dada por
1 1 1
ξSR = (r̂> 2 >
P Ŵ Z) /(Z Ŵ M̂Ŵ Z),
2 2 2

em que Ŵ, r̂P e M̂ são avaliados em β̂ (sob H0 ). Sob H0 , ξSR ∼ χ21 quando
n → ∞.
Wang (1985) mostra que a estatı́stica de escore acima coincide com a
estatı́stica F de uma regressão linear ponderada para testar a inclusão da
variável Z no modelo. Nessa regressão linear, o gráfico da variável adicionada
1 1
é formado pelos resı́duos r̂P e υ = φ 2 (In − Ĥ)Ŵ 2 Z. O resı́duo υ pode ser
obtido facilmente após a regressão linear ponderada (com pesos Ŵ) de Z
contra X. Tem-se que γ̂ = (υ > υ)−1 υ > r.
Logo, o gráfico de r̂P contra υ pode revelar quais observações estão con-
tribuindo mais na significância de γ. A principal dificuldade para construir o
gráfico da variável adicionada em MLGs é a obtenção do resı́duo υ, uma vez

74
que o resı́duo r̂P é obtido facilmente como visto anteriormente. Para ilustrar
o cálculo de υ num modelo particular, supor duas covariáveis e dois fatores e
que o interesse é construir o gráfico da variável adicionada correspondente à
covariável cov1. É preciso inicialmente ajustar o modelo com os dois fatores
e a outra covariável e calcular a matriz Ŵ cujos valores serão armazenados
em W. Lembrando que Ŵ é a matriz estimada de pesos. Supondo, por
exemplo, que tem-se um modelo de Poisson com ligação canônica, os passos
para construir o gráfico são os seguintes:
fit.poisson = glm( resp ∼ cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =‘‘pearson’’)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=‘‘Residuo v’’, ylab=‘‘Residuo rp’’).

1.10.6 Técnicas gráficas

As técnicas gráficas mais recomendadas para os MLGs são as seguintes: (i)
pontos aberrantes, gráfico de tDi ou rqi (ou algum outro resı́duo) contra a
ordem das observações ou gráfico normal de probabilidades de cada resı́duo
com banda de confiança; (ii) variabilidade, gráfico de tDi ou rqi contra o
valor ajustado µ̂i ; (iii) correlação, gráfico de tDi ou rqi contra o tempo ou
alguma ordem em que há suspeita de correlação entre as observações; (iv)
afastamento da distribuição postulada para a resposta, gráfico normal de pro-
babilidades para tDi (com envelope) ou rqi com o worm plot; (v) adequação

75
da ligação, gráfico de ẑi contra η̂i (uma tendência linear indica adequação
da ligação) (exceto para o caso binomial); (vi) pontos influentes, gráficos de
LDi , Ci ou |`max | contra a ordem das observações e (vii) falta de alugm termo
extra numa variável explicativa quantitativa, gráfico da variável adicionada.
Os envelopes, no caso de MLGs com distribuições diferentes da normal, são
construı́dos com os resı́duos gerados a partir do modelo ajustado (ver, por
exemplo, Williams, 1987). No Apêndice B são relacionados programas para
gerar envelopes em alguns MLGs.

1.11 Seleção de modelos

1.11.1 Modelo normal linear
Há vários procedimentos para a seleção de modelos de regressão, embora ne-
nhum deles seja consistente. Ou seja, mesmo para amostras grandes nenhum
procedimento seleciona com probabilidade um as variáveis explicativas com
coeficiente de regressão não nulo. Os procedimentos mais conhecidos são os
métodos que consideram todas as regressões possı́veis, tais como maior R2p ,
menor s2p , Cp e Press, bem como os métodos sequenciais forward, backward,
stepwise, AIC e BIC (ver, por exemplo, Montgomery et al., 2021, Cap.10),
além de outros métodos que usam computação intensiva.
Alguns desses métodos serão descritos brevemente a seguir.

Método forward
Inicia-se o método pelo modelo µ = α. Ajustar então para cada variável
explicativa o modelo

µ = α + βj xj , (j = 1, . . . , q).

76
Testar H0 : βj = 0 contra H1 : βj 6= 0. Seja P o menor nı́vel descritivo dentre
os q testes. Se P ≤ PE , a variável correspondente entra no modelo. Supor
que X1 tenho sido escolhida. Então, no passo seguinte ajusta-se os modelos

µ = α + β1 x1 + βj xj , (j = 2, . . . , q).

Testar H0 : βj = 0 contra H1 : βj 6= 0. Seja P o menor nı́vel descritivo dentre

os (q − 1) testes. Se P ≤ PE , a variável correspondente entra no modelo.
Repetir o procedimento até que ocorra P > PE .

Método backward
Iniciar o procedimento pelo modelo

µ = α + β1 x1 + · · · + βq xq .

Testar H0 : βj = 0 contra H1 : βj 6= 0 para j = 1, . . . , q. Seja P o maior

nı́vel descritivo dentre os q testes. Se P > PS , a variável correspondente sai
do modelo. Supor que X1 tenho saı́do do modelo. Então, ajustar o modelo

µ = α + β2 x2 + · · · + βq xq .

Testar H0 : βj = 0 contra H1 : βj 6= 0 para j = 2, . . . , q. Seja P o maior nı́vel

descritivo dentre os (q −1) testes. Se P > PS , então a variável correspondente
sai do modelo. Repetir o procedimento até que ocorra P ≤ PS .

Método stepwise
É uma mistura dos dois procedimentos anteriores. Iniciar o processo com o
modelo µ = α. Após duas variáveis terem sido incluı́das no modelo, verificar
se a primeira não sai do modelo. O processo continua até que nenhuma
variável seja incluı́da ou seja retirada do modelo. Geralmente adota-se 0, 15 ≤
PE , PS ≤ 0, 25. Uma sugestão seria usar PE = PS = 0, 20.

77
Método de Akaike
O método proposto por Akaike (1974) basicamente se diferencia dos procedi-
mentos anteriores por ser um processo de minimização que não envolve testes
estatı́sticos. A ideia básica é selecionar um modelo que seja parcimonioso, ou
em outras palavras, que esteja bem ajustado e tenha um número reduzido
de parâmetros. Como o logaritmo da função de verossimilhança L(β) cresce
com o aumento do número de parâmetros do modelo, uma proposta razoável
seria encontrar o modelo com menor valor para a função

AIC = −2L(β̂) + 2p,

em que p denota o número de parâmetros. No caso do modelo normal linear

pode-se mostrar que AIC fica expresso, quando σ 2 é desconhecido, na forma

AIC ∝ nlog{D(y; µ̂)/n} + 2p,

Pn
em que D(y; µ̂) = i=1 (yi − µ̂i )2 .

Método de Schwartz
O método de Schwartz (1978) consiste em maximizar L(β) também minimi-
zando o número de coeficientes da regressão, porém com uma penalização
diferente. O método é equivalente a minimizar a função abaixo

BIC = −2L(β̂) + p log(n).

Para a regressão linear múltipla tem-se que BIC ∝ nlog{D(y; µ̂)/n}+p log(n).

1.11.2 Extensão para os MLGs

Os métodos de seleção de modelos descritos na seção anterior podem ser
estendidos diretamente para os MLGs. Algumas observações, contudo, são

78
necessárias. Nos casos de regressão logı́stica e de Poisson o teste da razão
de verossimilhanças, pelo fato de ser obtido pela diferença de duas funções
desvio, aparece como o mais indicado. Para os casos de regressão normal,
normal inversa e gama o teste F, por não exigir a estimativa de máxima
verossimilança do parâmetro de dispersão, é o mais indicado. Isso não impede
que outros testes sejam utilizados.
Já o método de Akaike pode ser expresso numa forma mais simples em
função do desvio do modelo. Nesse caso, o critério consiste em encontrar o
modelo tal que a quantidade abaixo seja minimizada

AIC = D∗ (y; µ̂) + 2p,

em que D∗ (y; µ̂) denota o desvio do modelo e p o número de parâmetros. Os

métodos stepwise e de Akaike estão disponı́veis no R. O método stepwise
está disponı́vel apenas para modelos normais lineares. O comando stepwise
é definido por stepwise(Xvar, resposta), em que Xvar denota a matriz
com os valores das variáveis explicativas e resposta denota o vetor com as
respostas.
Para rodar o critério de Akaike é preciso usar antes o comando require(MASS).
Uma maneira de aplicar o critério de Akaike é partindo do maior modelo cu-
jos resultados são guardados no objeto fit.model. Daı́, então, deve-se usar
o comando stepAIC(fit.model).

1.12 Aplicações
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extraı́do do censo do IBGE de
2000, apresenta para cada unidade da federação o número médio de anos de
estudo e a renda média mensal (em reais) do chefe ou chefes do domicı́lio.

79
Esses dados estão também armazenados no arquivo censo.txt. O arquivo
pode ser lido no R através do comando
censo= read.table(‘‘censo.txt’’, header=TRUE).
Propor inicialmente um modelo normal linear simples em que Y denota a
renda e X a escolaridade. O modelo fica portanto dado por

yi = α + βxi + i ,

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , 27. Supor que a amostra da Tabela 1.6
é um corte transversal, isto é, as informações sobre renda e escolaridade das
unidades da federação são referentes a um determinado instante do tempo.
Nesse caso, os erros são devidos à variabilidade da renda (dada a escolaridade)
nos diversos instantes do tempo. Assume-se que a relação funcional entre yi
e xi é a mesma num determinado intervalo do tempo.

Tabela 1.6
Escolaridade e renda média
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499

80
0.30
DF

0.25
1200

0.20
Medida h
Renda

0.15
800

0.10
600

0.05
400

4 5 6 7 8 0 5 10 15 20 25
Escolaridade Índice
(a) (b)

DF DF
2.5

Resíduo Studentizado
4
Distância de Cook
2.0
1.5

2
1.0

0
0.5
0.0

−2

0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)

Figura 1.5: Reta ajustada do modelo normal linear e gráficos de diagnóstico

para o exemplo sobre renda e escolaridade.

As estimativas dos parâmetros (erro padrão) são dadas por α̂ = −381, 28

(69, 40) e β̂ = 199, 82 (13, 03), indicando que o coeficiente angular da reta é
altamente significativo. Essa estimativa pode ser interpretada como o incre-
mento esperado na renda média domiciliar de uma unidade da federação se
o tempo de escolaridade médio domiciliar naquela unidade for acrescido de
um ano. A estimativa de σ é dada por s = 77, 22, enquanto que o coeficiente
de determinação foi de R2 = 0, 904. O ajuste do modelo e a exibição dos
resultados podem ser obtidos com os comandos abaixo
attach(censo)
fit1.censo = lm(renda ∼ escolar)

81
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo num arquivo do tipo
data.frame, através dos comandos
censo = data.frame(censo)
fit1.censo = lm(renda ∼ escolar, data=censo)
summary(fit1.censo).

0.30
DF

0.25
1200

0.20
Medida h
Renda

0.15
800

0.10
600

0.05
400

4 5 6 7 8 400 600 800 1000 1200 1400

Escolaridade Valor Ajustado
(a) (b)
0.5

MA
2
Resíduo Studentizado
0.4
Distância de Cook

1
0.3

0
0.2

−1
0.1

−2
0.0

0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)

Figura 1.6: Curva ajustada do modelo gama log-linear e gráficos de di-

agnóstico para o exemplo sobre renda e escolaridade.

Pela Figura 1.5, onde são apresentados alguns gráficos de diagnóstico,

além da reta ajustada aos dados, nota-se uma forte discrepância do Distrito
Federal que aparece como ponto de alavanca, influente e aberrante. Além
disso, nota-se pela Figura 1.5d indı́cios de variância não constante, ou seja,

82
um aumento da variabilidade com o aumento da escolaridade. Isso pode
também ser notado na Figura 1.5a. Assim, pode-se propor um modelo alter-
nativo, por exemplo, com efeitos multiplicativos conforme dado abaixo

µi = eα+βxi ei ,

iid
em que i ∼ G(1, φ), i = 1, . . . , 27. Pode-se ajustar esse modelo no R através
dos comandos
fit2.censo = glm(renda ∼ escolar, family=Gamma(link=log))
summary(fit1.censo).

Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observações mais discrepantes são excluı́das do modelo gama.
Estimativa Com todos Excluı́do Excluı́do Excluı́dos
os pontos DF MA DF e MA
α̂ 4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
β̂ 0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
φ̂ 192(52) 188(52) 223(62) 223(63)

Na Figura 1.6 tem-se o ajuste do modelo gama aos dados, bem como
alguns gráficos de diagnóstico que destacam DF como ponto de alavanca e
MA como ponto influente, enquanto na Tabela 1.7 tem-se uma análise confir-
matória em que verifica-se poucas variações nas estimativas dos parâmetros
com a eliminação dessas unidades da federação. Finalmente, na Figura 1.7
tem-se o gráfico normal de probabilidades para o modelo normal linear e
para o modelo gama log-linear. Nota-se uma melhor acomodação e distri-
buição dos pontos dentro do envelope gerado no segundo modelo. Pelo valor
da estimativa do parâmetro de dispersão conclui-se que o modelo gama log-
linear aproxima-se bem de um modelo normal de média µ e variância φ−1 µ2 .

83
Portanto, o modelo final ajustado fica dado por

ŷ = e4,98+0,28x .

Desse modelo pode-se extrair a seguinte intrepretação: eβ̂ = e0,28 = 1, 32(32%)

é o aumento relativo esperado para a renda aumentando-se em 1 ano a esco-
laridade média.

3
2
4

1
Componente do Desvio
Resíduo Studentizado
2

0
0

−1
−2
−2

−3

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 1.7: Gráfico normal de probabilidades para os modelos ajustados

normal linear (esquerda) e gama log-linear (direita) aos dados sobre renda e
escolaridade.

1.12.2 Processo infeccioso pulmonar

A seguir serão utilizados os dados referentes a um estudo de caso-controle rea-
lizado no Setor de Anatomia e Patologia do Hospital Heliópolis em São Paulo,
no perı́odo de 1970 a 1982 (Paula e Tuder, 1986) (ver arquivo canc3.txt).
Um total de 175 pacientes com processo infecioso pulmonar atendido no hos-
pital no perı́odo acima foi classificado segundo as seguintes variáveis: Y,

84
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da célula histiócitos-linfócitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da célula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). O arquivo
pode ser lido no R através do comando
canc3 = read.table(‘‘canc3.txt’’, header=TRUE).
Deve-se informar o sistema que as variáveis SEXO, HL e FF são qualitativas,
isto é, deve-se transformá-las em fatores. Os comandos são os seguintes:
attach(canc3)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que é optativo, cria uma variável binária
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variáveis binárias para os
nı́veis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformar todo fator
de k nı́veis em k − 1 variáveis binárias, denominado casela de referência, é
padrão em MLGs, porém pode não ser a modelagem mais conveniente em
outras situações de interesse prático. A casela de referência seria, nesses dois
casos, o nı́vel ausente.
Considere, como exemplo, a aplicação do modelo logı́stico com resposta
Bernoulli apenas com os efeitos principais, em que

Pr{Y = 1 | η} = {1 + exp(−η)}−1 ,

85
P4 P4
com η = β1 + β2 IDADE + β3 SEXO + i=1 β4i HLi + i=1 β5i FFi , SEXO, HLi
e FFi sendo variáveis binárias correspondentes aos nı́veis de SEXO, HL e FF,
respectivamente. Assume-se que β41 = β51 = 0. Uma observação importante
é que devido ao fato da amostragem ter sido retrospectiva, o uso do modelo
acima para fazer previsões somente é válido se a estimativa do intercepto
(β1 ) ser corrigida (ver, por exemplo, McCullagh e Nelder, 1989, p. 113). Isso
será discutido na Seção 3.6.6. Para ajustar o modelo acima, os passos são
dados abaixo
fit1.canc3 = glm( tipo ∼ sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).

Tabela 1.8
Estimativas dos parâmetros referentes ao modelo logı́stico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito Estimativa Efeito Estimativa Efeito Estimativa
Constante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)
Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)
Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)

As estimativas dos parâmetros (erro padrão aproximado) são apresenta-

das na Tabela 1.8. O desvio do modelo foi de D(y; µ̂) = 157, 40 (166 graus
de liberdade), indicando um ajuste adequado. Como pode-se observar, há
indı́cios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Nota-se também que a chance
de processo maligno aumenta significativamente com a idade e há indicações
de que tanto para a célula FF quanto para HL a chance de processo maligno
diminui à medida que aumenta a intensidade da célula. Esse exemplo será
reanalizado no Capı́tulo 3.

86
1.12.3 Sobrevivência de bactérias
Na Tabela 1.9, extraı́da de Montgomery et al.(2001, pgs. 201-202), tem-se o
número de bactérias sobreviventes em amostras de um produto alimentı́cio
segundo o tempo (em minutos) de exposição do produto a uma temperatura
de 300o F . Na Figura 1.8a é apresentado o gráfico do número de bactérias so-
breviventes contra o tempo de exposição. Nota-se uma tendência decrescente
e quadrática.
Supondo que as amostras do produto enlatado submetidos à temperatura
ind
de 300o F têm o mesmo tamanho, pode-se pensar, em princı́pio, que Yi ∼
P(µi ), com Yi denotando o número de bactérias sobreviventes na i-ésima
amostra i = 1, . . . , 12. Para µi grande é razoável supor que Yi se aproxima
de uma distribuição normal (ver Seção 4.2.1). Assim, tem-se como proposta
inicial, os seguintes modelos:

yi = α + βtempoi + i e

yi = α + βtempoi + γtempo2i + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , 12.

Tabela 1.9
Número de bactérias sobreviventes e tempo de exposição.
Número 175 108 95 82 71 50 49 31 28 17 16 11
Tempo 1 2 3 4 5 6 7 8 9 10 11 12

As estimativas dos parâmetros são apresentadas na Tabela 1.10. Pelos

gráficos de envelope (Figuras 1.8b e 1.8c) nota-se indı́cios de que a distri-
buição dos erros pode estar incorrretamente especificada. A maioria dos
resı́duos assume valor negativo. Nota-se a presença de um ponto aberrante,
observação #1.

87
8

8
150

6
Resíduo Studentizado

Resíduo Studentizado
4
Sobreviventes

4
100

2
0
50

0
−2

−2
2 4 6 8 10 12 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Tempo Quantil da N(0,1) Quantil da N(0,1)
(a) (b) (c)

3
6

2
4

Componente do Desvio
Resíduo Studentizado

Resíduo Studentizado
2

1
2

0
0

−1
0

−2
−2
−2

−3
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Quantil da N(0,1) Quantil da N(0,1) Quantil da N(0,1)
(d) (e) (f)

Figura 1.8: Diagrama de dispersão e gráficos normais de probabilidade refe-

rentes aos modelos ajustados aos dados sobre sobrevivência de bactérias.

Uma outra tentativa seria aplicar à resposta a transformação raiz qua-

drada que é conhecida no caso da Poisson como estabilizadora da variância,
além de manter a aproximação normal (ver Seção 4.2.1). Logo, pode-se pen-
sar em adotar os seguintes modelos alternativos:
√
yi = α + βtempoi + i e
√
yi = α + βtempoi + γtempo2i + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , 12. As estimativas dos parâmetros são
apresentadas na Tabela 1.10.

88
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivência
√ de bactérias.√
Parâmetro Linear-Y Quadrático-Y Linear- Y Quadrático- Y
α 142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51)
β -12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18)
γ 1,29(0,31) 0,04(0,01)
2
R 86,9% 95,5% 96,1% 97,8%
Nota-se uma melhora na qualidade do ajuste, particularmente no segundo
caso. Porém, ainda há indı́cios pelos gráficos de envelope (Figuras 1.8d e 1.8e)
de violação nas suposições para os modelos, além da presença da observação
#1 como ponto aberrante. Finalmente, propôem-se um modelo log-linear de
Poisson, em que
ind
• Yi |tempoi ∼ P(µi )

• log(µi ) = α + βtempoi ,

i = 1, . . . , 12. As estimativas dos parâmetros são apresentadas na Tabela

1.11. Pelo gráfico de envelope (Figura 1.8f) não há evidências de que o modelo
esteja mal ajustado. Nota-se também que a observação #1 foi acomodada
dentro do envelope gerado. Parece, portanto, que esse último modelo é o que
melhor se ajusta aos dados dentre os modelos propostos.

Tabela 1.11
Estimativas dos parâmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivência de bactérias.
Parâmetro Estimativa E/E.Padrão
α 5,30 88,34
β -0,23 -23,00
Desvio 8,42 (10 g.l.)

89
O modelo Poisson log-linear ajustado aos dados fica então dado por

µ̂(x) = e5,30−0,23x ,

em que x denota o tempo de exposição. Logo, diminuindo de uma unidade

o tempo de exposição a variação no valor esperado fica dada por
µ̂(x − 1)
= e0,23 = 1, 259.
µ̂(x)

Ou seja, o número esperado de sobreviventes aumenta 25,9%.

1.12.4 Estudo seriado com ratos

O exemplo a seguir provém de um estudo seriado com um tipo de tumor
maligno para avaliar a influência da série (passagem do tumor) na morte
(caquexia) de um certo tipo de rato (Paula et al., 1992). Os dados estão
descritos no arquivo canc4.txt. Um total de 204 animais teve o tumor
inoculado num determinado momento da série. Para cada animal, além do
grupo de passagem, foram observadas as variáveis presença de massa tumoral,
caquexia e o tempo de observação (em dias). Esses dados são resumidos na
Tabela 1.12.

Tabela 1.12
Número de ratos caquéticos (O) e ratos dias de
observação (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa Grupo de passagem
tumoral P0-P6 P7-P18 P19-P28
Sim O 6 13 8
R-D 2597 3105 2786

Não O 12 3 1
R-D 1613 411 232

90
Para ler os dados diretamente no R deve-se usar o comando
canc4a= scan(what=list(obs=0,rd=0))
1: 6 2597 13 3105 8 2786
2: 12 1613 3 411 1 232.
Agora, é necessário introduzir os fatores grupo de passagem e massa tumoral
fnames = list(gp=c(‘‘P0-P6’’, ‘‘P7-P18’’, ‘‘P19-P28’’),
mt=c(‘‘Sim’’, ‘‘N~
ao’’)).
Para informar o sistema a ordem em que os dados foram lidos, pode-se usar
o comando fac.design. Em seguida, é feito o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a)
rato.df = data.frame(obs,rd,rato.design).
As informações completas sobre os dados estão armazenadas no arquivo
rato.df. Para uma verificação basta usar o comando
rato.df.
Pode-se agora (opcionalmente) criar uma matriz modelo no padrão dos MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Supor que Oij , o número de ratos caquéticos no nı́vel i de massa tumoral
e grupo de passagem j, segue uma distribuição de Poisson de média λij tij ,
i = 1, 2 e j = 1, 2, 3. Tem-se que λij denota a taxa de caquexia (número
médio de mortes por unidade de tempo) e tij o total de ratos-dias no nı́vel
(i, j). Considere inicialmente o seguinte modelo de Poisson:
ind
• Oij ∼ P(λij tij )

• log(λij ) = α + βi + γj ,

91
em que i = 1, 2 e j = 1, 2, 3, β1 = 0 e γ1 = 0. A suposição do compo-
nente aleatório equivale à suposição de tempos exponenciais, como será visto
na Seção 4.2.2. Com essa notação, α será o efeito correspondente à classe
P0 − P6 com desenvolvimento de massa, β2 a diferença entre os efeitos dos
grupos sem e com o desenvolvimento de massa tumoral, γ2 a diferença entre
os efeitos das classes P7 − P18 e P0 − P6 e γ3 a diferença entre os efeitos das
classes P19 − P28 e P0 − P6. Em particular, quando os valores esperados de
mortes para tij são expressos na forma de um modelo log-linear, tem-se um
offset dado por log(tij ). Ou seja, o modelo que será ajustado no R tem parte
sistemática dada por log(µij ) = log(tij ) + α + βi + γj . Logo, é necessário
definir o offset no ajuste.
Os passos são os seguintes:
logt0 = log(rd)
canc4a.fit = glm(obs ∼ gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parâmetros (erro padrão aproximado) são dadas por
α̂ = −5, 875 (0, 312), γ̂2 = 0, 334 (0, 365), γ̂3 = −0, 040 (0, 434) e β̂2 =
0, 860 (0, 343). O desvio do modelo é dado por D(y; µ̂) = 0, 84 com 2 graus
de liberdade. Pelas estimativas acima nota-se que o fator grupo de passagem
não é significativo. O ajuste do modelo sem esse efeito levou às estimativas
α̂ = −5, 750 (0, 192) e β̂2 = 0, 802 (0, 315) com um desvio de D(y; µ̂) = 1, 99
(4 graus de liberdade). Logo, o teste da razão de verossimilhanças para testar
H0 : γ2 = γ3 = 0 vale 1, 99 − 0, 84 = 1, 15 com 2 graus de liberdade, o que
implica em não rejeitar a hipótese H0 .
Assim, o modelo adotado inclui somente o efeito massa tumoral. Tem-se
que β2 é significativamente diferente de zero. A estimativa β̂2 = 0, 802 indica

92
que os ratos que desenvolvem massa tumoral (tumor maligno) sobrevivem
mais do que os ratos que não desenvolvem o tumor! Esse resultado pode
parecer em princı́pio contraditório, todavia deve-se lembrar que todos os
ratos tiveram tumor inoculado mas nem todos desenvolveram massa tumoral.
Assim, pode ser razoável supor que aqueles ratos que não desenvolveram
massa tumoral teriam resistido muito para que a mesma não se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo médio de vida menor do que o tempo médio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliar a suposição de distribuição de Pois-
son para Oij com média λij tij é através da inclusão do termo log(tij ) como
covariável, em vez de offset. Isto é, supor a parte sistemática

log(µij ) = α + δ log(tij ) + βi + γj .

Assim, pode-se testar H0 : δ = 1 contra H1 : δ 6= 1. A não rejeição de

H0 indica que a suposição de distribuição de Poisson para Oij parece ser
razoável. No exemplo acima obtém-se δ̂ = 1, 390(0, 439), com valor-z dado
por z = (1, 390 − 1)/0, 439 = 0, 89, levando portanto à não rejeição de H0 .

1.12.5 Consumo de combustı́vel

No arquivo reg2.txt(Gray, 1989) são apresentadas as siglas dos 48 esta-
dos norte-americanos contı́guos juntamente com as seguintes variáveis: taxa
(taxa do combustı́vel no estado em USD), licença (proporção de motoristas
licenciados), renda (renda per capita em USD), estradas (ajuda federal para
as estradas em mil USD) e consumo (consumo de combustı́vel por habitante).
O interesse nesse estudo é tentar explicar o consumo médio de combustı́vel
pelas variáveis taxa, licença, renda e estradas. O arquivo pode ser lido no R
através do comando

93
reg2 = read.table(‘‘reg2.txt’’, header=TRUE).
O modelo proposto é o seguinte:

yi = α + β1 taxai + β2 licencai + β3 rendai + β4 estradasi + i ,

em que yi denota o consumo anual de combustı́vel (por habitante) no i-ésimo

iid
estado, enquanto i ∼ N(0, σ 2 ), i = 1, . . . , 48.
O modelo acima é ajustado no R com os resultados sendo colocados no
objeto fit1.reg2. Daı́ então é aplicado o método de Akaike para selecionar
o submodelo com menor AIC. Para tal, aplica-se os comandos
require(MASS)
stepAIC(fit1.reg2).
A variável estradas foi eliminada. Os resultados do modelo selecionado são
apresentados na Tabela 1.13. Portanto, pode-se dizer que para cada aumento
de uma unidade na renda, o consumo médio de combustı́vel diminui 0,07 uni-
dades. Para cada aumento de 1% na porcentagem de motoristas licenciados
o consumo médio de combustı́vel aumenta 13,75 unidades, e para cada au-
mento de 1% no imposto do combustı́vel o consumo médio diminui 29,48
unidades.

Tabela 1.13
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustı́vel.
Efeito Estimativa E/E.Padrão
Constante 307,33 1,96
Taxa -29,48 -2,78
Licença 1374,77 7,48
Renda -0,07 -4,00
R2 0,675
s 8,12

94
CT NY
WY
TX
0.20

0.3
SD NV

Distância de Cook
0.15
Medida h

0.2
0.10

0.1
0.05

0.0
0 10 20 30 40 0 10 20 30 40
Índice Índice
(a) (b)

WY WY
4

4
Resíduo Studentizado

Resíduo Studentizado
3

3
2

2
1

1
0

0
−1

−1

0 10 20 30 40 400 500 600 700

Índice Valor Ajustado
(c) (d)

Figura 1.9: Gráficos de diagnóstico referentes ao modelo normal linear ajus-

tado aos dados sobre consumo de combustı́vel.

Na Figura 1.9 tem-se alguns gráficos de diagnóstico e como pode-se notar

há um forte destaque para o estado de WY, que aparece como influente (Figura
1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY, SD, TX
e NV (Figura 1.9a) aparecem como remotos no subespaço gerado pelas colunas
da matrix X, embora não sejam confirmados como influentes. Não há indı́cios
pela Figura 1.9d de variância não constante.
Pelo gráfico normal de probabilidades descrito na Figura 1.10 (esquerda)
não há indı́cios fortes de afastamentos da suposição de normalidade para os

95
erros, apesar da influência no gráfico do estado de WY. O gráfico sem esse
estado apresentado na Figura 1.10 (direita) confirma esse suposição.

3
4

2
1
2
Resíduo Studentizado

Resíduo Studentizado
0
0

−1
−2
−2

−3
−4

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 1.10: Gráfico normal de probabilidades com todos os pontos (es-

querda) e sem o estado de WY (direita), referentes ao modelo normal linear
ajustado aos dados sobre consumo de combustı́vel.

Analisando os dados referentes ao estado de WY nota-se que o mesmo tem

uma taxa de 7% (abaixo da média de 7,67%), uma renda per capita anual de
USD 4345 (ligeiramente acima da média de USD 4241,83), uma proporção
de motoristas licenciados de 0,672 (acima da média de 0,570), porém um
consumo médio de combustı́vel muito alto 968 (média nacional de 576,77).
Talvez as longas distâncias do estado tenham obrigado os motoristas a um
consumo alto de combustı́vel. A eliminação desse estado muda substacial-
mente algumas estimativas, embora não mude a inferência. A estimativa da
variável licença cai 13,2%, a estimativa do intercepto aumenta 27,8%, o s2
cai 17,1% e o R2 aumenta 4,1%. As demais estimativas não sofrem grandes
variações.
Assim, a inclusão de alguma variável que leve em conta a densidade de-

96
mográfica de cada estado, conforme sugerido por Gray (1989), poderia expli-
car melhor o estado de WY pelo modelo proposto. Uma outra possibilidade
seria a inclusão no modelo de uma variável binária referente a esse estado.

1.12.6 Salário de executivos

Considere os dados descritos no arquivo salarios.txt sobre o salário anual
(em mil USD) de uma amostra aleatória de 220 executivos (145 homens e 75
mulheres)(Foster et a., 1998, pgs.180-188). O salário será relacionado com
as seguintes variáveis explicativas: sexo (1: masculino; 0: feminino), anos de
experiência no cargo e posição na empresa (varia de 1 a 9), quanto maior o
valor mais alta a posição. O arquivo pode ser lido no R através do comando
salarios = read.table(‘‘salarios.txt’’, header=TRUE).
A seguir é apresentada a comparação dos salários médios segundo o sexo.
Sexo Amostra Média E.Padrão
Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferença Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padrão 1,77
O valor-P indica diferença ao nı́vel de 5%. Ou seja, ignorando as de-
mais variáveis nota-se que os executivos ganham em média mais do que as
executivas.
Pela Figura 1.11 nota-se indı́cios de aumento do salário com o aumento
da posição e com o aumento da experiência para ambos os sexos, sugerindo
inicialmente um modelo linear do tipo

yi = α + β1 sexoi + β2 experi + β3 posici + i ,

iid
em que yi denota o salário do i-ésimo executivo da amostra e i ∼ N(0, σ 2 ),
i = 1, . . . , 220.

97
Tabela 1.14
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 115,262 82,25
Experiência -0,472 -4,17
Sexo -2,201 -2,04
Posição 6,710 21,46
R2 0,71
s 6,77
170

170
160
Salário Mulheres
Salário Homens
150

150
140
130

130
120
110

5 10 15 20 25 5 10 15 20
Experiência Homens Experiência Mulheres
170

170
160
Salário Mulheres
Salário Homens
150

150
140
130

130
120
110

2 3 4 5 6 7 8 9 2 4 6 8
Posição Homens Posição Mulheres

Figura 1.11: Gráficos de dispersão entre salário e as variáveis explicativas

experiência e posição.

98
Tabela 1.15
Testes F para avaliar a inclusão
de cada interação de 1a ordem no
modelo normal linear ajustado aos
dados sobre salário de executivos.
Interação F-valor valor-P
Sexo*Exper 1,615 0,20
Sexo*Posicão 0,001 0,97
Exper*Posição 7,594 0,00

191 30
0.10

0.05

213 144
0.04
0.08

139 178 4
Distância de Cook

30
Medida h

0.03
0.06

0.02
0.04

0.01
0.02

0.00

0 50 100 150 200 0 50 100 150 200

Índice Índice
(a) (b)
2

2
Resíduo Studentizado

Resíduo Studentizado
1

1
0

0
−1

−1
−2

−2

0 50 100 150 200 120 130 140 150 160 170

Índice Valor Ajustado
(c) (d)

Figura 1.12: Gráficos de diagnóstico referentes ao modelo normal linear ajus-

tado aos dados sobre salário de executivos.
Aplicando o método AIC nenhuma variável é retirada do modelo. As esti-
mativas são apresentadas na Tabela 1.14. Nota-se portanto que na presença

99
de experiência e posição as mulheres ganham em média mais do que os ho-
mens. Quando essas variáveis são ignoradas, ocorre o contrário, como foi
visto na análise descritiva. Experiência e posição são variáveis importantes
e devem também permanecer no modelo.
Verifica-se a seguir se é possı́vel incluir alguma interação de 1a ordem.
Essas interações são de interesse e também interpretáveis. Por exemplo,
presença de interação entre os fatores sexo e experiência significa que a dife-
rença entre os salários médios de executivos e executivas não é a mesma
à medida que varia o tempo de experiência. Na Tabela 1.15 são apre-
sentados os valores da estatı́stica F bem como o valor-P correspondente
para testar a ausência das interações sexo*experiência, sexo*posição e ex-
periência*posição, respectivamente, dado que estão no modelo constante +
sexo + experiência + posição. Portanto, será incluı́da no modelo apenas
a interação experi^ ao. As estimativas do modelo final com a
encia*posiç~
interação experiência*posição são apresentadas na Tabela 1.16.
Na Figura 1.12 são apresentados os gráficos de diagnóstico. Algumas ob-
servações aparecem como pontos de alavanca (Figura 1.12a), três observações
são destacadas como possivelmente influentes (Figura 1.12b) e não há indı́cios
de pontos aberrantes e variância não constante (Figuras 1.12c e 1.12d). Reti-
rando as observações mais influentes, #4 e #30, nota-se variações despropor-
cionais em algumas estimativas, embora não ocorram mudanças inferencias.
Esses pontos causam variações, respectivamente, de -14% e 11% na estima-
tiva do coeficiente de sexo. A observação #4 é uma executiva com salário
anual de USD 139 mil, posição 7 e 13,9 anos de experiência (salário rela-
tivamente baixo para essa posição e experiência) e a observação #30 é de
um executivo com salário anual de USD 110 mil, posição 2 e 2,4 anos de
experiência (menor salário entre os executivos).

100
Tabela 1.16
Estimativas dos parâmetros referentes
ao modelo normal linear final ajustado
aos dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 108,042 36,48
Experiência 0,336 1,07
Sexo -2,811 -2,58
Posição 8,096 13,73
Exper*Posição -0,135 -2,75
2
R 0,72
s 6,67
2
Resíduo Studentizado
0
−2
−4

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 1.13: Gráfico normal de probabilidades referente ao modelo normal

linear final ajustado aos dados sobre salário de executivos.

O modelo final ajustado é portanto dado por

ŷ = 108, 042 + 0, 336 × exper − 2, 811 × sexo

+8, 096 × posic − 0, 135 × posic × exper.

101
Por exemplo, desse modelo, qual o salário previsto para executivos com
5 anos de experiência e posição 4?

• Executiva: USD 139,406 mil

• Executivo: USD 136,595 mil.

O modelo ajustado para o grupo de mulheres é dado por

ŷ = 108, 042 + 8, 096 × posic + (0, 336 − 0, 135 × posic) × exper.

Examinando a equação acima nota-se que as executivas com posição alta e

muita experiência tendem a ganhar menos do que executivas com posição
alta e menos experiência. Isso quer dizer que aquelas executivas que perma-
neceram menos tempo no cargo tendem a ganhar mais do que aquelas que
ficarem mais tempo no cargo. Mesmo resultado para os homens.
Nota-se neste exemplo a importância da interação na interpretação dos
resultados. Ignorando as variáveis posição e experiência tem-se que o salário
médio dos executivos é significativamente maior do que o salário médio
das executivas. Porém, quando essas variáveis entram no modelo ocorre
o contrário, para uma mesma posição e mesma experiência as executivas
ganham em média mais. Pela Figura 1.13 nota-se que não há indı́cios de
afastamentos da suposição de normalidade para os erros.

1.13 Exercı́cios
1. Se Y pertence à famı́lia exponencial de distribuições, então a função
densidade ou função de probabilidades de Y pode ser expressa na forma

f (y; θ, φ) = exp[φ{yθ − b(θ)} + c(y; φ)],

102
em que b(·) e c(·; ·) são funções diferenciáveis. Supondo φ conhecido
seja L(θ) = log{f (y; θ, φ)} o logaritmo da função de verossimilhança.
Se L(θ) é pelo menos duas vezes diferenciável em θ mostre que
2 ( 2 )
∂L(θ) ∂ L(θ) ∂L(θ)
E =0 e E = −E .
∂θ ∂θ2 ∂θ

2. Seja Y ∼ ES(µ, φ) (distribuição estável) cuja função densidade de pro-

babilidade é dada por

f (y; θ, φ) = a(y, φ)exp[φ{θ(y + 1) − θ log(θ)}],

em que θ > 0, −∞ < y < ∞, φ−1 > 0 é o parâmetro de dispersão

e a(·, ·) é uma função normalizadora. Mostre que essa distribuição
pertence à famı́lia exponencial de distribuições. Encontre a função de
variância e os componentes da função desvio d∗2 (yi ; µ̂i ).
ind
3. Supor agora que Yij ∼ ES(µi , φ), para i = 1, 2 e j = 1, . . . , m, em que
µ1 = η1 = α − ∆ e µ2 = η2 = α + ∆. Mostre que µ̂1 = ȳ1 e µ̂2 = ȳ2 .
Como ficam as matrizes X e W? Obter as variâncias e covariância
ˆ e Cov(α̂, ∆).
assintóticas Var(α̂), Var(∆) ˆ Mostre que a estatı́stica do
teste de Wald para testar H0 : α − ∆ = 0 contra H1 : α − ∆ 6= 0 pode
ser expressa na forma
ξW = mφ̂ȳ12 eȳ1 .

Qual a distribuição nula assintótica da estatı́stica do teste?

4. Seja Y o número de ensaios independentes até a ocorrência do r-ésimo

sucesso, em que π é a probabilidade de sucesso em cada ensaio. Denote
Y ∼ Pascal(r, π) (distribuição de Pascal) cuja função de probabilidade
é dada por
y−1 r
f (y; r, π) = π (1 − π)(y−r) ,
r−1

103
y
para y = r, r +1, . . . e 0 < π < 1. Mostre que Y ∗ = r
pertence à famı́lia
exponencial de distribuições. Encontre a função de variância V (µ), em
ind
que µ = E(Y ∗ ). Supor agora que Yi ∼ Pascal(r, πi ) para i = 1, . . . , n.
Obtenha os componentes d∗2 (yi ; π̂i ) da função desvio.

5. Considere a seguinte função densidade de probabilidade:

φa(y, φ) 1
f (y; θ, φ) = 1 exp[φ{yθ + (1 − θ2 ) 2 }],
π(1 + y 2 ) 2

em que 0 < θ < 1, −∞ < y < ∞, φ−1 > 0 é o parâmetro de dispersão

e a(·, ·) é uma função normalizadora. Mostre que essa distribuição per-
tence à famı́lia exponencial. Encontre a função de variância. Obtenha
a função desvio supondo uma amostra de n variáveis aleatórias inde-
pendentes de médias µi e parâmetro de dispersão φ−1 , i = 1, . . . , n.
Obter R2 .

6. Mostre que a distribuição logarı́tmica, com função de probabilidade

f (y; ρ) = ρy /{−ylog(1 − ρ)},

em que y = 1, 2, . . . e 0 < ρ < 1, pertence à famı́lia exponencial.

Calcule µ e V (µ). Obtenha a função desvio supondo uma amostra de
n variáveis aleatórias independentes de parâmetros ρi , i = 1, . . . , n.
Obter R2 .
ind
7. Supor que Yi ∼ LG(ρi ), para i = 1, . . . , n, em que ρi = eα /(1 + eα ) e
LG denota distribuição logarı́tmica. Mostre que a variância assintótica
de α̂ pode ser expressa na forma Var(α̂) = τ 2 (α)/neα {τ (α) − eα }, em
que τ (α) = (1 + eα )log(1 + eα ). Como fica a estatı́stica do teste de
escore para testar H0 : α = 0 contra H1 : α 6= 0? Qual a distribuição
nula assintótica da estatı́stica do teste?

104
iid
8. Supor Yi ∼ Ge(π) em que π = exp(α)/{1 + exp(α)}, para i = 1, . . . , k.
Obter a estimativa de máxima verossimilhança α
b e a respectiva variância
assintótica Var(b
α). Mostre que a estatı́stica do teste da razão de veros-
similhanças para testar H0 : α = 0 contra H1 : α 6= 0 pode ser expressa
na forma
2
ξRV = 2n αb + ȳ log .
1 + eαb
Qual a distribuição nula assintótica da estatı́stca do teste? A função
de probabilidade de Yi é dada por f (yi ; π) = π(1 − π)(yi −1) , para yi =
1, 2, . . ., 0 < π < 1 e tem-se que E(Yi ) = 1/π = {1 + exp(α)}/exp(α).
Sugestão: expressar inicialmente o logaritmo da função de verossimi-
lhança em função de α, denote por L(α). Obter Uα e Kαα .
ind
9. Suponha o MLG em que Yi |xi ∼ FE(µi , φ) e parte sistemática dada por
g(µi ; λ) = ηi = x>
i β, com λ escalar desconhecido. Encontre as funções

escore Uβ e Uλ , as funções de informação de Fisher Kββ , Kβλ e Kλλ e

descreva o processo iterativo escore de Fisher para obter a estimativa
de máxima verossimilhança de θ = (β > , λ)> . Como iniciar o processo
iterativo? Sugestão de notação: Λ = ∂η/∂λ, em que η = (η1 , . . . , ηn )> .

10. Suponha agora o modelo de regressão normal linear simples

yi = α + βxi + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre a equivalência entre as
estatı́sticas ξRV , ξW e ξSR para testar H0 : β = 0 contra H1 : β 6= 0.
Supor σ 2 conhecido.

11. Suponha duas populações normais com médias µ1 e µ2 , mesma variância,

e que amostras independentes de tamanhos n1 e n2 foram, respectiva-
mente, obtidas das duas populações. Para o modelo com parte sis-

105
temática µ1 = α + β e µ2 = α − β, mostre que a estatı́stica F para
testar H0 : β = 0 contra H1 : β 6= 0 pode ser expressa na forma
simplificada
(n − 2) n1nn2 (ȳ1 − ȳ2 )2
F= P ,
(yi − ȳ)2 − n1nn2 (ȳ1 − ȳ2 )2
em que ȳ, ȳ1 , ȳ2 são as respectivas médias amostrais.

12. Supor o modelo de regressão linear múltipla yi = x>

i β + i , em que
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n. Mostre que uma estimativa intervalar
de menor comprimento para σ 2 pode ser expressa na forma
(n − p)s2 (n − p)s2

; ,
a b

em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distribuição
χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento do inter-
valo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados (em b) a
Rb
equação a g(n−p) (t)dt = (1 − α) com a = a(b).

13. Considere agora o modelo de regressão linear múltipla yi = x>

i β + i ,
iid
em que i ∼ N(0, σ 2 ), xi = (1, xi2 , . . . , xip )> e β = (β1 , . . . , βp )> , para
i = 1, . . . , n. Mostre que a estatı́stica F para testar H0 : β2 = · · · = βp
contra H1 : βj 6= 0, para pelo menos algum j = 2, . . . , p, pode ser
expressa na forma
R2 (n − p)
F= .
(p − 1)(1 − R2 )
14. Suponha um MLG com ligação canônica e parte sistemática dada por
g(µ1j ) = α1 +βxj e g(µ2j ) = α2 +βxj , j = 1, . . . , r. Interprete esse tipo
de modelo. Obtenha a matriz X correspondente. Como fica o teste de
escore para testar H0 : β = 0? O que significa testar H0 ?

106
15. Sejam Yij , i = 1, 2, 3 e j = 1, . . . , m, variáveis aleatórias mutuamente
independentes pertencentes à famı́lia exponencial tais que E(Yij ) = µij ,
Var(Yij ) = Vij φ−1 e parte sistemática dada por g(µ1j ) = α, g(µ2j ) =
α + ∆ e g(µ3j ) = α − ∆. Responda às seguintes questões:

(i) como fica a matriz modelo X?

(ii) O que significa testar H0 : ∆ = 0? Qual a distribuição nula

assintótica das estatı́sticas ξRV , ξW e ξSR ?
ˆ Var(∆).
(iii) Calcular a variância assintótica de ∆, ˆ

(iv) Mostre que a estatı́stica do teste de escore para testar H0 : ∆ = 0

contra H1 : ∆ 6= 0 fica dada por
φm(ȳ2 − ȳ3 )2
ξSR = .
2V̂0

16. Mostre (1.14) e (1.15). Use o seguinte resultado de álgebra linear:

(A−1 U)(V> A−1 )

(A + UV> )−1 = A−1 − ,
1 + V> A−1 U
em que A é uma matriz não singular e U e V são vetores coluna.
Mostre primeiro que X> ∆X = X> X − (1 − δ)xi x> > >
i e X ∆y = X y −

(1 − δ)xi yi , em que ∆ é uma matriz de 10 s com δ na i-ésima posição.

17. (Cook e Weisberg, 1982). Suponha o modelo de regressão dado em

(1.12). Mostre que γ̂ ∼ N(γ, σ 2 /(1 − hii )). Mostre também que, sob a
hipótese H1 : γ 6= 0, a estatı́stica F tem uma distribuição F1,(n−p−1) (λ),
1 γ 2 (1−hii )
em que λ = 2 σ2
é o parâmetro de não centralidade. Comente
sobre o poder desse teste para 0 ≤ hii < 1. Use o resultado: se
Y ∼ Nn (µ, σ 2 I) então y> y/σ 2 ∼ χ2n (λ), em que λ = 21 µ> µ/σ 2 .

107
18. (Pregibon, 1982). Mostre que a estatı́stica de escore para testar que o i-
ésimo ponto é aberrante num MLG com φ conhecido e parte sistemática
g(µi ) = x> 2
i β é dada por tSi , em que
√
φ(yi − µ̂i )
tSi = q ,
V̂i (1 − ĥii )

sendo µ̂i , V̂i e ĥii = ω̂i x> > −1

i (X ŴX) xi avaliados em β̂. Qual a dis-

tribuição nula assintótica de t2Si ? Como seria interpretado o gráfico de

t2Si contra a ordem das observações? Sugestão : chame η = Xβ + γz,
em que z é um vetor n × 1 de zeros com 1 na i-ésima posição, calcule
Var(γ̂) e Uγ e teste H0 : γ = 0 contra H1 : γ 6= 0.

19. Em dados de contagem muitas vezes o interesse está apenas nas conta-
gens positivas e nesses casos a distribuição de Poisson truncada em zero
pode ser aplicada para ajustar os dados. A função de probabilidade da
Poisson truncada é expressa na forma
e−λ λy
f (y; λ) = ,
y!(1 − e−λ )
para y = 1, 2, . . ., em que λ > 0. Mostre que Y pertence à famı́lia expo-
nencial de distribuições. Obter E(Y ), a função de variância e Var(Y ).
ind
Supor agora que Yi ∼ PoissonTruncada(λi ) e obtenha os componentes
d∗2 (yi ; λ̂i ) da função desvio, para i = 1, . . . , n.

20. No arquivo reg3.txt são descritas as seguintes variáveis referentes a

50 estados norte-americanos: (i) estado (nome do estado), (ii) pop
(população estimada em julho de 1975), (iii) percap (renda percapita
em 1974 em USD), (iv) analf (proporção de analfabetos em 1970), (v)
expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de
criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem

108
de estudantes que concluem o segundo grau 1970), (viii) ndias (número
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (área do estado em milhas
quadradas). Para ler o arquivo no R use o comando

reg3 = read.table(‘‘reg3.txt’’, header=TRUE).

O objetivo do estudo é tentar explicar a expvida média usando um mo-

delo de regressão normal linear dadas as variáveis explicativas percap,
analf, crime, estud, ndias e dens, em que dens=pop/area.

Inicialmente faça uma análise descritiva dos dados, por exemplo com
boxplot e a densidade da variável resposta e com diagramas de dis-
persão com as respectivas tendências entre a variável resposta e as
variáveis explicativas. Comente essa parte descritiva. Posteriormente,
ajuste o modelo de regressão normal linear com todas as variáveis ex-
plicativas e através do método stepwise (com PE=PS=0,15) faça uma
seleção de variáveis. Uma vez selecionado o modelo faça uma análise
de diagnóstico e apresente as interpretações dos coeficientes estimados
do modelo final.

21. (Wood, 1973). No arquivo reg4.txt estão os dados referentes à produção

de gasolina numa determinada refinaria segundo três variáveis obser-
vadas durante o processo e uma quarta variável que é uma combinação
das três primeiras. A resposta é o número de octanas do produto pro-
duzido. A octanagem é a propriedade que determina o limite máximo
que a gasolina, junto com o ar, pode ser comprimida na câmara de
combustão do veı́culo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas têm uma octanagem alta. Em gran-
des refinarias, o aumento de um octana na produção de gasolina pode

109
representar um aumento de alguns milhões de dolares no custo final da
produção. Assim, torna-se importante o controle dessa variável durante
o processo de produção. Para ler o arquivo no R use o comando

reg4 = read.table(‘‘reg4.txt’’, header=TRUE).

Fazer inicialmente uma análise dscritiva dos dados. Use o método

stepAIC para selecionar as variáveis explicativas significativas. Faça
uma análise de diagnóstico com o modelo selecionado. Comente.

22. (Ryan e Joiner, 1994). No arquivo trees.txt é apresentado um con-

junto de dados que tem sido analisado sob diversos pontos de vista por
vários pesquisadores (ver, por exemplo, Jørgensen, 1989). As variáveis
observadas são o diâmetro (d), a altura (h) e o volume (v) de uma
amostra de 31 cerejeiras numa floresta do estado da Pensilvânia, EUA.
Para ler o arquivo no R use o comando

trees = read.table(‘‘trees.txt’’, header=TRUE).

A relação entre diâmetro, altura e volume de uma árvore depende da

forma da mesma e pode-se considerar duas possibilidades
1
v = πd2 h
4
para forma cilı́ndrica e
1 2
v= πd h
12
para forma cônica. Em ambos os casos a relação entre log(v), log(d) e
log(h) é dada por log(v) = a+b log(d)+c log(h). Supor inicialmente um
modelo linear em que ∼ N(0, σ 2 ). Faça uma análise de diagnóstico e
verifique se é possı́vel melhorar o modelo, por exemplo incluindo algum
termo quadrático.

110
23. No arquivo fuel2001.txt (Weisberg, 2014, Cap.3) são descritas as se-
guintes variáveis referentes aos 50 estados norte-americanos mais o Dis-
trito de Columbia no ano de 2001: (i) UF, unidade da federação, (ii)
Drivers, número de motoristas licenciados, (iii) FuelC, total de gaso-
lina vendida (em mil galões), (iv) Income, renda per capita em 2000
(em mil USD), (v) Miles, total de milhas em estradas federais, (vi) MPC,
milhas per capita percorridas, (vii) Pop, população ≥ 16 anos e (viii)
Tax, taxa da gasolina (em cents por galão). A fim de possibilitar uma
comparação entre as UFs duas novas variáveis são consideradas Fuel =
1000*FuelC/Pop e Dlic = 1000*Drivers/Pop, além da variável Miles
ser substituı́da por log(Miles). Para ler o arquivo no R use o comando

fuel2001 = read.table(‘‘fuel2001.txt’’, header=TRUE).

Considere como resposta a variável Fuel e como variáveis explicativas

Dlic, log(Miles), Income e Tax. Faça inicialmente uma análise descri-
tiva dos dados. Apresente a matriz de correlação entre as variáveis
e diagramas de dispersão entre cada variável explicativa e a variável
resposta. Comente. Aplique o procedimento stepAIC para selecio-
nar as variáveis explicativas. Verifique se é possı́vel incluir alguma
interação de 1a ordem. Com o modelo selecionado faça uma análise de
diagnóstico: análise de resı́duos e distância de Cook. Avalie o impacto
dos pontos destacados. Interprete os coeficientes estimados.

24. No arquivo capm.txt estão os seguintes dados (Ruppert, 2004, Cap.7):

Tbill (taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno
do mercado), retorno GE e retorno FORD de janeiro de 2002 a abril de
2003. Todos os retornos são diários e estão em porcentagem. Construir
inicialmente os diagramas de dispersão (com tendência) entre o excesso
de retorno (yrt −rf t ) de cada uma das empresas Microsoft, GE e FORD

111
e o excesso de retorno do mercado (rmt − rf t ), em que yrt denota o
retorno da ação da empresa, rmt é o retorno do mercado e rf t indica a
taxa livre de risco durante o t-ésimo perı́odo. Posteriormente, ajustar
o seguinte modelo de regressão linear simples para cada ação:

yt = α + βxt + t ,

iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é
maior do que o excesso de retorno do mercado (ação mais volátil do
que o mercado), e se β < 1 o excesso de retorno é menor do que o
excesso de retorno do mercado (ação menos volátil do que o mercado).
O intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.

Para ler o arquivo no R use os comandos

capm = read.table("capm.txt", header=TRUE).

Para deixar o arquivo disponı́vel use o comando

attach(capm).

Por exemplo, para ajustar o excesso de retorno da Microsoft use os

comandos

ymsf = rmsf - tbill

xmerc = sp500 - tbill

ajuste.msf = lm(ymsf ∼ xmerc)

summary(ajuste.msf).

112
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado o
excesso de retorno do mercado.

25. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos

wine = read.table("wine.txt", header=TRUE).

A variável região é categórica com três nı́veis. Assim é possı́vel através

do comando factor do R transformá-la em duas variáveis binárias:
regiao2 = 1 para região 2 e 0 caso contrário e regiao3 = 1 para
região 3 e 0 em caso contrário. A casela de referência será a região 1.
Para acionar o procedimento use o comando

regiao = factor(regiao).

Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão entre a variável
resposta e variáveis explicativas. Selecione incialmente um submodelo
através através do procedimento stepwise usando PE=PS=0,15. Apli-
car análise de resı́duos e de sensibilidade. Interpretar os coeficientes
estimados.

113
Capı́tulo 2

Modelos para Dados Positivos

Assimétricos

2.1 Introdução
A classe de modelos para a análise de dados positivos assimétricos é bastante
ampla incluindo distribuições conhecidas para os erros, tais como gama, nor-
mal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders, dentre ou-
tras. Essas distribuições têm sido particularmente aplicadas na análise de
tempos de sobrevivência (ou duração) com forte ênfase nas áreas médica e
de engenharia (ver, por exemplo, Lawless, 2003). Todavia, dados positivos
assimétricos têm sido também comuns em outras áreas do conhecimento,
como por exemplo pesca, meteorologia, finanças, seguros e atuária (ver, por
exemplo, Jong e Heller, 2008). Um componente importante no estudo de
dados de sobrevivência é a possibilidade de incorporação nas análises de ob-
servações para as quais não foi possı́vel observar a falha (dados censurados).
Com os recentes avanços tecnológicos ocorridos principalmente na fabricação
de equipamentos, os tempos até a ocorrência de falhas estão ficando cada vez
mais longos, aumentando assim a porcentagem de dados censurados. Isso
também pode ser notado na área médica com os avanços nos tratamentos e

114
medicamentos. Todavia, a inclusão de dados censurados nos modelos envolve
um tipo de análise mais especı́fica que está além das metodologias discutidas
neste texto. Sugere-se ao leitor mais interessado consultar textos de análise
de dados de sobrevivência, como por exemplo os livros de Cox e Oakes (1978),
Lawless (2003), Collett (2003), Colosimo e Giolo (2006) e Leiva et al.(2009).
Portanto, neste capı́tulo será discutido apenas dados positivos assimétricos
não censurados sob modelos com resposta gama e normal inversa, os quais
já foram introduzidos no Capı́tulo 1.

2.2 Distribuição gama

Conforme assumido na Seção 1.2.1, supor que Y é uma variável aleatória
1
com distribuição gama de média µ e coeficiente de variação φ− 2 , denota-se
Y ∼ G(µ, φ), e cuja função densidade é expressa na forma
φ
1 φy φy 1
f (yi ; µ, φ) = exp −
Γ(φ) µ µ y
= exp[φ{(−y/µ) − log(µ)} − log{Γ(φ)} + φ log(φy) − log(y)],
R∞
em que y > 0, φ > 0, µ > 0 e Γ(φ) = 0
tφ−1 e−t dt é a função gama. Na
Figura 2.1 tem-se a densidade da distribuição gama variando o parâmetro
de precisão para µ fixado. Pode-se notar que à medida que φ aumenta a
distribuição gama fica mais simétrica em torno da média. Pode ser mostrado
que à medida que φ aumenta Y se aproxima de uma distribuição normal de
média µ e variância µ2 φ−1 . Portanto, a distribuição gama torna-se atrativa
para o estudo de variáveis aleatórias assimétricas e também simétricas em que
a variância depende de forma quadrática da média. Os momentos centrais
de Y são expressos na seguinte forma:
(r − 1)!µr
E(Y − µ)r = ,
φ(r−1)

115
para r = 1, 2, . . .. Assim, expandindo log(Y ) em série de Taylor em torno de
µ até 2a ordem, obtém-se
1 1
log(Y ) ∼
= log(µ) + (Y − µ) − 2 (Y − µ)2 .
µ 2µ
Portanto, para φ grande tem-se que
1
E{log(Y )} ∼
= log(µ) − 2 E(Y − µ)2
2µ
1 µ2
= log(µ) − 2
2µ φ
= log(µ) − (2φ)−1 e
Var{log(Y )} ∼
= φ−1 .

Ou seja, a transformação log(Y ) estabiliza a variância à medida que o coefi-

ciente de variação de Y fica pequeno. Uma outra transformação dada por
( 1 )
Y 3
3 −1
µ

se aproxima da distribuição normal padrão no caso gama (vide McCullagh e

Nelder, 1989, p. 289).

A função de sobrevivência e a função de risco são quantidades usuais na

análise de dados de sobrevivência sendo definidas, respectivamente, por

S(t) = P r{Y ≥ t} e
P r{t ≤ Y < t + δ|Y ≥ t}
h(t) = lim .
δ→0 δ
Em particular, tem-se que a função de risco pode ser expressa na forma
h(t) = f (t)/S(t) com f (y) denotando a função densidade de Y . No caso

116
φ = 0.5 φ=1 φ=2
1.5

0.8

0.6
0.6
1.0

0.4
fdp

fdp

fdp
0.4
0.5

0.2
0.2

0.0
0.0
0.0

0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y

1.2
1.0
0.8

φ=4 φ=6 φ=8

1.0
0.8

0.8
0.6

0.6

0.6
fdp

fdp

fdp
0.4

0.4

0.4
0.2

0.2

0.2
0.0

0.0

0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y

Figura 2.1: Densidades da distribuição gama para alguns valores do

parâmetro de precisão e supondo µ = 1.

da distribuição gama de média µ e parâmetro de dispersão φ−1 a função de

sobrevivência é expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) = 1 − Iλt (φ),

em que Iλt (φ) é a função gama incompleta, dada por

Z λt
1
Iλt (φ) = uφ−1 e−u du,
Γ(φ) 0
com λ = µφ . A função de risco h(t) para a distribuição gama é crescente para
φ > 1 e decrescente para φ < 1. Em particular, quando t → ∞ tem-se que
h(t) → λ.

117
2.3 Modelos com resposta gama
Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ G(µi , φ).
Ou seja, está sendo assumido que essas variáveis possuem médias diferentes
1
e mesmo coeficiente de variação φ− 2 . Ademais, supor que g(µi ) = ηi com
ηi = x > >
i β, xi = (xi1 , . . . , xip ) contendo valores de variáveis explicativas e

β = (β1 , . . . , βp )> sendo o vetor de parâmetros de interesse. As ligações mais

usadas no caso gama são identidade (µi = ηi ), logarı́tmica (log(µi ) = ηi ) e
recı́proca (µi = ηi−1 ), esta última sendo a ligação canônica.
O processo iterativo para estimação de β, como foi visto na Seção 1.6.1,
é dado por
β (m+1) = (X> W(m) X)−1 X> W(m) z(m) ,
1 1
m = 0, 1, . . ., variável dependente modificada z = η + W− 2 V− 2 (y − µ), η =
(η1 , . . . , ηn )> , y = (y1 , . . . , yn )> , µ = (µ1 , . . . , µn )> , V = diag{µ1 , . . . , µn } e
W = diag{ω1 , . . . , ωn } com ωi = (dµi /dηi )2 /µi , i = 1, . . . , n.
É interessante notar que sob ligação logarı́tmica os pesos do processo
µ2i
iterativo para a obtenção de β̂ ficam dados por ωi = µ2i
= 1, de modo que o
processo iterativo assume a forma simplificada

β (m+1) = (X> X)−1 X> z(m) ,

em que z = (z1 , . . . , zn )> com zi = ηi = (yi − µi )/µi e µi = exp(ηi ), i =

1, . . . , n. A variância assintótica de β̂ fica dada por Var(β̂) = φ−1 (X> X)−1 .
Em particular, se as colunas da matriz X são ortogonais, isto é X> X = Ip , em
que Ip é a matriz identidade de ordem p, então Var(β̂j ) = φ−1 e Cov(β̂j , β̂` ) =
0, para j 6= `, ou seja, βj e β̂` são assintoticamente independentes.
Portanto, a ligação logarı́tmica tem um atrativo especial de possibili-
tar o desenvolvimento de experimentos ortogonais como são bem conhecidos

118
em modelos de regressão normal linear. Pode-se escolher formas apropria-
das para a matriz X, de modo que X> X = Ip , e assim obter estimativas
mutuamente independentes e de variância constante para os coeficientes do
preditor linear. Myers et al.(2002, Cap.6) discutem experimentos ortogonais
em MLGs e apresentam alguns exemplos. As ligações identidade (µ = η),
√ √
raiz quadrada ( µ = η) e arcoseno (sen−1 µ = η) produzem o mesmo efeito
em MLGs com resposta normal, Poisson e binomial, respectivamente.
Aplicando, para φ suficientemente grande, a transformação logarı́tmica
na resposta e ajustando E{log(Yi )} = x>
i β, tem-se de forma equivalente

log(µi ) = x> −1
i β + 2φ , ou seja, a menos da constante 2φ
−1
obtém-se as
mesmas estimativas para β de um modelo com resposta gama e ligação lo-
garı́tmica.

2.3.1 Qualidade do ajuste

Como foi visto na Seção 1.4 o desvio de um modelo gama é dado por
D∗ (y; µ̂) = φD(y; µ̂), em que
n
X
D(y; µ̂) = 2 {log(µ̂i /yi ) + (yi − µ̂i )/µ̂i }, (2.1)
i=1

com µ̂i = g −1 (η̂i ) e η̂i = x>

i β̂. Pode ser mostrado facilmente para ligação
Pn
logarı́tmica que o termo i=1 (yi − µ̂i )/µ̂i = 0 se a parte sistemática ηi

contém um intercepto. Nesse caso, a função desvio fica dada por D∗ (y; µ̂) =
2φ ni=1 log(µ̂i /yi ). O parâmetro φ pode ser estimado por máxima verossi-
P

milhança, que equivale a resolver a seguinte equação:

2n{log(φ̂) − ψ(φ̂)} = D(y; µ̂),

em que ψ(φ) = Γ0 (φ)/Γ(φ) é a função digama (vide Seção 1.6.2)¿ Outra

opção é utilizar a estimativa consistente φ̂−1 = (n − p)−1 ni=1 (yi − µ̂i )2 /µ̂2i
P

119
que será discutida no Capı́tulo 5. Supondo que o modelo postulado está
correto tem-se, para φ grande, que o desvio D∗ (y; µ̂) segue distribuição qui-
quadrado com (n − p) graus de liberdade. Assim, valores altos para o desvio
podem indicar inadequação do modelo ou falta de ajuste.
Quando todas as observações são positivas o desvio D∗ (y; µ̂) deve ser
utilizado para avaliar a qualidade do ajuste e estimação de φ. Contudo, se
pelo menos uma observação for igual a zero D∗ (y; µ̂) torna-se inapropriado.
A estimativa para φ nesse caso fica indeterminada. Como foi mencionado na
Seção 1.4, McCullagh e Nelder (1989) sugerem substituir D∗ (y; µ̂) por
n
X n
X
D∗ (y; µ̂) = 2φ{C(y) + log(µ̂i ) + yi /µ̂i },
i=1 i=1

em que C(y) é uma função arbitrária, porém limitada. Se a parte sistemática

do modelo contém um intercepto o desvio acima fica dado por D∗ (y; µ̂) =
2φ{n + C(y) + ni=1 log(µ̂i )}. Na prática φ deve ser estimado.
P

2.3.2 Técnicas de diagnóstico

O resı́duo componente do desvio padronizado assume para os modelos gama
a forma s
2φ̂ 1
tDi = ± {log(µ̂i /yi ) − (yi − µ̂i )/µ̂i } 2 ,
1 − ĥii
em que yi > 0 e hii é o i-ésimo elemento da diagonal principal da matriz
1 1
H = W 2 X(X> WX)−1 X> W 2 com ωi = (dµi /dηi )2 /µ2i , i = 1, . . . , n. Em
particular quando há um intercepto em ηi o resı́duo componente do desvio
tDi assume a forma reduzida
s
2φ̂ 1
tDi = ± {log(µ̂i /yi )} 2 .
1 − ĥii
Estudos de simulação indicam que o resı́duo tDi se aproxima da normalidade,
particularmente para φ grande.

120
Quando a i-ésima observação é excluı́da a distância de Cook aproximada
fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i
Gráficos de tDi e ĥii contra os valores ajustados µ̂i como também gráficos de
ı́ndices de LDi são recomendados para a análise de diagnóstico.

2.4 Aplicações
2.4.1 Comparação de cinco tipos de turbina de avião
Na Tabela 2.1 são descritos os resultados de um experimento conduzido para
avaliar o desempenho de cinco tipos de turbina de alta velocidade para moto-
res de avião (ver Lawless 1982, p. 201). Foram considerados dez motores de
cada tipo nas análises e foi observado para cada um o tempo (em unidades de
milhões de ciclos) até a perda da velocidade. Esses dados estão disponı́veis
no arquivo turbina.txt.

Tabela 2.1
Tempo até a perda da velocidade de cinco
tipos de turbina de avião.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03 3,19 3,46 5,88 6,43
5,53 4,26 5,22 6,74 9,97
5,60 4,47 5,69 6,90 10,39
9,30 4,53 6,54 6,98 13,55
9,92 4,67 9,16 7,21 14,45
12,51 4,69 9,40 8,14 14,72
12,95 5,78 10,19 8,59 16,81
15,21 6,79 10,71 9,80 18,39
16,04 9,37 12,58 12,28 20,84
16,84 12,75 13,41 25,46 21,51

121
Denote por Tij o tempo até a perda da velocidade para o j-ésimo motor
de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo são apresentadas
as médias, desvios padrão e coeficientes de variação amostrais para os cinco
tipos de turbina. Nota-se que os coeficientes de variação parecem variar
menos do que os desvios padrão.
0.08
0.06
Densidade
0.04
0.02
0.00

0 5 10 15 20 25 30
Tempo

Figura 2.2: Densidade aproximada para o tempo até a perda da velocidade

para todos os tipos de turbina de avião.

Estatı́stica Tipo I Tipo II Tipo III Tipo IV Tipo V

Média 10,69 6,05 8,64 9,80 14,71
D.Padrão 4,82 2,91 3,29 5,81 4,86
C. Variação 45,09% 48,10% 38,08% 59,29% 33,04%

Ignorando o tipo de turbina tem-se na Figura 2.2 a densidade aproxi-

iid
mada para o tempo até a perda da velocidade. Assumindo que Tij ∼ G(µ, φ)

122
25
20
15
Tempo
10
5

I II III IV V
Tipo

Figura 2.3: Boxplots robustos do tempo até a perda de velocidade para os

5 tipos de turbina de avião.

obtém-se as estimativas de máxima verossimilhança µ̂ = 9, 98 (0, 73) e φ̂ =

4, 01 (0, 77), confirmando pela estimativa de φ a assimetria à direita para a
distribuição do tempo até a perda da velocidade. Contudo, pelos boxplots
robustos (Hubert e Vandervierin, 2008) correspondentes aos tempos dos
cinco grupos (ver Figura 2.3), nota-se distribuições mais assimétricas para
os tipos II, III e IV e medianas e variabilidades distintas com algumas ob-
servações destoando como aberrantes. Assim, como o coeficiente de variação
parece ser o menos heterogêneo dentre as medidas de variabilidade, sugere-se
inicialmente distribuição gama de médias diferentes e coeficiente de variação
constante para explicar o tempo médio até a perda da velocidade.
ind
Assume-se então para o componente aleatório do modelo que Tij ∼
G(µi , φ), i = 1, . . . , 5 e j = 1, . . . , 10. A fim de facilitar as interpretações
dos resultados ou mesmo fazer comparações com o modelo normal linear,

123
propõem-se um modelo gama com ligação identidade, sendo a parte sis-
temática dada por
µi = µ + βi ,

em que β1 = 0 (casela de referência). Para ler os dados no R e ajustar o

modelo gama deve-se aplicar os comandos

turbina = read.table("turbina.txt", header=TRUE)

attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo ∼ tipo, family=Gamma(link=identity))
summary(fit1.turbina)
require(MASS)
gamma.shape(fit1.turbina).

As estimativas de máxima verossimilhança ficam dadas por µ̂ = 10, 693 (1, 543),
β̂2 = −4, 643 (1, 773), β̂3 = −2, 057 (1, 983), β̂4 = −0, 895 (2, 093) e β̂5 =
4, 013 (2, 623) indicando para o tipo II um tempo médio de sobrevivência sig-
nificativamente menor do que o tipo I ao nı́vel de 5%. Para o tipo V nota-se
um tempo médio maior do que o tipo I, enquanto que os outros três tipos
apresentam tempos médios pouco diferentes do tipo I. Esses resultados con-
firmam a análise descritiva apresentada na Figura 2.3. O desvio do modelo
foi de D∗ (y; µ̂) = 8, 862 × 5, 804 = 51, 43, com 45 graus de liberdade, que
leva a P = 0, 236 e indica um ajuste adequado.
Tem-se que D∗ (y; ȳ) = 12, 945, logo o coeficiente de determinação fica
8,862
dado por R2 = 1− 12,945 = 0, 3154. Levando-se em conta que é raro encontrar
MLGs (exceto caso normal) com R2 > 0, 40, tem-se indicação de um ajuste
adequado.
A estimativa de máxima verossimilhança (erro padrão aproximado) do

124
47

0.8
0.6
49
Distância de Cook
0.4
0.2
0.0

0 10 20 30 40 50
Índice

Figura 2.4: Gráfico da distância de Cook aproximada referente ao modelo

gama ajustado ao dados sobre desempenho de turbinas de avião.

parâmetro de precisão é dada por φ̂ = 5, 804 (1, 129), indicando que as

distribuições dos tempos até a perda da velocidade não devem ser muito
assimétricas. Pode-se tentar avaliar através de um teste apropriado se os
indı́cios observados pelas estimativas individuais das médias são verificados
conjuntamente. As hipóteses apropriadas são dadas por H0 : β4 = β3 = 0
contra H1 : β4 6= 0 e/ou β3 6= 0, que equivalem a testar o agrupamento dos
tipos I, III e IV. Como φ̂ é relativamente alto pode-se aplicar a estatı́stica F
dada na Seção 1.7. Assim, sob H0 obtém-se D(y; µ̂) = 9, 091 para 47 graus
de liberdade e sob a hipótese alternativa D(y; µ̂) = 8, 861 para 45 graus de
liberdade. A estatı́stica F fica então dada por
(9, 091 − 8, 861)/2
F =
8, 861/45
= 0, 584,

que leva a P = 0, 562, ou seja, pela não rejeição de H0 . As novas estimativas

125
são dadas por µ̂ = 9, 71 (0, 81), β̂2 = −3, 66 (1, 19) e β̂5 = 5, 00 (2, 27).
Obtém-se φ̂ = 5, 66 (1, 10) e D∗ (y; µ̂) = 51, 47 para 47 graus de liberdade
com P = 0, 30.

3
2
Resíduo Componente do Desvio
1
0
−1
−2

6 8 10 12 14
Valor Ajustado

Figura 2.5: Resı́duo componente do desvio contra o valor ajustado referente

ao modelo gama ajustado aos dados sobre desempenho de turbinas de avião.

Na Figura 2.4 tem-se o gráfico de ı́ndices da distância de Cook aproxi-

mada. Nota-se um forte destaque para a observação #49 seguida da ob-
servação #47 que correspondem, respectivamente, aos valores 25,46 e 12,75
para o tempo até a perda da velocidade de um dos motores de tipo IV e
tipo II. O valor 25,46, como é mostrado na Tabela 2.1, destoa dos demais
tempos. A eliminação dessa observação aumenta a significância marginal de
β4 , embora esse efeito continue não significativo a 10%. Não há mudanças
inferenciais nos demais resultados.

O gráfico do resı́duo componente do desvio contra o valor ajustado (Fi-

126
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.6: Gráfico normal de probabilidades referente ao modelo gama ajus-

tado aos dados sobre desempenho de turbinas de avião.

gura 2.5) indica que a variabilidade foi controlada, ou seja, é adequado supor
homogeneidade do coeficiente de variação nos 5 grupos. Já o gráfico normal
de probabilidades com envelope para o resı́duo componente do desvio é apre-
sentado na Figura 2.6 e pode-se notar que não há indı́cios de afastamentos
importantes da suposição de distribuição gama para os tempos até a perda
da velocidade dos motores. Portanto, pode-se concluir neste exemplo que
não há diferença significativa entre os tipos I, III e IV, enquanto os tipos II
e V aparecem de forma significativa com o menor e maior tempo médio até
a perda da velocidade, respectivamente.

2.4.2 Espinhel de fundo

O espinhel de fundo é definido como um método de pesca passivo, sendo
utilizado em todo o mundo em operações de pesca de diferentes magnitudes,

127
da pesca artesanal a modernas pescarias mecanizadas. É adequado para
capturar peixes com distribuição dispersa ou com baixa densidade, além de
ser possı́vel utilizá-lo em áreas irregulares ou em grandes profundidades. É
um dos métodos que mais satisfazem às premissas da pesca responsável,
com alta seletividade de espécies e comprimentos, alta qualidade do pescado,
consumo de energia baixo e pouco impacto sobre o fundo oceânico. No
arquivo pesca.txt estão parte dos dados de um estudo sobre a atividade
das frotas pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no
litoral paulista (vide Paula e Oshiro, 2001). A espécie de peixe considerada é
o peixe-batata pela sua importância comercial e ampla distribuição espacial.
Uma amostra de n = 156 embarcações foi analisada no perı́odo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos.
0.004
0.003
Densidade
0.002
0.001
0.000

0 200 400 600

cpue

Figura 2.7: Densidade aproximada da cpue para todas as embarcações.

As variáveis consideradas para cada embarcação são as seguintes: frota

128
(Santos ou Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude (sul)1 (de
23,25o a 28,25o ), longitude (oeste)2 (de 41,25o a 50,75o ), dias de pesca, cap-
tura (quantidade de peixes batata capturados, em kg) e cpue (captura por
unidade de esforço, kg/dias de pesca). Um dos objetivos desse estudo é ten-
tar explicar a cpue méida pelas variáveis frota, ano, trimestre, latitude e
longitude. Estudos similares realizados em outros paı́ses verificaram que é
bastante razoável supor que a cpue tem distribuição assimétrica à direita,
como é o caso da distribuição gama (vide, por exemplo, Goni et al.,1999).
600
500
400
cpue
300
200
100

Santos Ubatuba
Frota

Figura 2.8: Boxplots da cpue segundo a frota.

Para ler o arquivo pesca.txt no R deve-se fazer o seguinte:

pesca = read.table("pesca.txt", header=TRUE)

frota = factor(frota)
ano = factor(ano)
1
distância ao Equador medida ao longo do meridiano de Greenwich
2
distância ao meridiano de Greenwich medida ao longo do Equador

129
600
500
400
cpue
300
200
100

95 96 97 98 99
Ano

Figura 2.9: Boxplots da cpue segundo o ano.

trimestre = factor(trimestre).

Tabela 2.2
Medidas resumo para a distribuição da cpue segundo a frota e o ano.
Frota Estatı́stica 95 96 97 98 99
Média 229,37 193,19 262,67 210,29 197,22
Santos D.Padrão 148,07 132,55 153,60 122,95 103,45
C. Variação 64,55% 68,61% 58,48% 58,44% 52,45 %
n 19 8 17 27 46

Média 47,08 96,09 210,56 174,43 140,85

Ubatuba D. Padrão 4,73 59,19 77,51 99,16 71,59
C. Variação 10,05% 61,60 % 36,81% 56,85% 50,83%
n 3 12 6 5 13

Antes de propor um modelo para tentar explicar a cpue média pelas

variáveis explicativas, será apresentada uma análise descritiva dos dados. Na
Figura 2.7 tem-se a distribuição da cpue para todas as embarcações e pode-se

130
600
500
400
cpue
300
200
100

1 2 3 4
Trimestre

Figura 2.10: Boxplots da cpue segundo o trimestre.

notar uma assimetria acentuada à direita, confirmando constatações de estu-

dos anteriores. Já nas Figuras 2.8, 2.9 e 2.10 são apresentados os boxplots
robustos da cpue segundo os fatores frota, ano e trimestre, respectivamente.
Nota-se uma superioridade da frota de Santos em relação à frota de Ubatuba,
porém poucas diferenças entre os nı́veis dos fatores ano e trimestre, embora
o ano de 97 tenha uma mediana um pouco superior aos demais anos.
Pela Figura 2.11 nota-se que a frota de Santos prefere latitudes e lon-
gitudes maiores do que a frota de Ubatuba. Pelos diagramas de dispersão
entre cpue e latitude e cpue e longitude, apresentados na Figura 2.12, há
indı́cios de um ligeiro crescimento da cpue com a latitude, porém não está
bem definida a tendência da cpue com a longitude.
Na Tabela 2.2 são apresentadas as médias, desvios padrão e coeficientes de
variação amostrais para as frotas de Santos e Ubatuba referentes ao perı́odo
95-99. Nota-se que o coeficiente de variação é mais homogêneo na frota de

131
48
28

47
27

46
LOngitude
26
Latitude

45
44
25

43
24

42
41
Santos Ubatuba Santos Ubatuba
Latitude Longitude

Figura 2.11: Boxplots da latitude e longitude segunda a frota.

Santos e em geral, exceto para os anos de 95 e 97 para a frota de Ubatuba, fica

entre 50% e 70%. Porém deve-se levar em conta que para a frota de Ubatuba
as amostras são pequenas. Como todas essas análises são marginais, somente
através de um modelo apropriado é que será possı́vel conhecer o efeito de cada
variável explicativa na presença das demais na variação da cpue média. Será
então assumido inicialmente um modelo de regressão com resposta gama
modelando-se a média com coeficiente de variação constante.
Definindo então Yijk` como sendo a cpue observada para a i-ésima em-
barcação da j-ésima frota, (Santos, j = 1; Ubatuba j = 2), no k-ésimo ano
ind
e `-ésimo trimestre (k, ` = 1, 2, 3, 4), supor que Yijk` ∼ G(µijk` , φ) com parte
sistemática dada por

log(µijk` ) = α + βj + γk + θ` + δ1 Latitudeijk` + δ2 Longitudeijk` , (2.2)

em que βj , γk e θ` denotam, respectivamente, os efeitos da j-ésima frota, k-

ésimo ano e `-ésimo trimestre. Como está sendo assumindo parametrização

132
casela de referência tem-se as restrições β1 = 0, γ1 = 0 e θ1 = 0. Latitudeijk`
e longitudeijk` denotam, respectivamente, a latitude e longitude da i-ésima
embarcação da frota j no k-ésimo ano e trimestre `.
600

600
500

500
400

400
cpue

cpue
300

300
200

200
100

100

24 25 26 27 28 41 42 43 44 45 46 47 48
Latitude Longitude

Figura 2.12: Diagramas de dispersão da cpue contra latitude e contra longi-

tude.

Ajustando aos dados o modelo gama com parte sistemática dada por
(2.2) e aplicando o método de Akaike (vide Seção 1.11.2) retira-se o fator
trimestre, permanecendo no modelo os fatores frota e ano além das variáveis
quantitativas latitude e longitude. Para ajustar o modelo e selecionar as
variáveis explicativas deve-se aplicar os seguintes comandos:

attach(pesca)
fit1.pesca = glm(cpue ∼ frota + ano + trimestre + latitude +
longitude, family=Gamma(link=log))
summary(fit1.pesca)
require(MASS)

133
stepAIC(fit1.pesca).

Tabela 2.3
Estimativas dos parâmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Efeito Estimativa E/E.Padrão
Constante 6,898 3,00
Latitude 0,204 2,81
Longitude -0,150 -1,97
Frota-Ubatuba -1,359 -3,68
Ano96 -0,064 -0,26
Ano97 0,141 0,74
Ano98 -0,043 -0,25
Ano99 -0,009 -0,06
FrotaUb*Ano96 0,806 1,77
FrotaUb*Ano97 1,452 3,20
FrotaUb*Ano98 1,502 3,32
FrotaUb*Ano99 1,112 2,76
φ 3,67 9,17

O procedimento stepAIC assume que o parâmetro φ é constante, ou seja,

não muda de um modelo para o outro. Como isso, em geral, não é satisfeito
deve-se aplicar algum procedimento alternativo a fim de confirmar o modelo
escolhido pelo método AIC. Então foi aplicado o mesmo procedimento através
da estatı́stica da razão de versossimilhanças, confirmando-se a retirada do
fator trimestre.
O teste da razão de verossimilhanças para incluir a interação entre os
dois fatores que permaneceram no modelo, frota e ano, foi de ξRV = 14, 26
para 4 graus de liberdade, obtendo-se P = 0, 0065. Portanto, a interação
será incluı́da no modelo. As estimativas do modelo final que inclui os efeitos
principais latitude, longitude, frota e ano além da interação entre ano e frota
são apresentadas na Tabela 2.3. O desvio do modelo foi de D∗ (y; µ̂) = 162, 66

134
com 144 graus de liberdade e P = 0, 14, indicando um modelo bem ajustado.
D(y;µ̂)
Tem-se ainda que R2 = 1 − D(y;ȳ) = 49,464
59,362
= 0, 1667.
250
200
cpue estimada

150
100

Santos
Ubatuba
50

95 96 97 98 99

Ano

Figura 2.13: Estimativas da cpue média para as frotas de Santos e Ubatuba

segundo o ano de operação fixando-se a latitude em 26o e a longitude em 46o
através do modelo gama.

Nota-se que à medida que aumenta a latitude aumenta a cpue, ocorrendo

tendência contrária à medida que aumenta a longitude. Logo, para latitudes
altas e longitudes baixas (dentro dos limites amostrais), espera-se valores
maiores para a captura por unidade de esforço. Com relação à frota e ao ano,
como foi incluı́da interação entre esses fatores, a interpretação das estimativas
deve ser feita com um pouco mais de cuidado. Para isso, é exibido na Figura
2.13 os valores esperados da cpue fixando latitude e longitude nos valores,
respectivamente, 26o e 46o . Nota-se que até 96 os valores preditos para a
frota de Ubatuba são bem menores do que os valores preditos para a frota de

135
Santos. Contudo, a partir de 97 as diferenças entre os valores preditos para
as duas frotas diminuem. Os valores preditos para a frota de Santos variam
pouco no perı́odo 95-99, diferentemente dos valores preditos para a frota de
Ubatuba.

2
Componente do Desvio
1
0
−1
−2

50 100 150 200 250 300

Valor Ajustado

Figura 2.14: Gráfico do resı́duo componente do desvio contra o valor ajustado

referente ao modelo gama ajustado aos dados sobre espinhel de fundo.

Na Figura 2.14 tem-se o gráfico do resı́duo componente do desvio con-

tra o valor ajustado, indicando que a variabilidade foi controlada, ou seja,
é razoável supor coeficiente de variação constante. No gráfico da distância
de Cook aproximada (Figura 2.15) Três observações aparecem como possi-
velmente influentes, as embarcações #8, #17 e #52. A retirada de cada
embarcação individualmente não muda a inferência, porém a retirada da ob-
servação #17 aumenta a significância da latitude e longitude. A embarcação
#17 é da frota de Santos, obteve uma cpue de 450 (valor médio 195,5) numa
latitude de 24,75o (valor médio 26,22o ) e longitude de 46,25o (valor médio

136
1.2
8

1.0
17

0.8
Distância de Cook
0.6
0.4
0.2
0.0

0 50 100 150
Índice

Figura 2.15: Gráfico da distância de Cook aproximada referente ao modelo

gama ajustado aos dados sobre espinhel de fundo.

46,26o ) no ano de 99. Esperava-se para essa embarcação um valor menor

para a cpue levando-se em conta os valores da latitude e longitude. Trata-se
portanto de uma embarcação atı́pica. O gráfico normal de probabilidades
com envelope gerado (Figura 2.16) não apresenta indı́cios fortes de que a
distribuição gama seja inadequada para explicar a cpue.

2.4.3 Aplicação em seguros

A fim de ilustrar uma aplicação na área de seguros, considere parte dos da-
dos descritos em de Jong e Heller (2008, pgs. 14-15) referentes aos valores
pagos de seguros individuais (em dólares australianos) por danos com aci-
dentes pessoais no perı́odo de julho de 1989 a junho de 1999. As análises
serão restritas ao perı́odo de janeiro de 1998 a junho de 1999, um total de
769 seguros pagos. Além do valor pago ao segurado serão consideradas as se-

137
3
2
1
Componente do Desvio
0
−1
−2
−3
−4

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.16: Gráfico normal de probabilidades referente ao modelo gama

ajustado aos dados sobre espinhel de fundo.

guintes variáveis explicativas: legrep, representação legal (0: não, 1: sim) e

optime, tempo operacional para pagamento do seguro. Essa última variável
assume valores no intervalo (0, 100) e por exemplo um valor 23 significa que
23% dos seguros foram pagos antes do seguro em análise. Como está sendo
considerado apenas parte dos dados (referentes aos últimos 18 meses), os va-
lores de optime irão variar de 0,1 a 31,9. O subconjunto de dados analisado
está descrito no arquivo insurance.txt.
Na Figura 2.17 tem-se o diagrama de dispersão entre o logaritmo do valor
pago e o tempo operacional para os grupos sem representação legal e com
representação legal. Nota-se para as apólices sem representação legal um
crescimento aproximadamente quadrático do logaritmo do valor pago com
o tempo operacional, contudo a variablidade parece ser maior para valores
baixos do tempo operacional. Já para as apólices com representação legal

138
11
10

10
log(Valor do Seguro)

log(Valor do Seguro)
8

9
8
6

7
6
4

5
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Tempo Operacional Tempo Operacional

Figura 2.17: Diagrama de dispersão entre o valor pago de seguro e o tempo

operacional para os grupos sem representação legal (esquerda) e com repre-
sentação legal (direita).

nota-se que o logaritmo do valor pago cresce linearmente com o tempo ope-
racional enquanto a variabilidade se mantém aproximadamente constante.
Nota-se também que os valores pagos de seguro são em geral maiores para o
grupo com representação legal.
Na Figura 2.18 tem-se a distribuição aproximada do valor pago de seguro
para os dois grupos, sem representação legal e com representação legal. Em
ambos os gráficos pode-se notar que a distribuição é fortemente assimétrica à
direita, sugerindo distribuições gama ou normal inversa para explicar o valor
pago de seguro.
Denote por Yij o valor pago de seguro para o j-ésimo indivı́duo do i-
ésimo grupo (i = 0, sem representação legal e i = 1 com representação
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pela
ind
Figura 2.18 será assumido inicialmente Yij ∼ G(µij , φi ) com componentes

139
0.00012
0.00012

0.00010
0.00010

0.00008
0.00008
Densidade

Densidade
0.00006
0.00006

0.00004
0.00004

0.00002
0.00002
0.00000

0.00000
0 10000 20000 30000 40000 50000 0 20000 40000 60000 80000 100000 120000
Valor do Seguro Valor do Seguro

Figura 2.18: Distribuição do valor de seguro para os grupos sem repre-

sentação legal (esquerda) e com representação legal (direita).

sistmáticos dados por

log(µ0j ) = α0 + β10 optimej + β20 optime2j e

log(µ1j ) = α1 + β11 optimej .

Para ler os dados no R e ajustar o modelo deve-se aplicar os comandos

insurance = read.table("insurance.txt", header=TRUE)

attach(insurance)
fit0.insurance = glm(amount0 ∼ optime0 + I(optime02 ),
family=Gamma(link=log))
summary(fit0.insurance)
fit1.insurance = glm(amount1 ∼ optime1, family=Gamma(link=log))
summary(fit1.insurance)
require(MASS)

140
gamma.shape(fit0.insurance)
gamma.shape(fit1.insurance).

Tabela 2.4
Estimativas dos parâmetros referentes
aos modelos com resposta gama ajustados
aos dados sobre seguro.
Parâmetro Estimativa E/E.Padrão
α0 7,223 44,13
β10 0,204 6,72
β20 -0,005 -5,08
φ0 0,779 12,55

α1 8,805 140,50
β11 0,023 5,48
φ1 2,225 17,66
As estimativas dos parâmetros dos modelos propostos, que foram ajusta-
dos separadamente, são descritas na Tabela 2.4. Nota-se pelas estimativas
que as tendências observadas na Figuras 2.17 foram confirmadas de forma
significativa. Contudo, pelos gráficos normais de probabilidade (Figura 2.19)
nota-se indı́cios de afastamentos da distribuição gama para o valor pago de
seguro, principalmente para o grupo com representação legal. Para o grupo
sem representação legal nota-se que os menores valores do seguro foram su-
perestimados pelo modelo.
Os desvios dos dois modelos foram, respectivamente, de D∗ (y; µ̂) = 0, 779×
347, 15 = 270, 70 com 224 graus de liberdade e D∗ (y; µ̂) = 2, 225 × 261, 45 =
581, 73 com 540 graus de liberdade. Embora as estimativas de φ0 e φ1 se-
jam relativamente pequenas, há indı́cios pelos valores dos desvios de que
os modelos não estão bem ajustados. Os coeficientes de determinação ficam,
261,45
respectivamente, dados por R2 = 1− 347.15
419,59
= 0, 173 e R2 = 1− 283,83 = 0, 079,
confirmando um ajuste mais adequado para o grupo sem representação legal.

141
4
2

2
Componente do Desvio

Componente do Desvio
0

0
−2

−2
−4
−4

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)

Figura 2.19: Gráfico normal de probabilidades para os modelos com resposta

gama ajustados aos dados de seguro para os grupos sem representação legal
(esquerda) e com representaçõa legal (direita).

Analisando os gráficos da distância de Cook e resı́duo componente do

desvio contra o valor ajustado (Figrua 2.20) apenas para o grupo sem re-
presentação legal, nota-se que não há indı́cios de observações aberrantes,
contudo algumas observações aparecem como possivelmente influentes. Es-
sas observações em geral correspondem a valores altos para o valor pago de
seguro. A eliminação das observações destacadas não muda a inferência,
todos os coeficientes continuam altamente significativos.
Para o grupo com representação legal a utilização de outras ligações
ou mesmo outras distribuições são alternativas a fim de tentar melhorar
a qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos
com resposta gama com modelos com respostas Birnbaum-Saunders (BS)
e Birnbaum-Saunders-t (BS-t) para explicar o valor pago de seguro para o
grupo com representação legal, obtendo um ajuste satisfatório com o modelo

142
0.35

2
0.30
0.25

1
Componente do Desvio
Distância de Cook
0.20

46
221

0
207
0.15

−1
0.10
0.05

−2
0.00

0 50 100 150 200 2000 4000 6000 8000 10000

Índice Valor Ajustado

Figura 2.20: Gráficos de diagnóstico para o modelo com resposta gama ajus-
tado aos dados de seguro para o grupo sem representação legal.

BS-t. Essa distribuição acomoda melhor as observações aberrantes que cor-

respondem a valores altos de seguro. Recentemente, Cardozo et al. (2022)
ajustaram os dados do valor de seguro pago para o grupo sem representação
legal através de modelo log-linear com componente aditivo ao invés de com-
ponente quadrático e resposta gama generalizada, obtendo um ajuste mais
adequado para explicar o valor pago de seguro..

2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estimação
da elasticidade entre a demanda de um produto e seu preço unitário. Como
ilustração, supor que Y denota a demanda e X o preço unitário. É usual em
Econometria (ver, por exemplo, Gujarati, 2006, Seção 6.4) assumir que

Y = β 1 xβ 2 e u , (2.3)

143
em que u é um erro aleatório, em geral assumido N(0, σ 2 ). Isso implica em
2 /2 2 2
eu seguir distribuição log-normal de média eσ e variância eσ (eσ − 1). Em
vez de uma log-normal pode-se assumir, alternativamente, outra distribuição
com resposta positiva. Por exemplo, eu ∼ G(1, φ). Assim, tem-se que a
média de Y dado x fica dada por

µ(x) = β1 xβ2 ,

ou seja log(µ(x)) = log(β1 )+β2 log(x), um MLG com resposta gama e ligação
logarı́tmica.
Para entender a elasticidade entre a demanda e o preço do produto, supor
que o preço aumente r × 100% de modo que o novo preço seja dado por
xN = (1 + r)x, para 0 < r < 1. O novo valor esperado para a demanda fica
dado por
µ(xN ) = β1 xβN2

e a razão entre as demandas médias assume a forma

µ(xN )
= eβ2 log(1+r)
µ(x)
= (1 + r)β2 .

Para r pequeno tem-se a aproximação

µ(xN ) ∼
= (1 + rβ2 ),
µ(x)

de modo que se o preço aumentar 1% (r = 0, 01) a demanda aumenta β2 %,

ou seja,
µ(xN ) β2
= 1+ .
µ(x) 100
O parâmetro β2 é conhecido como elasticidade entre a demanda e o preço do
produto.

144
2.5.1 Modelo de Cobb-Douglas
O modelo (2.3) pode ser estendido para duas ou mais variáveis explicativas
as quais poderão representar outros tipos de preço ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equação para explicar a demanda
de um produto pelos insumos de mão de obra e capital:

Y = β1 xβ2 2 xβ3 3 eu , (2.4)

em que Y denota a demanda, x2 o valor do insumo de mão de obra, x3 o

valor do insumo de capital e u o erro aleatório. Para x3 fixado (x2 fixado) o
parâmetro β2 (β3 ) mede a elasticidade parcial entre a demanda e o insumo
de mão de obra (capital). A soma β2 +β3 mede os retornos de escala, ou seja,
se β2 + β3 = 1 significa que os retornos são proporcionais, dobrando o uso
de insumos a demanda esperada aumenta duas vezes, triplicando os insumos
há aumento de três vezes para a demanda esperada, e assim por diante. Se
β2 + β3 < 1 os retornos de escala serão menores, dobrando os insumos espera-
se demanda menor do que o dobro, e se β2 + β3 > 1 os retornos de escala
serão maiores, dobrando os insumos espera-se que a demanda aumente mais
que duas vezes.
Para mostrarmos esses resultados suponha que os novos insumos de mão
de obra e de capital sejam dados por x1N = rx1 e x2N = rx2 , ou seja,
aumentam r vezes. Assim, a nova demanda esperada será dada por

µ(x1N , x2N ) = β1 (rx2 )β2 (rx3 )β3

= r(β2 +β3 ) β1 xβ2 2 xβ3 3
= rβ2 +β3 µ(x1 , x2 ),

em que µ(x1 , x2 ) é a demanda esperada inicial. Logo, se β2 + β3 = 1 então

µ(x1N , x2N ) = rµ(x1 , x2 ), ou seja, a demanda esperada aumenta r vezes. Por

145
outro lado, se β2 + β3 < 1 tem-se que µ(x1N , x2N ) < rµ(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se β2 + β3 > 1 tem-se que
a demanda esperada aumenta mais que r vezes, µ(x1N , x2N ) > rµ(x1 , x2 ).
Obviamente que existem várias distribuições candidatas para explicar eu ,
sendo as distribuições gama e normal inversa as candidatas naturais na classe
dos MLGs. Pode-se também assumir que log(u) tenha distribuição normal.
Contudo, somente através de uma análise de diagnóstico é que pode-se avaliar
a adequação de cada distribuição.

2.5.2 Aplicação
Como ilustração conside um experimento aleatorizado descrito em Griffiths
et al.(1993, Seção 11.8.1c) em que a produtividade de milho (libras/acre) é
estudada segundo várias combinações de nitrogênio e fosfato (40, 80, 120,
160, 200, 240, 280 e 320 libras/acre). Os dados estão descritos no arquivo
milho.txt. Na Figura 2.21 tem-se os diagramas de dispersão entre a produ-
tividade de milho e as quantidades de nitrogênio e fosfato, respectivamente,
e pode-se notar nessas figuras há indı́cios de uma tendência crescente da pro-
dutividade com o aumento dos insumos. Nota-se também um aumento da
variabilidade com o aumento das quantidades de nitrogênio e fostato, suge-
rindo que a suposição de distribuição gama ou normal inversa para log(u) no
modelo de Cobb-Douglas pode levar a um ajuste adequado. Denote por Yi a
produtividade de milho dada a combinação (x1i , x2i ) de nitrogênio e fosfato
ind
correspondente à i-ésima condição experimental e supor que Yi ∼ G(µi , φ)
com parte sistemática dada por log(µi ) = α + β1 log(x1i ) + β2 log(x2i ), para
i = 1, . . . , 30. A leitura dos dados em R e os comandos para o ajuste do
modelo gama log-linear são dados abaixo
milho = read.table(‘‘milho.txt’’, header=TRUE)

146
summary(milho)
attach(milho)
fit.milho = glm(produtividade ∼ log(nitrogenio) + log(fostato),
family Gamma(link=log))
summary(fit.milho).
120

120
100

100
Produtividade

Produtividade
80

80
60

60
40

50 100 150 200 250 300 50 100 150 200 250 300
Nitrogênio Fosfato

Figura 2.21: Diagramas de dispersão entre a quantidade de nitrogênio e a

produtividade de milho (esquerda) e a quantidade de fosfato e a produtivi-
dade de milho (direita).

As estimativas são descritas na Tabela 2.5 e como pode-se notar os coe-

ficientes são altamente significativos, confirmando as tendências observadas
na Figura 2.21. Na Figura 2.22 tem-se os gráficos do resı́duo componente
do desvio contra o valor ajustado, indicando que a variabilidade está con-
trolada, e da distância de Cook em que duas observações aparecem como
possivelmente influentes. A eliminação de cada observação individualmente
não altera de forma substancial os coeficentes estimados nem muda a in-
ferência, ambos continuam altamente significativos. Porém, o intercepto fica

147
significativo a 5% com a eliminação da observação #28, indicando que essa
observação pode estar mascarando o efeito do intercepto. A estimativa da
precisão (relativamente alta) indica que um modelo com erros log-normal
também poderia levar a um ajuste adequado. Já o gráfico normal de pro-
babilidades (Figura 2.23) indica que a suposição de erros gama leva a um
ajuste adequado não havendo observações aberrantes. A principal diferença
em assumir erros gama ao invés de erros log-normal é a possibilidade de
maior controle da variabilidade.

Tabela 2.5
Estimativas dos parâmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
Parâmetro Estimativa E/E.Padrão
α 0,469 1,67
β1 0,350 8,30
β2 0,410 10,07
φ 46,59 11,99

A fim de verificar como ocorrem os retornos de produtividade de milho

com as aplicações de fosfato e nitrogênio será obtida a estimativa intervalar
para β1 + β2 . Deve-se obter inicialmente

V̂ar(β̂1 + β̂2 ) = Var(β̂1 ) + Var(β̂2 ) + 2Cov(β̂1 , β̂2 )

= 0, 001776 + 0, 001656 − 2 ∗ 0, 000145
= 0, 003142.

Essas quantidades são obtidas através do comando

vcov(fit.milho).
Assim uma estimativa intervalar de coeficiente de confiança de 95% fica dada
√
por [0, 35 + 0, 41 ± 1, 96 ∗ 0, 003142] = [0, 65; 0, 87] que não cobre o valor

148
1.0
1
2

0.8
1
Componente do Desvio

0.6
Distância de Cook
0

0.4
−1

0.2
−2

0.0
40 60 80 100 120 0 5 10 15 20 25 30
Valor Ajustado Índice

Figura 2.22: Gráfico do resı́duo componente do desvio contra o valor ajus-

tado (esquerda) e distância de Cook (direita) referentes ao modelo de Cobb-
Douglas ajustado aos dados do experimento sobre produtividade de milho.

1,0. Portanto, dobrando as aplicações de insumos de nitrogênio e fosfato os

retornos esperados de produtividade devem aumentar menos do que duas
vezes.

2.6 Distribuição normal inversa

Supor que Y é uma variável aleatória com distribuição normal inversa de
média µ e parâmetro de dispersão φ−1 . Denota-se Y ∼ NI(µ, φ), cuja função
densidade de probabilidade é expressa na forma
s
φ(y − µ)2

φ
f (y; µ, φ) = exp −
2πy 3 2µ2 y

y 1 1 3 φ
= exp φ − 2 + − log(2πy /φ) + ,
2µ µ 2 y
em que y > 0, µ > 0 e φ > 0.

149
3
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.23: Gráfico normal de probabilidades referente ao modelo de Cobb-

Douglas ajustado aos dados do experimento sobre produtividade de milho.

Na Figura 2.24 tem-se a densidade da distribuição normal inversa vari-

ando o parâmetro de precisão para µ fixado. Nota-se que para valores pe-
quenos do parâmetro de precisão a distribuição normal inversa é fortemente
assimétrica à direita, contudo à medida que φ aumenta a distribuição normal
inversa fica mais simétrica em torno da média. Pode-se mostrar que à me-
dida que φ aumenta Y se aproxima de uma distribuição normal de média µ
e variância µ3 φ−1 . Logo, similarmente à distribuição gama, a normal inversa
torna-se atrativa para o estudo de variáveis aleatórias assimétricas e também
simétricas em que a variância depende de forma cúbica da média. Uma dis-
cussão sobre as suposições teóricas para a construção da distribuição normal
inversa pode ser encontrada, por exemplo, em Leiva et al.(2009, Cap. 2).
A função de sobrevivência da distribuição normal inversa de média µ e
parâmetro de dispersão φ−1 (ver, por exemplo, Collett, 2003, pp. 198-199) é

150
0.5
0.5
φ=1 φ=2 φ=3
0.6

0.4
0.4

0.3
0.3
0.4
fdp

fdp

fdp
0.2
0.2
0.2

0.1
0.1
0.0

0.0
0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y
0.5

0.5

0.5
φ=4 φ=6 φ = 10
0.4

0.4

0.4
0.3

0.3

0.3
fdp

fdp

fdp
0.2

0.2

0.2
0.1

0.1

0.1
0.0

0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y

Figura 2.24: Densidades da distribuição normal inversa para alguns valores

do parâmetro de dispersão e supondo µ = 2.

dada por
p p
S(t) = Φ{(1 − tµ−1 ) φt−1 − exp(2φ/µ)Φ{−(1 + tµ−1 ) φt−1 }.

A função de risco fica expressa na forma h(t) = f (t)/S(t) em que f (y) denota
a função densidade da NI(µ, φ).

2.7 Modelos com resposta normal inversa

Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ).
Esta sendo assumido que essas variáveis possuem médias diferentes e mesma
dispersão φ−1 . Ademais, supor que g(µi ) = ηi em que ηi = x>
i β com xi =

151
(xi1 , . . . , xip )> contendo valores de variáveis explicativas e β = (β1 , . . . , βp )>
sendo o vetor de parâmetros de interesse. As ligações mais usadas no caso
normal inversa são identidade (µi = ηi ), logarı́tmica (logµi = ηi ) e recı́proca
quadrática (µi = ηi−2 ), esta última sendo a ligação canônica.

2.7.1 Qualidade do ajuste

Como foi visto na Seção 1.4 o desvio de um modelo com resposta normal
inversa é dado por D∗ (y; µ̂) = φD(y; µ̂) em que
n
X
D(y; µ̂) = (yi − µ̂i )2 /(yi µ̂2i ), (2.5)
i=1

com µ̂i = g −1 (η̂i ), η̂i = x>

i β̂ e yi > 0. Como φ é desconhecido devemos

estimá-lo, por exemplo através de máxima verossimilhança, cuja solução é

dada por φ̂ = n/D∗ (y; µ̂). Supondo que o modelo postulado está correto tem-
se, para φ grande, que o desvio D∗ (y; µ̂) segue distribuição qui-quadrado com
(n − p) graus de liberdade. Assim, valores altos para o desvio podem indicar
inadequação do modelo ou falta de ajuste.

2.7.2 Técnicas de diagnóstico

O resı́duo componente do desvio padronizado para os modelos com resposta
normal inversa assumem a forma
s
2φ̂ (yi − µ̂i )
tDi = √ ,
1 − ĥii µ̂i yi
em que yi > 0 e hii é o i-ésimo elemento da diagonal principal da matriz
1 1
H = W 2 X(X> WX)−1 X> W 2 com ωi = (dµi /dηi )2 /µ3i . Na expressão para
tDi no caso da distribuição normal inversa o sinal do resı́duo é o mesmo de
(yi − µ̂i ). Estudos de simulação indicam que o resı́duo tDi se aproxima da
distribuição normal, particularmente para φ grande.

152
Similarmente aos modelos com resposta gama pode-se obter uma ex-
pressão aproximada para a distância de Cook quando a i-ésima observação é
excluı́da. Essa expressão fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i

Aqui também são sugeridos gráficos de tDi e ĥii contra os valores ajustados
µ̂i e gráficos de ı́ndices de LDi .

2.8 Aplicação
Considerar parte dos dados de um experimento desenvolvido no Departa-
mento de Nutrição da Faculdade de Saúde Pública da USP em que 5 formas
diferentes de um novo tipo de snack, com baixo teor de gordura saturada
e de ácidos graxos, foram comparados ao longo de 20 semanas. Neste novo
produto a gordura vegetal hidrogenada, responsável pela fixação do aroma
do produto, foi substituı́da, totalmente ou parcialmente, por óleo de canola.
As formas são as seguintes: A (22% de gordura, 0% de óleo de canola), B
(0% de gordura, 22% de óleo de canola), C (17% de gordura, 5% de óleo de
canola), D (11% de gordura, 11% de óleo de canola) e E (5% de gordura,
17% de óleo de canola). O experimento foi conduzido de modo que nas se-
manas pares 15 embalagens de cada um dos produtos A, B, C, D e E fossem
analisadas em laboratório e observadas diversas variáveis (ver Paula et al.,
2004). Em particular, será inicialmente estudado o comportamento da tex-
tura dos produtos através da força necessária para o cisalhamento. Os dados
referentes a esta variável estão disponı́veis no arquivo snack.txt.
Para ler o arquivo snack.txt no R deve-se fazer o seguinte:
snack = read.table("snack.txt", header=TRUE)
grupo = factor(grupo)

153
summary(snack)
attach(snacks).
120
100
Forï¿½a de Cisalhamento
80
60
40

A B C D E
Grupo

Figura 2.25: Boxplots da força de cisalhamento segundo o grupo e para

todas as semanas.

Nota-se pela Figura 2.25, em que são apresentados os boxplots robustos

da força de cisalhamento segundo o grupo e para todas as semanas, que os
grupos A e C possuem os maiores valores, enquanto o grupo B tem valores in-
termediários e os grupos D e E têm os menores valores. Essa tendência pode
ser observada pelos valores medianos da força de cisalhamento de cada grupo.
Observa-se também que, exceto para o grupo B, todos os grupos apresentam
valores discrepantes em geral destoando como valores altos em relação aos
demais do mesmo grupo. Nota-se ainda uma assimetria à direita na distri-
buição da força de cisalhamento para todos os grupos. Esssas tendências são
confirmadas pela tabela dada a seguir em que são apresentadas as médias,
desvio padrão e coeficiente de variação para a força de cisalhamento para
cada grupo.

154
120
100
Força de Cisalhamento
80
60
40

1 2 3 4 5 6 7 8 9 10
Semanas

Figura 2.26: Boxplots da força de cisalhamento segundo a semana e para

todos os grupos.

Estatı́stica Grupo A Grupo B Grupo C Grupo D Grupo E

Média 66,201 55,294 61,632 51,027 50,257
D.Padrão 18,707 13,143 19,601 10,960 11,402
C. Variação 28,20% 23,80% 31,80% 21,50% 22,70%

Já na Figura 2.26, em que são apresentados os boxplots robustos para

todos os grupos ao longo das 20 semanas, uma tendência crescente é obser-
vada até a 14a semana seguida de um decrescimento até a última semana.
Verifica-se também, para cada semana, que a distribuição da força de cisa-
lhamento mostra-se assimétrica à direita sugerindo uma distribuição gama
ou normal inversa. Esssas tendências são confirmadas pelo gráfico de perfis
para a força de cisalhamento (vide Figura 2.27) e pela tabela dada a seguir
em que são apresentadas as médias, desvio padrão e coeficiente de variação
para a força de cisalhamento para cada semana.

155
Estatı́stica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10
Média 50,95 44,66 50,08 55,57 60,15
D.Padrão 13,12 9,76 15,97 16,28 14,72
C. Variação 25,80% 21,90% 31,90% 29,30% 24,50%

Estatı́stica Semana 12 Semana 14 Semana 16 Semana 18 Semana 20

Média 57,84 71,57 65,18 60,37 52,45
D.Padrão 13,61 20,17 16,95 10,25 12,58
C. Variação 23,50% 28,20% 26,00% 17,00% 24,00%

Assim, denote por Yijk a força de cisalhamento referente à k-ésima réplica

do i-ésimo grupo na j-ésima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20
e i =1(A),2(B),3(C),4(D) e E(5). A fim de comparar as duas distribuições
ind ind
assimétricas supor que Yijk ∼ G(µij , φ) e Yijk ∼ NI(µij , φ), respectivamente,
com parte sistemática dada por

µij = α + βi + γ1 semanaj + γ2 semana2j , (2.6)

em que β1 = 0. Portanto, α é o efeito da forma A, controlando pela se-

mana, e α + βi (i=2,3,4,5) são os efeitos das demais formas B, C, D e E,
respectivamente. Está sendo assumida a mesma tendência para os cinco ti-
pos de snack. Alternativamente, poderia ser incluı́da interação entre grupo
e semana, possibilitando o ajuste de tendências separadas para cada grupo.
Para ajustar o modelo (2.6) com resposta normal inversa sem interação
deve-se usar os comandos
s1 = semana
s2 = s1*s1
fit1.snack = glm(textura ∼ grupo + s1 + s2,
family=inverse.gaussian(link=identity))
summary(fit1.snack).

156
A
B
80

C
D
E
70
Cisalhamento

60
50
40

5 10 15 20

Semanas

Figura 2.27: Perfis da força de cisalhamento segundo as semanas e os grupos.

Abaixo seguem os comandos para o ajuste com interação

fit2.snack = glm(textura ∼ grupo + s1 + s2 + s1*grupo
+s2*grupo, family=inverse.gaussian(link=identity))
summary(fit2.snack).
Contudo a interação entre grupo e semana não é significativa. Este é
um exemplo em que há uma ligeira superioridade da distribuição normal
inversa em relação à distribuição gama. Embora a função de variância da
normal inversa seja cúbica enquanto para a gama tem-se função de variância
quadrática, nem sempre é possı́vel diferenciar de forma clara os dois ajustes.
Nota-se pela Figura 2.28 que o gráfico de resı́duos de Pearson contra os valores
ajustados apresenta uma tendência sistemática crescente sob o modelo gama,
que é amenizada sob o modelo com erros normal inversa. Os dois modelos

157
ajustam-se muito bem aos dados como pode-se notar pelo valor do desvio do
modelo gama D∗ (y; µ̂) = 756, 87 (753 g.l.) com P=0,35 e pelo gráfico normal
de probabilidades para o modelo com resposta normal inversa apresentado
na Figura 2.29.

3
3

2
2

1
Componente do Desvio

Componente do Desvio
1

0
0

−1
−1

−2
−2

−3
−3

40 45 50 55 60 65 70 40 45 50 55 60 65 70
Valor Ajustado Valor Ajustado

Figura 2.28: Gráficos do resı́duo de Pearson contra o valor ajustado referentes

aos modelos gama (esquerda) e normal inversa (direita) ajustados aos dados
sobre snacks .

Tabela 2.6
Estimativas dos parâmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Efeito Estimativa E/E.Padrão
Constante 50,564 26,32
Grupo B -10,916 -6,41
Grupo C -5,459 -3,03
Grupo D -15,357 -9,42
Grupo E -16,596 -10,30
Semana 2,727 8,18
Semana2 -0,091 -5,90
φ 1005 -

158
Na Tabela 2.6 são apresentadas as estimativas sob o modelo com resposta
normal inversa. Todos os efeitos são altamente significativos, em particular o
efeito de semana na forma quadrática. Controlando esse efeito, a maior força
média de cisalhamento ocorre com o produto sob a forma A (ausência de óleo
de canola) e a menor força média de cisalhamento ocorre com as formas D e
E, confirmando-se as tendências observadas na Figura 2.22.
4
2
Componente do Desvio
0
−2
−4

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 2.29: Gráfico normal de probabilidades referente ao modelo com res-

posta normal inversa ajustado aos dados sobre snacks.

Na Figura 2.30 tem-se os valores preditos para os 5 grupos ao longo das 20

semanas. A estimativa do parâmetro de precisão indica que a distribuição da
força de cisalhamento em cada grupo, fixando o tempo, é aproximadamente
normal. Contudo, a variância depende da média. A forma cúbica para a
variância mostrou-se ligeiramente superior à forma quadrática. Outras for-
mas para ajustar a variância podem ser testadas, como por exemplo, através
de modelos de quase-verossimilhança que serão discutidos no Capı́tulo 5. O

159
paralelismo entre as curvas apresentadas na Figura 2.30 é devido à não in-
clusão de interação entre semana e grupo. Alternativamente, poderia ser
incluı́da uma função para cada grupo, ou então, o efeito semana poderia ser
controlado através de funções aditivas.
70
60
Valor Predito

A
B
C
D
40

5 10 15 20

Semanas

Figura 2.30: Valores preditos para a força média de cisalhamento para as 5

formas de snacks através do modelo com resposta normal inversa.

Algumas observações foram detectadas como possivelmente influentes (vide

Figura 2.31): #2 (2a semana, grupoB), #8 (2a semana, grupo B), #10 (2a
semana, grupo B), #311 (2a semana, grupo C), #405 (14a semana, grupo
C) #465 (2a semana, grupo D) e #744 (última semana, grupo E). Embora
os valores preditos para a força de cisalhamento dessas amostras estejam
abaixo da média, os valores observados são em geral altos quando compara-
dos com os valores dos grupos e das semanas correspondentes. Também o
fato de 5 dessas observações terem ocorrido logo na segunda semana pode ser
um indı́cio de alguma dificuldade inicial com o experimento. A eliminação

160
dessas 7 observações do total de 744 observações leva a algumas variações
desproporcioanis. Por exemplo, as estimativas dos efeitos dos grupos B e C
diminuem, respectivamente, 9,1% e 14%. Todavia, não ocorrem mudanças
inferenciais entre os efetios dos grupos B, C, D e E com relação ao grupo A.

10
0.20

744
465
2
0.15

311
Distância de Cook

8
405
0.10
0.05
0.00

0 200 400 600

Índice

Figura 2.31: Gráfico da distância de Cook referente ao modelo com resposta

normal inversa ajustado aos dados sobre snacks.

2.9 Modelagem simultânea da média e da dis-

persão
Eventualmente o coeficiente de variação pode não ser constante variando com
as observações. Smyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da média e do parâmetro de precisão (ou
dispersão) e desenvolveu um processo de estimação baseado no método de
máxima verossimilhança que será descrito a seguir. Contudo, outros métodos
alternativos de estimação, tais como máxima verossimilhança restrita, foram

161
propostos mais recentemente com o intuito de reduzir o viés das estimativas
de máxima verossimilhança, particularmente dos coeficientes do componente
de dispersão. Uma discussão a respeito desses métodos pode ser encontrada
em Smyth e Verbyla (1999).
A fim de formalizar os MLGs duplos supor que Y1 , . . . , Yn são variáveis
aleatórias independentes com função densidade ou função de probabilidades
expressa na forma

f (y; θi , φi ) = exp[φi {yθi − b(θi )} + c(y, φi )],

em que c(y, φi ) = d(φi ) + φi a(y) + u(y). Essa decomposição, como visto

na Seção 1.7.2, vale somente para as distribuições normal, normal inversa e
gama da famı́lia exponencial. Além disso, supor que

g(µi ) = ηi = x> >

i β e h(φi ) = λi = zi γ,

em que xi = (xi1 , . . . , xip )> e zi = (zi1 , . . . , ziq )> contêm valores de variáveis
explicativas e β = (β1 , . . . , βp )> e γ = (γ1 , . . . , γq )> são os parâmetros a
serem estimados.
Seja θ = (β > , γ > )> , então o logaritmo da função de verossimilhança fica
dado por
n
X
L(θ) = [φi {yi θi − b(θi )} + d(φi ) + φi a(yi ) + u(yi )]
i=1
Xn
= {φi ti + d(φi ) + u(yi )}, (2.7)
i=1

em que ti = yi θi − b(θi ) + a(yi ). Portanto, se θi for fixado a expressão (2.7)

coincide com o logaritmo da função de verossimilhança de um modelo da
famı́lia exponencial com respostas independentes T1 , . . . , Tn (valores obser-
vados t1 , . . . , tn ), parâmetros canônicos φ1 , . . . , φn e parâmetro de dispersão

162
igual a 1. Pelas propriedades da famı́lia exponencial segue que

µTi = E(Ti ) = −d0 (φi ) e Var(Ti ) = −d00 (φi ).

Essas quantidades são descritas na Tabela 2.7 para as distribuições normal,

normal inversa e gama. Os resultados acima podem ser obtidos, alterna-
tivamente, aplicando-se condições usuais de regularidade no logaritmo da
verossimilhança dado em (2.7).

Tabela 2.7
Derivação de algumas quantidades para distribuições da famı́lia exponencial.
Normal Normal inversa Gama
ti yi µi − 21 (µ2i + yi2 ) −{yi /2µ2i − µ−1i + (2y i )−1
} log(yi /µi ) − yi /µi
1 1
d(φ) 2
logφ 2
logφ φlogφ − logΓ(φ)
0 −1 −1
d (φ) (2φ) (2φ) (1 + logφ) − ψ(φ)
d00 (φ) -(2φ2 )−1 -(2φ2 )−1 φ−1 − ψ 0 (φ)

Conforme observado por Verbyla (1989) para as distribuições normal e

normal inversa chamando Di = −2Ti (i = 1, . . . , n) segue que

E2 (Di )
E(Di ) = φ−1
i e Var(Di ) = ,
ν
em que ν = 12 . Portanto, a expressão (2.7) pode ser interpretada para os
modelos com resposta normal e normal inversa como um MLG de respostas
independentes D1 , . . . , Dn com distribuição gama de médias φ−1 −1
1 , . . . , φn ,

respectivamente, e parâmetro de dispersão ν −1 = 2. Assim, para θi fixado,

os parâmetros da dispersão podem ser estimados alternativamente através
de um MLG com respostas independentes gama, função de ligação h(·) e
parâmetro de dispersão igual a 2.

163
2.9.1 Estimação
A função escore e a matriz de informação de Fisher para β podem ser obtidas
facilmente seguindo os passos da Seção 1.5.1. Assim, obtém-se
1 1
Uβ = X> ΦW 2 V− 2 (y − µ) e
Kββ = X> ΦWX,

em que X é uma matriz n×p de linhas x>

i (i = 1, . . . , n), W = diag{ω1 , . . . , ωn }

com pesos ωi = (dµi /dηi )2 /Vi , V = diag{V1 , . . . , Vn }, Φ = diag{φ1 , . . . , φn },

y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> .
Para obter a função escore para o parâmetro γ, será calculado inicialmente
a derivada
n
X dφi ∂λi 0 dφi ∂λi
∂L(θ)/∂γj = ti + d (φi )
i=1
dλi ∂γj dλi ∂γj
n
X 1 1
= 0
zij ti + d0 (φi ) 0 zij
i=1
h (φi ) h (φi )
n
X zij
= 0
{ti + d0 (φi )},
i=1
h (φi )

em que h0 (φi ) = dλi /dφi . Portanto, em forma matricial obtém-se

Uγ = Z> H−1
γ (t − µT ),

em que Hγ = diag{h0 (φ1 ), . . . , h0 (φn )}, t = (t1 , . . . , tn )> e µT = (E(T1 ), . . . , E(Tn ))>
= (−d0 (φ1 ), . . . , −d0 (φn ))> .
Para obter a matriz de informação de Fisher para o parâmetro γ é preciso
das derivadas
n
2
X zij 00 dφi 00 0 dφi
∂ L(θ)/∂γj ∂γ` = − d (φi )h(φi ) zi` − h (φi ){ti + d (φi )} zi`
i=1
{h0 (φi )}2 dλi dλi
n
h00 (φi )

X zij zi` 00 0
= − 0 (φ )}2
d (φi ) − 0 {ti + d (φi )} ,
i=10
{h i h (φi)

164
cujos valores esperados ficam dados por
n
∂ 2 L(θ) d00 (φi )
X
E − =− zij zi` .
∂γj ∂γ` i=1
{h0 (φi )}2

Logo, em forma matricial tem-se que

Kγγ = Z> PZ,

em que P = Vγ H−2 00 00
γ , Vγ = diag{−d (φ1 ), . . . , −d (φn )}. Devido à ortogona-

lidade entre os parâmetros θi e φi , segue diretamente a ortogonalidade entre

β e γ. Assim, a matriz de informação de Fisher para θ é bloco diagonal
Kθθ = diag{Kββ , Kγγ }.
Similarmente aos MLGs pode-se desenvolver um processo iterativo escore
de Fisher para encontrar as estimativas de máxima verossimilhança β̂ e γ̂.
Após algumas manipulações algébricas chega-se ao proceso iterativo

β (m+1) = (X> Φ(m) W(m) X)−1 X> Φ(m) W(m) y∗(m) e (2.8)
γ (m+1) = (Z> P(m) Z)−1 Z> P(m) z∗(m) , (2.9)

1 1
em que y∗ = Xβ + W− 2 V− 2 (y − µ), z∗ = Zγ + Vγ−1 Hγ (t − µT ) e m =
0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo iterativo
(2.8)-(2.9) pode ser resolvido alternando-se as duas equações até a con-
vergência. Pode-se iniciar o processo iterativo (2.8) com as estimativas do
MLG com φi comum a todas as observações.
Sob as condições de regularidade apresentadas na Seção 1.6.3 segue para
−1
n grande que β̂ ∼ Np (β, Kββ ) e γ̂ ∼ Nq (γ, K−1
γγ ), respectivamente. Além

disso, devido à ortogonalidade entre β e γ segue a independência assintótica

entre β̂ e γ̂.

165
2.9.2 Métodos de diagnóstico
Nesta subseção será apresentada a derivação de alguns procedimentos de
diagnóstico para a classe dos MLGs duplos (vide Paula, 2013).

Resı́duos
Na classe dos MLGs duplos pode-se definir desvios para a média e para a
precisão, respectivamente. O desvio para a média assume a mesma expressão
da classe dos MLGs em que somente a média é ajustada, com φi no lugar
de φ. Denota-se esse desvio por D∗1 (y; µ̂, φ) = ni=1 d∗2
P
1 (yi ; µ̂i , φi ), em que

d∗2
1 (yi ; µ̂i , φi ) = 2φi [yi (θ̃i − θ̂i ) + {b(θ̂i ) − b(θ̃i )}]. Para φi grande ∀i o desvio

D∗1 (y; µ̂, φ) pode ser comparado com os quantis da distribuição qui-quadrado
com (n − p) graus de liberdade. Para o modelo normal heteroscedástico o
Pn −2
desvio para a média fica dado por D∗1 (y; µ̂, φ) = 2
i=1 σi (yi − ŷi ) . Na

prática deve-se substituir φi por φ̂i = h−1 (λ̂i ) = z>

i γ̂.

O resı́duo Studentizado, no modelo normal heteroscedástico, assume a

forma
y − ŷi
t∗i = pi ,
σ̂i 1 − ĥii
−2
em que ĥii = σ̂i2 x> > −1 −2
i (X Φ̂X) xi com Φ = diag{σ1 , . . . , σn }. Para os

demais MLGs duplos o resı́duo componente do desvio para a média fica dado
por
d∗ (yi ; µ̂i , φ̂i )
tD1i = 1p ,
1 − ĥii
q
em que d∗1 (yi ; µ̂i , φ̂i ) = ± d∗2
1 (yi ; µ̂i , φ̂i ), o sinal continua sendo o mesmo de

(yi − µ̂i ) e ĥii é o i-ésimo elemento da diagonal principal da matriz

1 1
1 1
Ĥ = Φ̂ 2 Ŵ 2 X(X> Φ̂ŴX)−1 X> Φ̂ 2 Ŵ 2 ,

166
ou seja,
ĥii = φ̂i ω̂i x> > −1
i (X Φ̂ŴX) xi .

Sugere-se o gráfico normal de probabilidades para tD1i e o gráfico de tD1i

contra os valores ajustados.
Pn
Denote por D∗2 (y; φ̂, µ) = i=1 d∗2
2 (yi ; φ̂i , µi ) o desvio para a precisão,

em que d∗2
2 (yi ; φ̂i , µi ) = 2[ti (φ̃i − φ̂) + {d(φ̃i ) − d(φ̂i )}], φ̃i é solução para φi

sob o modelo saturado sendo dada por d0 (φ̃i ) = −ti . Para os modelos com
resposta normal e normal inversa tem-se que φ̃i = −(2ti )−1 . Já para modelos
com resposta gama φ̃i é a solução da equação {ψ(φ̃i ) − logφ̃i + 1} = ti . Aqui
também para φi grande ∀i o desvio D∗2 (y; φ̂, µ) pode ser comparado com os
quantis da distribuição qui-quadrado com (n − q) graus de liberdade.
O resı́duo componente do desvio para a precisão fica dado por

d∗2 (yi ; φ̂i , µ̂i )

tD2i = √ ,
1 − r̂ii
q
em que d∗2 (yi ; φ̂i , µ̂i ) = ± d∗2
2 (yi ; φ̂i , µ̂i ), o sinal sendo o mesmo de {t̂i +

d0 (φ̂i )} e r̂ii é o i-ésimo elemento da diagonal principal da matriz

1 1
R̂ = P̂ 2 Z(Z> P̂Z)−1 Z> P̂ 2 ,

ou seja,
r̂ii = p̂i z> > −1
i (Z P̂Z) zi .

Note que pi = −d00 (φi ){h0 (φi )}−2 . Por exemplo, para ligação logarı́tmica
tem-se que h(φi ) = logφi então h0 (φi ) = φ−1
i e portanto pi = −φ2i d00 (φi ).
Assim, para os modelos com resposta normal e normal inversa segue que pi =
φ2i (2φ2i )−1 = 1
2
e para os modelos com resposta gama pi = φi {φi ψ 0 (φi ) − 1}.
Sugere-se o gráfico normal de probabilidades para tD2i e o gráfico de tD2i
contra os valores ajustados.

167
Influência
Para avaliar a sensibilidade das estimativas dos parâmetros que modelam a
média pode-se usar a medida de influência LDi definida na Seção 1.10.3 com
φ̂i no lugar de φ̂, que será definida por
( )
ĥii
LDβi = t2Si ,
1 − ĥii
em que q
φ̂i (yi − µ̂i )
tSi = q .
V̂i (1 − ĥii )
Gráficos de ı́ndices de LDβi e ĥii contra os valores ajustados são recomendados.
Para avaliar a sensibilidade da estimativa γ̂ quando a i-ésima observação
é deletada será utilizada uma aproximação de um passo, que é obtida de
forma similar à aproximação de uma passo β̂ (i) descrita na Seção 1.10.3,
dada por
(Z> P̂Z)−1 zi {ti + d0 (φ̂i )}
γ̂ (i) = γ̂ − , (2.10)
h0 (φ̂i )(1 − r̂ii )
em que r̂ii é o i-ésimo elemento da diagonal principal da matriz R.
Uma medida para avaliar a influência nas estimativas dos parâmetros da
precisão fica dada por

LDγi = (γ̂ (i) − γ̂)> (Z> P̂Z)(γ̂ (i) − γ̂)

r̂ii
= t2Ti ,
1 − r̂ii
em que
ti + d0 (φ̂i )
tTi = p
h0 (φ̂i ) p̂i (1 − r̂ii )
ti + d0 (φ̂i )
= q .
00
−d (φ̂i )(1 − r̂ii )

168
Gráficos de ı́ndices de LDγi e r̂ii contra os valores ajustados são recomendados.
Para os modelos com resposta normal e com resposta normal inversa o
resı́duo tTi assume a forma

ti + (2φ̂i )−1
tTi = √ √ ,
( 2φ̂i )−1 1 − r̂ii
e para modelos com resposta gama tem-se que

ti + {1 + logφ̂i − ψ(φ̂i )}
tTi = q .
{ψ 0 (φ̂i ) − φ̂−1
i }(1 − r̂ii )

Verbyla (1993) apresenta uma aproximação de uma passo para γ̂ (i) para
o caso normal usando um esquema de perturbação especı́fico para modelos
normais heteroscedásticos. Para obter a aproximação apresentada em (2.10)
usa-se a ponderação de casos usual para MLGs. Estudos sobre a qualidade
da aproximação apresentada em (2.10) ainda não foram desenvolvidos.

2.9.3 Aplicação
Pela análise descritiva apresentada na Seção 2.8.1 sobre o comportamento da
força de cisalhamento dos cinco tipos de snack ao longo das 20 semanas e
também pelo gráfico de perfis para a força de cisalhamento (Figura 2.32) nota-
se que o coeficiente de variação não parece ser constante. Assim, a modelagem
dupla da média e da precisão pode levar a um ajuste mais satisfatório para
ind
o modelo com resposta gama. Dessa forma supor que Yijk ∼ G(µij , φij ),
em que Yijk denota a força de cisalhamento referente à k-ésima réplica do
i-ésimo grupo na j-ésima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20 e
i =1(A),2(B),3(C),4(D) e E(5), com parte sistemática dada por

µij = β0 + βi + β6 semanaj + β7 semana2j e

log(φij ) = γ0 + γi + γ6 semanaj + γ7 semana2j ,

169
em que β1 = 0 e γ1 = 0. Portanto β0 e γ0 são os efeitos da forma A,
controlando-se pela semana, na média e na precisão, respectivamente, en-
quanto β0 + βi e γ0 + γi são os efeitos das demais formas B, C, D e E na
média e precisão, respectivamente.

Tabela 2.8
Estimativas dos parâmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Média Dispersão
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante 36,990 11,53 1,560 7,27
Grupo B -10,783 -6,40 0,477 2,95
Grupo C -3,487 -1,98 0,050 0,31
Grupo D -14,829 -9,18 0,815 5,05
Grupo E -15,198 -9,54 0,817 5,06
Semana 5,198 9,88 0,155 3,91
Semana2 -0,189 -8,88 -0,005 -2,99

O MLG duplo pode ser ajustado no R através dos seguintes comandos:

require(dglm)
fit3.snack = dglm(cisalhamento ∼ grupo + s1 + s2,
∼ grupo + s1 + s2, family=Gamma(link=identity))
summary(fit3.snack).
Note que a biblioteca dglm faz o ajuste de log(φ−1
i ), ou seja da dispersão,

sendo necessário fazer as adaptações nos modelos com resposta gama e normal
inversa para obter log(φi ), ajuste da precisão. Em particular no caso de
modelos normais heteroscedásticos tem-se diretamente o ajuste de log(σi2 ),
em que σi2 é a variância.
Na Tabela 2.8 são apresentadas as estimativas com os respectivos erros
padrão dos parâmetros da média e da dispersão. Pode-se notar pelas estima-
tivas dos parâmetros da média as mesmas tendências observadas na Figura

170
0.35
A
B
C
D
0.30

E
CV do Cisalhamento

0.25
0.20
0.15
0.10
0.05

5 10 15 20

Semanas

Figura 2.32: Perfis do CV da força de cisalhamento segundo as semanas e os

grupos.

2.30 para o modelo com resposta normal inversa. O grupo A tem a maior
média para a força de cisalhamento enquanto os grupos D e E têm as meno-
res médias. Com relação às estimativas dos parâmetros da dispersão nota-se
que a variabilidade (no sentido do coeficiente de variação) depende do tempo
de forma quadrática e que os grupos A e C apresentam maior variabilidade
enquanto os grupos D e E apresentam as menores variabilidades.
Nota-se ainda que os mesmos efeitos que são significativos para os parâmetros
da média são também significativos para os parâmetros da dispersão. Ape-
nas três observações, #430, #595 e #744, aparecem como possivelmente
influentes nos parâmetros da média e da dispersão, como pode ser observado
pelas Figuras 2.33 e 2.34. A eliminação desses pontos não muda a inferência.
Pelos gráficos normais de probabilidades para o resı́duo componente do des-

171
0.35
744

0.30
0.25
Distancia de Cook

0.20

553

405
0.15
0.10
0.05
0.00

0 200 400 600

Indice

Figura 2.33: Gráfico da distância de Cook para as estimativas dos coeficientes

da média referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.

vio para a média e para a dispersão apresentados nas Figuras 2.35 e 2.36,
respectivamente, não há indı́cios de inadequação do MLG duplo.

2.10 Exercı́cios
1. Seja Y ∼ G(µ, φ) e considere a variável aleatória log(Y ). Use a condição
de regularidade E(Uφ ) = 0 para mostrar que E{log(Y )} = log(µ) −
log(φ) + ψ(φ), em que Uφ = ∂L(µ, φ)/∂φ.

2. Seja Y ∼ NI(µ, φ) e considere a variável aleatória Y −1 . Use a condição

de regularidade E(Uφ ) = 0 para mostrar que E(Y −1 ) = µ−1 + φ−1 , em
que Uφ = ∂L(µ, φ)/∂φ.

3. Mostre que o desvio da distribuição gama para o caso i.i.d., ou seja

172
1.0
744

0.8
0.6
Distancia de Cook

0.4
0.2
0.0

0 200 400 600

Indice

Figura 2.34: Gráfico da distância de Cook para as estimativas dos coeficientes

da dispersão referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.

iid
Yi ∼ G(µ, φ), é dado por D∗ (y; µ̂) = 2nφlog(ȳ/ỹ), em que ỹ é a média
geométrica das observações, isto é ỹ = (Πni=1 yi )1/n .

4. Sejam Yi ∼ FE(µ1 , φ1 ), i = 1, . . . , m, e Yi ∼ FE(µ2 , φ2 ), i = m +

1, . . . , n, variáveis aleatórias mutuamente independentes. Encontre a
estimativa comum de máxima verossimilhança para φ1 e φ2 sob a
hipótese H0 : φ1 = φ2 . Particularize para os casos gama e normal
inversa.
ind
5. Supor Yi ∼ N(µ, σi2 ) com log(σi2 ) = α + γzi , para i = 1, . . . , n. Como
fica a matriz modelo Z? Obtenha a estatı́stica do teste da razão de
verossimilhanças para testar H0 : γ = 0 contra H1 : γ 6= 0? Qual a dis-
tribuição nula assintótica da estatı́stica do teste? Obtenha inicialmente
as estimativas para (µ, σi2 ) sob as hipóteses H0 e H0 ∪ H1 .

173
2
Componente do Desvio

0
−2
−4

−3 −2 −1 0 1 2 3

Quantil da N(0,1)

Figura 2.35: Gráfico normal de probabilidades para o resı́duo componente

do desvio para a média referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.

ind √
6. Supor Yij ∼ NI(µ, φi ) para i = 1, 2 e j = 1, . . . , r com φ1 = λ1 = α
√
e φ2 = λ2 = α + ∆. Inicialmente obter as matrizes Z e P. Em
seguida obter as variâncias e covariância assintóticas Var(b
α), Var(∆)
b e
Cov(b
α, ∆)
b deixando em função dos componentes de P. Obter α
be∆
b
(use a propriedade de invariãncia). Mostre que a estatı́stica do teste
de Wald para testar H0 : ∆ = 0 contra H1 : ∆ 6= 0 pode ser expressa
na forma q q
{ φ2 − φb1 }2
b
ξW = 2r .
φb1 + φb2
Mostre que µ
b = (φb1 ȳ1 + φb2 ȳ2 )/(φb1 + φb2 ). Qual a distribuição nula
assintótica da estatı́stica do teste?

7. (Lawless, 1982, p. 338). Na tabela abaixo são apresentados os re-

174
4
2
Componente do Desvio

0
−2
−4
−6

−3 −2 −1 0 1 2 3

Quantil da N(0,1)

Figura 2.36: Gráfico normal de probabilidades para o resı́duo componente do

desvio para a dispersão referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.

sultados de um experimento em que a resistência (em horas) de um

determinado tipo de vidro foi avaliada segundo quatro nı́veis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
estão também disponı́veis no arquivo vidros.txt. Na primeira coluna
do arquivo tem-se o tempo de resistência, na segunda coluna a volta-
gem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170o C e 2: 180o C). Seja Yijk o tempo de resistência da
k-ésima amostra de vidro submetida à i-ésima temperatura e à j-ésima
voltagem.

Faça inicialmente uma análise descritiva dos dados, por exemplo apre-
sentando os perfis médios da resistência segundo a voltagem para os
dois nı́veis de temperatura. Cacule também para cada casela algumas
medidas descritivas tais como média, desvio padrão e coeficiente de

175
variação. Comente.

Voltagem(kV)
o
Temperatura ( C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588

180 959 216 241 241

1065 315 315 241
1065 455 332 435
1087 473 380 455

O interesse principal desse estudo é comparar as resistências médias,

denotadas por µij , i = 1, 2 e j = 2, 3, 4. É usual neste tipo de estudo
assumir respostas com alguma distribuição assimétrica. Assim, supor
ind
que Yijk ∼ G(µij , φ). Considere inicialmente uma reparametrização
tipo casela de referência sem interação, em que µ11 = α, µ1j = α + βj ,
µ21 = α + γ e µ2j = α + γ + βj j = 2, 3, 4.

Verifique se é possı́vel incluir a interação entre voltagem e tempera-

tura. Procure responder com o modelo final de que forma os nı́veis
de voltagem e temperatura afetam o tempo médio de resistência dos
vidros. Apresente, por exemplo, os perfis médios ajustados e interprete
a estimativa de dispersão. Faça também uma análise de diagnóstico.
iid
8. Supor Yi ∼ NI(µ, φ), para i = 1, . . . , n. Mostre que a estatı́stica do teste
da razão de verossimilhanças para testar H0 : φ = 1 contra H1 : φ 6= 1
pode ser expressa na forma

ξRV = n(φ̂−1 − 1) + n log(φ̂),

176
e mostre que φ̂ = n/D(y; µ̂) é a estimativa de máxima verossimilhança
de φ. Qual a distribuição nula assintótica da estatı́stica do teste?

9. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ G(µi , φ)

com parte sistemática dada por log(µi ) = β0 + β1 (xi − x̄). Responda
aos itens abaixo:

(a) como fica a matriz de informação de Fisher para θ = (β0 , β1 , φ)>

e a variância assintótica de β̂0 , β̂1 e φ̂?

(b) Como fica o teste de escore para testar H0 : φ = 1 contra H1 : φ 6=

(c) Mostre que a estatı́stica do teste de escore para testar as hipóteses

H0 : β0 = 1, β1 = 0 contra H1 : β0 6= 1 ou β1 6= 0 pode ser expressa
na forma
φ̂0 { ni=1 (xi − x̄)(yi − e)}2
P
2
ξSR = 2 n(ȳ − e) + Pn 2
.
e i=1 (xi − x̄)

Qual a distribuição nula assintótica de ξSR ?

10. Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ FE(µ, φi )

com log(φi ) = α + γzi . Responda às seguintes questões:

(i) como fica a matriz modelo Z?

(ii) Calcule a variância assintótica de γ̂.

(iii) Como fica a estatı́stica de escore para testar H0 : γ = 0 contra

H1 : γ 6= 0? Qual a distribuição nula assintótica da estatı́stica do
teste?
ind
11. Supor Yi ∼ N(µ, σi ), em que log(σi ) = γ0 + γ1 zi , em que σi denota
o desvio padrão de Yi , para i = 1, . . . , n. Obter Uγ e Kγγ . Como

177
fica a estimação de µ e γ? Obtenha a estatı́stica do teste da razão de
verossimilhanças para testar H0 : γ1 = 0 contra H1 : γ1 6= 0. Qual a
distribuição nula assintótica da estatı́stica do teste?
iid
12. Supor Yi ∼ NI(µ, φ), para i = 1, . . . , n, em que γ = log(φ). Obter a
estimativa de máxima verossimilhança γ̂ (dado φ̂) e Kγγ . Como fica a
estatı́stica do teste de Wald para testar H0 : γ = 0 contra H1 : γ 6= 0?

13. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ)

com µ−1
i = α. Encontre α̂ e Var(α̂). Como fica a estatı́stica de Wald
para testar H0 : α = 1 contra H1 : α 6= 1? Qual a distribuição nula
assintótica da estatı́stica do teste?

14. Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ)

√
e µi = ηi−1 com ηi = α + β(xi − x̄), em que x̄ = n−1 ni=1 xi ,
P

i = 1, . . . , n. Responda às seguintes questões:

(i) como fica a matriz modelo X?

(ii) Calcule as variâncias assintóticas Var(α̂) e Var(β̂). Calcule Cov(α̂, β̂)
e comente.
(iii) Como fica a estatı́stica de Wald para testar H0 : β = 0 contra
H1 : β 6= 0? Qual a distribuição nula assintótica da estatı́stica do
teste?
ind
15. Supor Yi ∼ G(µi , σi ), em que log(µi ) = ηi = x> >
i β e log(σi ) = λi = zi γ,

em que σi denota o coeficiente de variação de Yi , para i = 1, . . . , n.

Obter Uβ , Uγ , Kββ e Kγγ e desenvolva um processo iterativo duplo
para obter as estimativas de máxima verossimilhança β̂ e γ̂.

16. (Cordeiro et al., 1994). Sejam Yi , i = 1, . . . , n, variáveis aleatórias inde-

pendentes com distribuição gama de média µi e parâmetro de precisão

178
φ. Mostre que a estatı́stica da razão de verossimilhanças para testar
H0 : φ = 1 contra H1 : φ 6= 1 vale

ξRV = 2n[log(φ̂) − logΓ(φ̂) − (φ̂ − 1){1 − ψ(φ̂)}],

em que Γ(φ) é a função gama e ψ(φ) é a função digama. Use o resultado

log(φ̂) − ψ(φ̂) = D̄/2, em que D̄ = ni=1 D(yi ; µ̂i )/n denota o desvio
P

médio do modelo correspondente.

17. Supor Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
G(µi , φ) para i = 1, 2 e j = 1, . . . , m, sendo log(µ1 ) = α − β e
log(µ2 ) = α + β. (i) Obtenha a matrix modelo X. (ii) Expresse
em forma fechada as estimativas de máxima verossimilhança α̂ e β̂.
(iii) Calcule as variâncias assintóticas Var(α̂) e Var(β̂) e mostre que
Cov(α̂, β̂) = 0. (iv) Como fica o teste de escore para testar H0 : β = 0
contra H1 : β 6= 0? Qual a distribuição nula assintótica da estatı́stica
do teste?

18. No arquivo energy.txt estão descritos os dados referentes ao consumo

de energia em 53 domicı́lios (Montgomery et al., 2001, pgs. 175-178) em
que o total de energia consumido num determinado mês (em kilowatts-
hora) é utilizado para explicar a demanda de energia na hora de pico.
Faça inicialmente uma análise descritiva dos dados. Use um modelo
de regressão normal linear (com erros homocedásticos) para explicar a
demanda média no horário de pico através do consumo mensal de ener-
gia. Proponha, alternativamente, modelos com erros heteroscedásticos.
Compare os ajustes e interprete os coeficientes estimados do modelo es-
colhido.

19. (Myers et al., 2002, p. 192). A fim de avaliar-se a qualidade de

um determinado filme utilizado em máquinas fotográficas, o tempo de

179
duração do filme (em horas) é relacionado com a densidade máxima
do filme sob três condições experimentais conforme descrito na tabela
abaixo e também no arquivo dfilme.txt.

Tempo Dmax Tempo Dmax Tempo Dmax

o o
(72 C) (82 C) (92o C)
72 3,55 48 3,52 24 3,46
144 3,27 96 3,35 48 2,91
216 2,89 144 2,50 72 2,27
288 2,55 192 2,10 96 1,49
360 2,34 240 1,90 120 1,20
432 2,14 288 1,47 144 1,04
504 1,77 336 1,19 168 0,65

Faça um diagrama de dispersão entre o tempo de duração e a densi-

dade máxima para cada condição experimental e proponha um modelo
com resposta gama para ajustar esses dados. Aplique métodos de di-
agnóstico e interprete as estimativas do modelo selecionado.

20. O arquivo claims.txt contém uma amostra aleatória de 996 apólices

de seguros de veı́culos extraı́das do livro de de Jong e Heller (2008) re-
ferente ao perı́odo 2004-2005. As variáveis do arquivo estão na seguinte
ordem : (i) valorv (valor do veı́culo em 10000 dolares australianos),
(ii) expos (exposição do veı́culo), (iii) nsinistros (número de sinis-
tros no perı́odo), (iv) csinistros (custo total dos sinistros em dolares
australianos), (v) tipov (tipo do veı́culo em 11 categorias), (vi) idadev
(idade do veı́culo em 4 categorias), (vii) sexoc (sexo do condutor prin-
cipal), (viii) areac (área de residência do condutor principal) e (ix)
idadec (idade do condutor principal em 6 categorias).

Faça inicialmente uma análise descritiva dos dados e procure agrupar

em um número menor de categorias algumas variáveis categóricas. Con-

180
sidere como variável resposta cmsinistros = csinistros/nsinistros.
Aplique numa primeira etapa modelos com resposta gama e normal
inversa com φ constante. Faça uma análise de diagnóstico. Numa se-
gunda etapa, se necessário, aplique modelos duplos com resposta gama
e normal inversa. Faça também uma análise de diagnóstico. Para o
modelo final selecionado interprete os coeficientes estimados.

21. O arquivo fluxo.txt contém parte dos dados de um experimento de-

senvolvimento em 2006 nas Faculdades de Medicina e de Filosofia, Le-
tras e Ciências Humanas da USP e analisado no Centro de Estatı́stica
Aplicada do IME-USP (CEA0P16) para avaliar o fluxo da fala de fa-
lantes do Português Brasileiro segundo o gênero, idade e escolaridade.
Uma amostra de 595 indivı́duos residentes na cidade de São Paulo com
idade entre 2 e 99 anos foi avaliada segundo a fala auto-expressiva. O
indivı́duo era apresentado a uma figura e orientado a discorrer sobre
a mesma durante um tempo mı́nimo de 3 minutos e máximo de 6 mi-
nutos. Para crianças de 2 e 3 anos, as amostras foram obtidas com a
colaboração dos pais.

As variáveis estão descritas na seguinte ordem: (i) idade, idade em

anos do indivı́duo, (ii) g^
enero, gênero do indivı́duo (1:feminino, 2:mas-
culino), (iii) interj, número de interjeições durante o discurso, (iv)
fpm, fluxo de palavras por minuto e (v) fsm, fluxo de sı́labas por mi-
nuto. Para ler o arquivo no R use os comandos

fluxo = read.table("fluxo.txt", header=TRUE)

genero = factor(genero).

Faça inicialmente uma análise descritiva dos dados, boxplots indivi-

duais e diagramas de dispersão de cada variável explicativa contra fpm

181
(que será assumida como resposta). Depois proponha um modelo linear
normal homocedástico e verifique a possibilidade de também modelar
a variância.

Ajustar um modelo normal heterocedástico usando o GAMLSS. Note que

neste caso é modelado o desvio padrão ao invés da variância, como
ocorre na biblioteca dglm. Interpretar os gráficos gerados pelos coman-
dos plot, wp e term.plot.

22. No arquivo rent do gamlss são descritas 9 variáveis observadas numa

amostra aleatória de 1967 unidades habitacionais da cidade de Munich
em 1993. Para fins de análise iremos considerar as seguintes variáveis:
(i) R (valor mensal lı́quido do alugel em DM), (ii) Fl (área útil em
m2 ), (iii) A (ano da construção), (iv) H (variável binária referente à
existência de aquecimento central, 0: sim, 1: não) e (v) loc (qualidade
da localização do imóvel, 1: abaixo da média, 2: na média e 3: acima
da média). O arquivo está disponibilizado diretamente no gamlss, no
entanto é preciso informar que a variável loc é categórica através do
comando

loc=factor(loc).

A variável explicativa A é considerada contı́nua. Fazer inicialmente

uma análise descritiva dos dados, tais como densidade da variável res-
posta, boxplots e diagramas de dispersão entre as variáveis explicativas
contı́nuas e a variável resposta. Procure selecionar um modelo gama
duplo com ligação logarı́tmica para explicar o valor médio mensal do
aluguel e o coeficiente de dispersão. Fazer uma análise de diagnóstico
e interpretar os coeficientes estimados do moelo selecionado.

23. Considere o arquivo BigMac2003 da biblioteca alr4 do R, em que

182
são descritas as seguintes variáveis de 69 cidades de diversos paı́ses:

• BigMac: minutos de trabalho para comprar um Big Mac

• Bread: minutos de trabalho para comprar 1kg de pão

• Rice: minutos de trabalho para comprar 1kg de arroz

• FoodIndex: ı́ndice de preços de alimentos
• Bus: valor da passagem de ônibus (em USD)

• Apt: valor do aluguel (em USD) de um apartamento padrão de 3

dormitórios
• TeachGI: salário bruto anual (em 1000 USD) de um professor de
ensino fundamental
• TeachNI: salário lı́quido anual (em 1000 USD) de um professor de
ensino fundamental

• TaxRate: imposto pago (em porcentagem) por um professor de

ensino fundamental
• TeachHours: carga horária semanal (em horas) de um professor
de ensino fundamental.

Para disponibilizar e visualizar um resumo dos dados use na sequência

os seguintes comandos do R:

require(alr4)

require(MASS)

attach(BigMac2003)

summary(BigMac2003).

O objetivo principal do estudo é relacionar a variável BigMac com as de-

mais variáveis explicativas. Apresente a densidade da variável resposta,

183
as correlações lineares amostrais bem como os diagramas de dispersão
(com tendência) entre a variável resposta e cada uma das variáveis ex-
plicativas. Comente. Padronize as variáveis explicativas. Por exemplo,
para padronizar a variável explicativa Bread use o comando

sBread = scale(Bread, center = TRUE, scale = TRUE).

Ajustar inicialmente um modelo com resposta gama e ligação logarı́tmica

no GAMLSS através do comando

fit1.bigmac = gamlss(BigMac ∼ ·, family=GA, data=BigMac2003).

Através do procedimento stepGAIC fazer uma seleção das variáveis ex-

plicativas

fit2.bigmac = stepGAIC(fit1.bigmac).

Para o submodelo selecionado aplicar análises de resı́duos através dos

comandos plot(fit2.bigmac) e wp(big.mac). Construir o gráfico
da distância de Cook. Comente. Classifique as variáveis explicativas
segundo o impacto na explicação da média da variável resposta. Apre-
sente e comente o term.plot(fit2.big.mac).

24. No arquivo raia.txt são descritas as seguintes variáveis observadas

numa amostra de 186 descarregamentos pesqueiros na Bahia de todos
os Santos (costa nordeste brasileira), no perı́odo de janeiro de 2012 a
janeiro de 2013, referentes à captura da raia-branca através do método
artesanal grozeira: (i) periodo (perı́odo da pesca, seco ou chuvoso), (ii)
local (local da pesca, área1, área2, área3 e área4), (iii) mare (maré,
quadratura ou sizı́gia), (iv) vvento (velocidade do vento, em m/s), (v)
tmax (temperatura máxima, em o C), (vi) tmin (temperatura mı́nima,
em o C), (vii) ins (insolação, em horas) e (viii) cpue (captura por uni-

184
dade de esforço, em kg). As variáveis (iii) a (vii) foram observadas no
local de pesca.

O objetivo principal do estudo é relacionar a cpue média com as demais

variáveis explicativas. Para ler esse arquivo no R faça o seguinte:

raia = read.table("raia.txt", header=TRUE).

Para deixar o arquivo disponı́vel use o comando

attach(raia).

Informar que as variáveis local e maré são categóricas

raia$local = factor(raia$local, levels=1:4, labels=c("área1",

"área2", "área3", "área4"))

raia$mare = factor(raia$mare, levels=1:2, labels=c("quadratura",

"sizı́gia")).

Faça inicialmente uma análise descritiva construindo boxplots robustos

e diagramas de dispersão de cada variável explicativa contı́nua contra
a variável resposta cpue. Calcule também as correlações lineares entre
as variáveis. Comente.

Proponha um modelo gama com ligação logarı́tmica com todas as

variáveis explicativas e ajuste no R usando o comando glm. Use o
comando stepAIC para selecionar um submodelo. Tente incluir in-
terações de 1a ordem ao nı́vel de significância de 10%. Obtenha φb e o
correspondente erro padrão estimado, além da função desvio e o res-
pectivo valor-P. Construa o gráfico da distância de Cook e do envelope
gerado com o resı́duo componente do desvio. Verifique o impacto das
observações atı́picas e interprete os coeficientes do modelo final.

185
Finalmente, ajustar o modelo final pelo GAMLSS. Comente os gráficos
de resı́duos quantı́licos gerados pelos comandos plot e wp.

25. (Feigl e Zelen, 1965). A seguir é descrito um conjunto de dados em

que pacientes com leucemia foram classificados segundo a ausência ou
presença de uma caracterı́stica morfológica nas células brancas. Pa-
cientes classificados de AG positivo foram aqueles com a presença da
caracterı́stica e pacientes classificados de AG negativo não apresenta-
ram a caracterı́stica. É apresentado também o tempo de sobrevivência
do paciente (em semanas) após o diagnóstico da doença e o número de
células brancas (WBC) no momento do diagnóstico. Esses dados estão
descritos no arquivo sobrev.txt.

AG Positivo AG Negativo
WBC Tempo WBC Tempo
2300 65 4400 56
750 156 3000 65
4300 100 4000 17
2600 134 1500 7
6000 16 9000 16
10500 108 5300 22
10000 121 10000 3
17000 4 19000 4
5400 39 27000 2
7000 143 28000 3
9400 56 31000 8
32000 26 26000 4
35000 22 21000 3
100000 1 79000 30
100000 1 100000 4
52000 5 100000 43
100000 65

Supondo que o tempo de sobrevivência após o diagnóstico segue uma

186
distribuição gama, proponha um modelo para explicar o tempo médio
de sobrevivência dados log(WBC) e AG(=1 positivo, =0 negativo).
Faça uma análise de diagnóstico com o modelo ajustado e interprete as
estimativas.

Ajustar o modelo no GAMLSS. Interpretar os gráficos gerados pelos co-

mandos plot, wp e term.plot.

187
Capı́tulo 3

Modelos para Dados Binários

3.1 Introdução
Neste capı́tulo serão apresentados modelos para a análise de dados com res-
posta binária, isto é, resposta que admite apenas dois resultados. Comumente
é chamado de sucesso o resultado mais importante da resposta ou aquele que
pretende-se relacionar com as demais variáveis de interesse. É comum encon-
trar situações práticas em que esse tipo de resposta aparece. Como ilustração,
seguem alguns exemplos: (i) o resultado do diagnóstico de um exame de labo-
ratório, positivo ou negativo; (ii) o resultado da inspeção de uma peça recém
fabricada, defeituosa ou não defeituosa; (iii) a opinião de um eleitor a respeito
da implantação do voto distrital, favorável ou outra opinião; (iv) o resultado
de um teste de aptidão aplicado a um estudante, aprovado ou reprovado;
(v) classificação de um cliente de uma instituição financeira com relação a
um empréstimo para financiamento imobiliário, adimplente ou inadimplente;
(vi) o resultado de uma promoção de uma rede de lojas enviando para cada
cliente um cupom com desconto, cupom utilizado ou cupom não utilizado
num determinado perı́odo, etc. Há também situações em que apenas duas
possibilidades são consideradas de interesse para uma variável contı́nua, valo-

188
res menores do que um valor de referência v0 e valores maiores ou iguais a v0 .
Nesses casos, pode-se considerar uma nova variável binária para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v0
pode ser a nota mı́nima para ser aprovado no exame, ou o valor mı́nimo para
um exame de laboratório ser considerado alterado. Assim, variáveis binárias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, uma resenha dos principais métodos clássicos para a análise
de tabelas de contingência do tipo 2 × 2 será apresentada neste capı́tulo. Em
seguida, será descrito o modelo de regressão logı́stica para a análise de tabelas
de contingência 2×2. Também serão discutidos procedimentos para a seleção
de variáveis em modelos logı́sticos, métodos de diagnóstico, alguns tipos de
modelos de dose-resposta, sobredispersão e regressão logı́stica condicional.

3.2 Métodos clássicos: uma única tabela 2 × 2

Métodos clássicos em tabelas de contingência 2 × 2 são datados da década de
1950. Os primeiros trabalhos foram motivados pelo interesse na inferência
de certos parâmetros com grande aplicabilidade na área biomédica, espe-
cialmente em Epidemiologia, tais como risco relativo e razão de chances.
Vários trabalhos foram publicados durante as décadas de 1950 e 1960 e até
hoje as técnicas desenvolvidas têm sido utilizadas, particularmente na análise
descritiva dos dados, antes de um tratamento mais sofisticado através de mo-
delagem estatı́stica de regressão. Nesta seção será apresentada uma resenha
das principais técnicas segundo o ponto de vista inferencial clássico. Embora
a metodologia apresentada possa ser aplicada em qualquer área do conhe-
cimento, será dado ênfase para a área biomédica em que tem ocorrido um
número maior de aplicações.

189
3.2.1 Risco relativo
Supor que os indivı́duos de uma determinada população sejam classificados
segundo um fator com dois nı́veis, A e B, e a presença ou ausência de uma
certa doença, denotados por D e D̄, respectivamente. As proporções popu-
lacionais ficam, nesse caso, descritas conforme a tabela abaixo.

Fator
Doença A B
D P 1 P3
D̄ P 2 P4

Portanto, pode-se definir as seguintes quantidades:

P1 /(P1 + P2 ) : proporção de indivı́duos classificados como doentes no grupo

P3 /(P3 + P4 ) : proporção de indivı́duos classificados como doentes no grupo

A razão entre as duas proporções acima foi denominada por Cornfield (1951)
como sendo o risco relativo de doença entre os nı́veis A e B, ou seja
P1 /(P1 + P2 ) P1 (P3 + P4 )
RR = = . (3.1)
P3 /(P3 + P4 ) P3 (P1 + P2 )

Cornfield (1951) também notou que se a doença for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
P1 P4
ψ= , (3.2)
P3 P2
a qual denominou odds ratio, que será denominada razão de chances. Muitas
vezes é comum ψ ser chamado de risco relativo, embora isso somente seja
válido quando P1 e P3 forem muito pequenos. A grande vantagem do uso de ψ

190
é a facilidade inferencial tanto na abordagem tradicional como na abordagem
através de regressão.
Como em geral a porcentagem de indivı́duos doentes é muito menor do
que a porcentagem de não doentes, é bastante razoável num estudo cujo ob-
jetivo é avaliar a associação entre algum fator particular e uma certa doença,
que a quantidade de doentes na amostra seja a maior possı́vel. Assim, a amos-
tragem retrospectiva, em que os indivı́duos são escolhidos separadamente nos
estratos D e D̄, pode ser mais conveniente do que os demais procedimentos
amostrais. Um cuidado, entretanto, deve-se ter nesses estudos. É impor-
tante que os doentes (casos) sejam comparáveis aos não doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doença. Nos estudos prospectivos, em que a amostragem é
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessário um longo perı́odo até a obtenção de um número
suficiente de doentes para uma análise estatı́stica mais representativa.
As inferências para os estudos retrospectivos e prospectivos são idênticas,
assim será descrito apenas o caso retrospectivo. Assim, assume-se que no es-
trato D são amostrados n1 indivı́duos e que no estrado D̄ são amostrados n2
indivı́duos. O número observado de indivı́duos com presença de A nos estra-
tos D e D̄ será denotado por y1 e y2 , respectivamente. Os dados resultantes
dessa amostragem podem ser resumidos conforme a tabela abaixo.

Fator
Doença A B Total
D y1 n1 − y1 n1
D̄ y 2 n2 − y 2 n2

Esse tipo de abordagem pode ser estendida para quaisquer situações

práticas em que pretende-se comparar dois estratos de uma determinada

191
população segundo a ocorrência de algum evento de interesse. Por exemplo,
A poderia denotar os condutores do sexo masculino com apólice de seguro
de automóvel de uma seguradora, enquanto B denotaria os condutores do
sexo feminino da mesma seguradora. O evento D poderia ser a utilização da
apólice para cobrir alguma sinistralidade num determinado perı́odo. Assim,
pode-se estimar a razão de chances entre condutores do sexo masculino e con-
dutores do sexo feminino de utilização da apólice para cobrir sinistralidade.
Como o evento D neste caso não deve ser raro, risco relativo e razão de chan-
ces devem ser quantidades diferentes. A seguir será discutida a abordagem
clássica para analisar a tabela acima.

3.2.2 Modelo probabilı́stico não condicional

Denota-se por Y1 e Y2 o número de indivı́duos com presença de A nos estratos
D e D̄, respectivamente. Será também assumido que essas variáveis são bino-
miais independentes, isto é Y1 ∼ B(n1 , π1 ) e Y2 ∼ B(n2 , π2 ), respectivamente.
Logo, a função de probabilidade conjunta de (Y1 , Y2 ) fica dada por

n1 n2 y1 y2
f (y1 , y2 ; π1 , π2 ) = π1 π2 (1 − π1 )n1 −y1 (1 − π2 )n2 −y2 . (3.3)
y1 y2
Seguindo a notação da seção anterior, tem-se que π1 = P1 /(P1 +P3 ), 1−π1 =
P3 /(P1 + P3 ), π2 = P2 /(P2 + P4 ) e 1 − π2 = P4 /(P2 + P4 ). Assim, mostra-se
que
P1 P 4 π1 (1 − π2 )
ψ= = ,
P3 P2 π2 (1 − π1 )
e consequentemente que π1 = π2 ψ/{π2 ψ + 1 − π2 }. A expressão (3.3) pode
então ser expressa apenas em função de (ψ, π2 ),

n1 n2 π2
f (y1 , y2 ; ψ, π2 ) = exp log + y1 log(ψ) + (y1 + y2 ) log ×
y1 y2 1 − π2
(1 − π2 )n
× , (3.4)
(ψπ2 + 1 − π2 )n1

192
em que n = n1 + n2 . O logaritmo da função de verossimilhança fica portanto
dado por

n1 n2 π2
L(ψ, π2 ) = log + y1 log(ψ) + (y1 + y2 ) log +
y1 y2 1 − π2
+n log(1 − π2 ) + n1 log(ψπ2 + 1 − π2 ).

Pode-se mostrar que a maximização de L(ψ, π2 ) leva às estimativas de máxima

y2 y1 (n2 −y2 )
verossimilhança π̃2 = n2
e ψ̃ = y2 (n1 −y1 )
, respectivamente.
A variância assintótica de ψ̃ é expressa na forma

2 1 1
VarA (ψ̃) = ψ + .
n1 π1 (1 − π1 ) n2 π2 (1 − π2 )
Esse resultado pode ser mostrado utilizando teoria assintótica relacionada
com os estimadores de máxima verossimilhança de π2 e ψ, sendo as corres-
pondentes variâncias assintóticas obtidas através da inversa da matriz de
informação de Fisher para (ψ, π2 ). Outra possibilidade para mostrar esse re-
sultado é através da aplicação do método delta, em que obtém-se a variância
assintótica de ψ̃ através das variâncias e covariância assintóticas de π̃1 e π̃2 .
Assim, para n1 e n2 grandes, tem-se que
>
∂ψ ∂ψ
VarA (ψ̃) = VarA (π̃) ,
∂π ∂π

em que [∂ψ/∂π] = [∂ψ/∂π1 , ∂ψ/∂π2 ]> e VarA (π̃) = diag{ π1 (1−π

n1
1 ) π2 (1−π2 )
, n2 }
com π = (π1 , π2 )> .
Alguns autores preferem trabalhar com log(ψ), uma vez que a apro-
ximação assintótica para a distribuição normal é mais rápida para log(ψ̃)
do que para ψ̃. Assim, pode-se mostrar sob condições gerais de regulari-
dade, que a estimativa não condicional log(ψ̃) segue para grandes amostras
distribuição normal de média log(ψ) e variância assintótica VarA {log(ψ̃)} =

193
{1/n1 π1 (1 − π1 ) + 1/n2 π2 (1 − π2 )}. Esse resultado também pode ser facil-
mente mostrado através do método delta aplicado à transformação log(ψ),
em que
VarA {log(ψ̃)} = {d log(ψ)/dψ}2 VarA (ψ̃)

com d log(ψ)/dψ = 1/ψ 2 .

Em virtude de E(ψ̃) = ∞, que impossibilita qualquer tipo de inferência
para pequenas amostras, testes exatos usando um modelo condicional tem
sido preferido. Esses testes serão discutidos na próxima seção.

3.2.3 Modelo probabilı́stico condicional

Devido aos problemas inferenciais com o modelo não condicional para pe-
quenas amostras, a utilização de um modelo condicional, cuja construção
será discutida a seguir, tem sido a solução encontrada sob o ponto de vista
clássico para fazer inferências a respeito de ψ.
Assim, aplicando o teorema da fatorização para a função de probabili-
dade (3.4), mostra-se que o conjunto de estatı́sticas (Y1 , Y1 + Y2 ) é suficiente
minimal para o vetor de parâmetros [logψ, log{π2 /(1 − π2 )}]. Logo, a distri-
buição de (Y1 , Y2 ) condicionada a Y1 + Y2 = m, deverá resultar numa função
de probabilidade que depende apenas do parâmetro de interese ψ. Essa dis-
tribuição resultante (ver Cornfield, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatı́stica Y1 + Y2 não é ancilar para ψ; isto é,
contém informações a respeito do parâmetro ψ (ver discussão, por exemplo,
em Lehnman e Casella, 2011).
O condicionamento de (Y1 , Y2 ) em Y1 +Y2 = m produz o modelo caracteri-
zado pela famı́lia de distribuições hipergeométricas não centrais, cuja função

194
de probabilidade é definida por
n1 n2

y1m−y1
ψ y1
f (y1 |m; ψ) = P n1 n2 t , (3.5)
t t m−t
ψ
em que 0 < ψ < ∞ e t varia de max(0, m − n2 ) a min(n1 , m). Em particu-
lar, quando ψ = 1, a expressão (3.5) fica reduzida à conhecida distribuição
hipergeométrica central, com função de probabilidade dada por
n1
n2
y1 m−y1
f (y1 |m; ψ = 1) = n1 +n2
.
m

A média e a variância de Y1 |m são, respectivamente, dadas por

mn1
E(1) = E(Y1 |m; ψ = 1) =
n
e
n1 n2 (n − m)m
V(1) = Var(Y1 |m; ψ = 1) = .
n2 (n − 1)
Para o modelo condicional (3.5) o logaritmo da função de verossimilhança
fica expresso na forma
( )
n1 n2 X n1 n2
t
L(ψ) = log + y1 log(ψ) − log ψ .
y1 y2 t
t m−t

Denote por ψ̂ a estimativa de máxima verossimilhança condicional. Essa esti-

mativa pode ser expressa como a solução positiva da equação y1 = E(Y1 |m; ψ̂).
Tem-se que o momento de ordem r da distribuição condicional, E(Y1r |m; ψ)
é dado por E(Y1r |m; ψ) = Pr (ψ)/P0 (ψ), em que
X n1 n2
Pr (ψ) = tr ψ t , r = 1, 2, . . .
t
t m−t
P n1 n2 t
e P0 (ψ) = t t m−t
ψ . Assim, a equação de máxima verossimilhança
para obter ψ̂ fica reescrita na forma
P1 (ψ̂)
y1 − = 0. (3.6)
P0 (ψ̂)

195
Com o aumento de n1 , n2 , m e n − m, fica impraticável obter ψ̂ através
de (3.6), uma vez que essa equação contém polinômios em ψ̂ de grau bas-
tante elevado. Uma saı́da, nesses casos, é resolver (3.6) através de métodos
numéricos que não requerem a extração das raı́zes do polinômio P1 (ψ)P0−1 (ψ)
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
Para ilustrar a obtenção de ψ̂, considere a tabela abaixo.

A B Total
D 1 3 4
D̄ 1 2 3
Tem-se, nesse caso, que n1 = 4, n2 = 3 e m = 2. A função de probabilidade
da distribuição condicional fica então dada por
X 4 3
4 3 y1
f (y1 |m; ψ) = ψ / ψt,
y1 2 − y1 t
t 2 − t
em que o somatório varia no intervalo 0 ≤ t ≤ 2. Isso resulta nas probabili-
dades condicionais

f (0|m; ψ) = 3/{3 + 12ψ + 6ψ 2 }

f (1|m; ψ) = 12ψ/{3 + 12ψ + 6ψ 2 } e
f (2|m; ψ) = 6ψ 2 /{3 + 12ψ + 6ψ 2 }.

A equação E(Y1 |m; ψ̂) = y1 fica então dada por

12ψ̂ + 12ψ̂ 2 = 3 + 12ψ̂ + 6ψ̂ 2 ,

que é equivalente a 6ψ̂ 2 = 3 ou ψ̂ = 0, 707.

Similarmente ao estimador não condicional, pode-se mostrar para grandes
amostras que ψ̂ segue distribuição normal de média ψ e variância assintótica
−1
VarA (ψ̂) = VA (ψ), em que

196

−1 1 1 1 1
VA (ψ) = + + + ,
EA (ψ) n1 − EA (ψ) m − EA (ψ) n2 − m + EA (ψ)

e EA (ψ) sai da equação

EA (ψ){n2 − m + EA (ψ)}
= ψ, (3.7)
{n1 − EA (ψ)}{m − EA (ψ)}
que para ψ fixo resulta numa equação quadrática em EA (ψ). Mostra-se,
para ψ 6= 1, que a única raiz de (3.7) que satisfaz max(0, m − n2 ) ≤ EA (ψ) ≤
min(n1 , m) é dada por

EA (ψ) = ||r| − s|,

1
em que r = 21 [n/(ψ − 1) + m + n1 ] e s = [r2 − mn1 ψ/(ψ − 1)] 2 .
Quando ψ = 1, a expressão (3.7) não resulta numa forma quadrática em
EA (ψ). Verifica-se facilmente, nesse caso, que
mn1
EA (1) =
n
e
n1 n2 m(n − m)
VA (1) = .
n3
Pode-se notar que a média e a variância assintótica de ψ̂, quando ψ = 1,
coincidem praticamente com a média e a variância da distribuição condicional
dada em (3.5).

3.2.4 Teste de hipóteses

Testes exatos
Uma vez conhecida a distribuição condicional que depende apenas do parâmetro
de interesse ψ, pode-se desenvolver testes exatos para pequenas amostras.

197
Um caso de interesse seria testar H0 : ψ = ψ0 contra H1 : ψ < ψ0 , em que
ψ0 é um valor conhecido. O nı́vel descritivo (valor-P) do teste, isto é, a pro-
babilidade sob H0 de obtenção de valores tão ou mais desfavoráveis a H0 (no
sentido de H1 ) é definido por
X
PI = f (t|m; ψ0 ),
t≤y1

em que o somatório vai de max(0, m − n2 ) até y1 . Analogamente, para testar

P
H0 : ψ = ψ0 contra H1 : ψ > ψ0 , tem-se que PS = t≥y1 f (t|m; ψ0 ). Nesse
caso, o somatório vai de y1 até min(n1 , m). Para o teste bilateral, H0 : ψ = ψ0
contra H1 6= ψ0 , o nı́vel descritivo é definido por P= 2min{PI , PS }.
Em particular, quando ψ0 = 1, está sendo testada a não existência
de associação entre o fator e a doença, sendo o teste resultante conhecido
como teste exato de Fisher (ver, por exemplo, Everitt, 1977). Nesse caso,
o nı́vel descritivo é obtido computando as probabilidades da distribuição hi-
pergeométrica central.
Pode-se também utilizar o modelo condicional (3.5) para a estimação
intervalar de ψ. Os respectivos limites de confiança serão baseados em PI
e PS e denotados por ψ̂I e ψ̂S , respectivamente. Como ilustração, supor
que o interesse é construir um intervalo de confiança de coeficiente (1 − α)
para ψ. Os limites ψ̂I e ψ̂S ficam então, invertendo a região crı́tica do teste
H0 : ψ = ψ0 contra H1 : ψ 6= ψ0 , determinados pelas equações

α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I ),
2 t≤y 2 t≥y
1 1

que são polinômios de grau elevado em ψ̂S e ψ̂I à medida que os tamanhos
amostrais crescem, o que praticamente inviabiliza a solução das equações.
Nesses casos, uma alternativa é trabalhar com intervalos assintóticos.

198
Voltando à tabela da seção anterior, supor que o interesse é testar H0 :
ψ = 1 contra H1 : ψ 6= 1. Tem-se então os nı́veis descritivos PI = f (0|m; ψ =
1) + f (1|m; ψ = 1) = 15/21 e PS = f (1|m; ψ = 1) + f (2|m; ψ = 1) = 18/21
o que leva a P= 1, 0. Por outro lado, os limites ψ̂I e ψ̂S ficam dados por

1 2
α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I )
2 t=0
2 t=1

que é equivalente, supondo α = 0, 20, a

0, 10 = f (0|m; ψ̂S ) + f (1|m; ψ̂S ) e 0, 10 = f (1|m; ψ̂I ) + f (2|m; ψ̂I ),

que levam às equações

4ψ̂I + 2ψ̂I2
0, 10 = (ψ̂I = 0, 0274)
1 + 4ψ̂I + 2ψ̂I2
e
1 + 4ψ̂S
0, 10 = (ψ̂S = 18, 25).
1 + 4ψ̂S + 2ψ̂S2

Testes assintóticos
Para grandes amostras, n1 , n2 , m e n − m grandes, a distribuição condicional
(3.5) se aproxima de uma distribuição normal de média EA (ψ) e variância
VA (ψ) (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para
o desenvolvimento de testes assintóticos para testar H0 : ψ = ψ0 contra
H1 : ψ 6= ψ0 (H1 : ψ > ψ0 ou H1 : ψ < ψ0 ). No caso de H1 : ψ 6= ψ0 , utiliza-se
a estatı́stica qui-quadrado dada abaixo

{y1 − EA (ψ0 )}2

X2 = , (3.8)
VA (ψ0 )

199
que sob H0 segue assintoticamente distribuição qui-quadrado com 1 grau de
liberdade. Para H1 : ψ < ψ0 e H1 : ψ > ψ0 , o nı́vel descritivo é dado por
( )
y1 − EA (ψ0 )
PI = P r Z ≤ p
VA (ψ0 )
e ( )
y1 − EA (ψ0 )
PS = P r Z ≥ p ,
VA (ψ0 )
respectivamente, em que Z segue distribuição N(0, 1). Em particular, quando
ψ0 = 1, a estatı́stica qui-quadrado (3.8) fica reduzida à forma conhecida

2
y1 − mn

1
2 n
X = . (3.9)
n1 n2 m(n − m)/n3
Um intervalo assintótico de confiança para ψ pode ser obtido utilizando
a distribuição assintótica de log(ψ̃). Os limites desse intervalo são dados por
q
ψ̃I = exp[log(ψ̃) − z(1−α/2) V̂arA {log(ψ̃)}]

e q
ψS = exp[log(ψ̃) + z(1−α/2) V̂arA {log(ψ̃)}],

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão e

1 1 1 1
V̂arA {log(ψ̃)} = + + + .
y 1 n1 − y 1 y 2 n2 − y 2
Esses limites podem ser expressos em uma outra forma, levando-se em conta
a estatı́stica qui-quadrado para testar H0 : ψ = 1 contra H1 : ψ 6= 1. Essa
estatı́stica é denotada por

{log(ψ̃)}2
X2 = , (3.10)
V̂arA {log(ψ̃)}

200
que segue, para grandes amostras, distribuição qui-quadrado com 1 grau de
liberdade. Assim, os limites ficam reexpressos nas formas

ψ̃I = ψ̃ (1−z(1−α/2) /X)

e
ψ̃S = ψ̃ (1+z(1−α/2) /X) .

Alguns autores (ver Breslow e Day, 1980, p. 135) têm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (ψ̃I , ψ̃S ) é em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 são muito
diferentes, essa probabilidade de cobertura é superestimada. Uma sugestão,
nesses casos, é utilizar o valor de X obtido do teste condicional (3.9) em vez
do valor obtido do teste não condicional (3.10).

3.3 Métodos clássicos: k tabelas 2 × 2

Muitas vezes tem-se interesse em controlar a associação entre dois fatores
binários através de um terceiro fator, comumente chamado de fator de con-
fundimento. O principal objetivo com esse tipo de estratificação é eliminar
ou pelo menos reduzir a influência desses fatores na associação de interesse.
Uma maneira mais eficiente de controlar fatores de confundimento é através
da regressão logı́stica, que será discutida na Seção 3.6. Nesta seção, será
considerado apenas um fator de confundimento com k nı́veis, que são amos-
trados ni indivı́duos no i-ésimo estrato (n1i casos e n2i controles) e que os
mesmos são classificados conforme a tabela 2 × 2 abaixo.

Fator
Doença A B Total
D y1i n1i − y1i n1i
D̄ y2i n2i − y2i n2i

201
Seguindo a mesma notação das seções anteriores tem-se que as estimativas
não condicional e condicional de ψi são, respectivamente, tais que

y1i (n2i − y2i ) P1i (ψ̂i )

ψ̃i = e y1i − = 0.
y2i (n1i − y1i ) P0i (ψ̂i )

As propriedades assintóticas de ψ̃i e ψ̂i são as mesmas de ψ̃ e ψ̂ da Seção 3.2,

bem como as formas dos testes de hipóteses e da estimação intervalar.

3.3.1 Estimação da razão de chances comum

Um teste de interesse quando há k tabelas de contingência 2 × 2 é verificar a
ausência de interação entre os estratos, isto é, verificar se a associação entre
o fator e a doença não muda de um estrato para o outro. Isso é equivalente a
verificar se as razões de chances são homogêneas, ou seja, testar as hipóteses

H0 : ψ1 = · · · = ψk
H1 : pelo menos dois valores diferentes.

Há várias propostas de estimativas para a razão de chances comum. As

estimativas de máxima verossimilhança não condicional e condicional serão
denotadas por ψ̃ e ψ̂, respectivamente. A primeira estimativa pode ser ob-
tida facilmente através do ajuste de uma regressão logı́stica, enquanto que a
segunda é mais complexa do ponto de vista computacional e será omitida.
Duas estimativas não iterativas foram propostas por Mantel e Haenszel
(1959) e Wolf (1955), as quais serão denotadas por ψ̂M H e ψ̂W , respectiva-
mente. A estimativa de Mantel-Haenszel é definida por
Pk
y1i (n2i − y2i )/ni
ψ̂M H = Pki=1 ,
i=1 y2i (n1i − y1i )/ni

e pode também ser expressa como uma média ponderada de estimativas não

202
condicionais Pk
vi ψ̃i
ψ̂M H = Pi=1
k
,
i=1 vi
em que vi = y2i (n1i − y1i )/ni . O estimador de Mantel-Haenszel é consistente
e assintoticamente normal com variância assintótica dada por
k
X k
X
VarA (ψ̂M H ) = ψ 2
ai ωi−1 /( ai )2 ,
i=1 i=1

em que ωi = {n1i π1i (1 − π1i )}−1 + {n2i π2i (1 − π2i )}−1 e ai = n1i n2i (1 −
π1i )π2i /ni . A estimativa de Wolf é dada por
(P )
k −1
ω̃
i=1 i log( ψ̃ i )
ψ̂W = exp Pk −1
,
i=1 ω̃i

em que ω̃i = {1/y1i + 1/(n1i − y1i ) + 1/y2i + 1/(n2i − y2i )}. Esse estimador é
também consistente e assintoticamente normal com variância dada por

VarA (ψ̂W ) = ψ 2 ω −1 ,

em que ω = ω1−1 + · · · + ωk−1 . Como log(ψ̂W ) converge mais rapidamente para

a distribuição normal do que ψ̂W , uma estimativa intervalar de coeficiente de
coefiança (1 − α) para ψ comum fica dada por
q
ψ̃I = exp[log(ψ̂W ) − z(1−α/2) V̂arA {log(ψ̂W )}]

e q
ψS = exp[log(ψ̂W ) + z(1−α/2) V̂arA {log(ψ̂W )}],

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão e

V̂arA {log(ψ̂W )} = 1/ ki=1 ω̃i−1 . Similarmente pode-se encontrar estimativas
P

assintóticas intervalares para ψ comum utilizando o estimador de Mantel-

Haenszel.

203
3.3.2 Testes de homogeneidade
Supor que o interesse é testar as hipóteses H0 e H1 definidas na seção ante-
rior. A estatı́stica da razão de verossimilhanças que assume o produto de 2k
binomiais independentes é a mais utilizada nesse caso. Do ponto de vista de
análise preliminar dos dados, duas estatı́sticas têm sido sugeridas. A primeira
delas (vide Hosmer et al., 2013), é definida abaixo
k
X
2
XHL = ω̃i−1 {log(ψ̃i ) − log(ψ̂W )}2 ,
i=1

que segue, sob H0 e assintoticamente (para n1i e n2i grandes, ∀i), distribuição
qui-quadrado com k − 1 graus de liberdade. A outra estatı́stica, definida em
Breslow e Day (1980, p. 42), é baseada no modelo condicional, sendo expressa
na forma
k
2
X {y1i − EAi (ψ̂M H )}2
XBD = ,
i=1 VAi (ψ̂M H )
que também segue, sob H0 e para grandes amostras, distribuição qui-quadrado
com k − 1 graus de liberdade. A estatı́stica do teste é avaliada na estimativa
não iterativa de Mantel-Haenszel ao invés da estimativa condicional ψ̂.
Quando a hipótese nula não é rejeitada, um teste imediato é verificar a
não existência de associação entre o fator e a doença, mantendo apenas o
efeito da estratificação. Esse teste, conhecido como teste de Mantel-Haenszel
(1959), utiliza a seguinte estatı́stica:
Pk Pk
2 { i=1 y1i − i=1 EAi (1)}2
XM H = Pk ,
i=1 VAi (1)

que, sob H0 : ψ = 1, segue para grandes amostras (ni grande ∀i ou para k

grande) distribuição qui-quadrado com 1 grau de liberdade. Similarmente ao
caso de uma única tabela 2 × 2, um intervalo assintótico de confiança para

204
ψ com coeficiente de confiança (1 − α) fica dado por

(1±z /XM H )
(ψ̂I , ψ̂S ) = ψ̂M H (1−α/2) ,
p
2
em que XM H = XM H . Para melhorar a aproximação para a distribuição

normal, é usal aplicar correção de continuidade no teste de Mantel-Haenszel.

3.4 Métodos clássicos: tabelas 2 × k

A dicotomização de um fator com mais de 2 nı́veis, a fim de deixar mais
simples o estudo da associação entre esse fator e uma determinada doença,
pode omitir informações relevantes acerca da associação de cada um dos
nı́veis agrupados e a doença em estudo. Assim, sempre que possı́vel, deve-se
manter para as análises o maior número possı́vel de nı́veis do fator. Uma
tabela resultante, nesse caso, é dada abaixo.

Fator
Doença Nı́vel 1 Nı́vel 2 · · · Nı́vel k Total
n1 − k−1
P
D y11 y12 ··· y1i n1
Pi=1k−1
D̄ y21 y22 ··· n2 − i=1 y2i n2

Analogamente ao caso de uma única tabela 2×2, assume-se que são amostra-
dos n1 elementos do estrato D e n2 elementos do estrato D̄ e que (Yi1 , . . . , Yik )>
segue distribuição multinomial de parâmetros (πi1 , . . . , πik )> , com πik =
1 − k−1
P
j=1 πij , i = 1, 2. Comumente, para analisar as associações entre os

nı́veis do fator e a doença, define-se um nı́vel do fator como referência, que

formará com os demais as razões de chances. Escolhendo o nı́vel 1 como
referência, as razões de chances ficam dadas por
π1j π21
ψ1 = 1 e ψj = , j = 2, . . . , k,
π2j π11

205
em que ψj é a razão de chances entre o nı́vel j e o nı́vel 1 do fator. As
análises inferenciais através do uso do modelo multinomial são tratadas em
textos correntes de análise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, o estudo será restrito ao modelo condicional, que é obtido após
o condicionamento de (Yi1 , . . . , Yik )> , i = 1, 2, nas estatı́sticas suficientes mi-
nimais Y1j + Y2j = mj , j = 1, · · · , k. O modelo resultante é caracterizado
pela distribuição hipergeométrica multivariada não central que depende ape-
nas dos parâmetros de interesse ψ1 , . . . , ψk (ver McCullagh e Nelder, 1989,
p. 261). Em particular, a hipótese de ausência de associação completa entre
os nı́veis do fator e a doença é definida por H0 : ψj = 1, ∀j, que será avaliada
através da distribuição hipergeométrica central k-dimensional, cuja função
de probabilidade é o produto de k distribuições hipergeométricas centrais
n1j
k
n2j
y1j mj −y1j
Y
f (y1 |m; ψ = 1) = n1j +n2j
, (3.11)
j=1 mj

em que y1 = (y11 , . . . , y1k )> , m = (m1 , . . . , mk )> e ψ = (ψ1 , . . . , ψk )> . A

média, variância e covariância correspondentes à distribuição (3.11) são, res-
pectivamente, dadas por
mj n1
Ej (1) = E(Y1j |mj ; ψ = 1) = ,
n
n1 n2 (n − mj )mj
Vj (1) = Var(Y1j |mj ; ψ = 1) =
n2 (n − 1)
e
mj m` n1 n2
Cj` = Cov(Y1j , Y1` |mj , m` ; ψ = 1) = − , j 6= `,
n2 (n − 1)
em que n = n1 + n2 . Um teste estatı́stico para H0 , que tem sido largamente
utilizado para testar a homogeneidade de k proporções (Armitage, 1971), é

206
dado por
k
(n − 1) X 1 1
XA2 = {y1j − Ej (1)}2
+
n j=1
Ej (1) mj − Ej (1)
k
1 X {y1j − Ej (1)}2

1
= (n − 1) + , (3.12)
n1 n2 j=1 mj

que segue, sob H0 e para valores grandes de n1 , n2 e mj , ∀j, distribuição qui-

quadrado com k −1 graus de liberdade. Entretanto, quando os nı́veis do fator
são quantitativos ou qualitativos ordinais, pode ser mais informativo o uso
de um teste para a tendência do risco da doença com o aumento dos nı́veis
do fator. Como ilustração, supor que há k doses xj , j = 1, . . . , k, associadas
aos k nı́veis do fator. Um teste apropriado é considerar a regressão dos
desvios {y1j − Ej (1)} sobre xj (Armitage, 1955; Mantel, 1963). A estatı́stica
correspondente fica dada por
n2 (n − 1)[ kj=1 xj {y1j − Ej (1)}]2
P
2
XHOM = , (3.13)
n1 n2 {n kj=1 x2j mj − ( kj=1 xj mj )2 }
P P

que segue, para grandes amostras e sob H0 , distribuição qui-quadrado com

k − 1 graus de liberdade.
Uma outra maneira de analisar a associação entre o fator e a doença
é através da amostragem nos k nı́veis do fator de interesse. Nesse caso,
a distribuição resultante é um produto de k binomiais independentes e a
hipótese de ausência de associação entre o fator e a doença pode ser avaliada
através do ajuste de uma regressão logı́stica, que será discutida na Seção 3.6.
Por outro lado, se também forem fixados os totais n1 e n2 , a distribuição
condicional resultante é uma hipergeométrica não central k-dimensional que
sob H0 fica reduzida a (3.11). Logo, as estatı́sticas dadas em (3.12) e (3.13)
podem ser aplicadas, pelo menos numa análise preliminar dos dados, para
avaliar a ausência de associação total entre o fator e a doença.

207
Generalizações de (3.12) e (3.13) para o caso de h estratos são dadas em
Breslow e Day (1980, pgs. 148-149).

3.5 Aplicações
3.5.1 Associação entre fungicida e desenvolvimento de
tumor
Como ilustração, será analisado o conjunto de dados apresentado em Innes
et al. (1969), referente a um estudo para avaliar o possı́vel efeito cancerı́geno
do fungicida Avadex. No estudo, 403 camundongos são observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, veri-
ficando o desenvolvimento ou não de tumor cancerı́geno. Os demais animais
não receberam o fungicida (grupo controle) e também foram acompanhados
pelo mesmo perı́odo, verificando a ocorrência ou não de tumor. Dois fatores
potenciais de confundimento, sexo e raça, foram considerados nas análises.
Os dados do experimento são resumidos na Tabela 3.1.
Em virtude dos valores relativamente altos das marginais das quatro ta-
belas 2 × 2 formadas pela combinação dos fatores sexo e raça, será aplicada
uma análise através do modelo não condicional. Tem-se então, na primeira
coluna da Tabela 3.2, as estimativas pontuais das razões de chances de tu-
mor maligno entre o grupo tratado e o grupo controle. Na segunda coluna
tem-se as estimativas intervalares assintóticas de 95% para ψ. Nota-se que,
embora todas as estimativas sinalizem para uma associação positiva, ape-
nas o primeiro intervalo de confiança não cobre o valor ψ = 1, evidenciando
associação apenas no primeiro estrato, ao nı́vel de 5%.

208
Tabela 3.1
Classificação dos camundongos conforme a raça (R1 ou R2),
sexo, grupo e ocorrência ou não de tumor cancerı́geno.
Estrato Grupo Com tumor Sem tumor Total
Tratado 4 12 16
R1-Macho Controle 5 74 79
Total 9 86 95

Tratado 2 14 16
R2-Macho Controle 3 84 87
Total 5 98 103

Tratado 4 14 18
R1-Fêmea Controle 10 80 90
Total 14 94 108

Tratado 1 14 15
R2-Fêmea Controle 3 79 82
Total 4 93 97

Tabela 3.2
Estimativas das razões de chances de tumor
cancerı́geno nos estratos de camundongos.
Estrato Estimativa ψ̃ Intervalo assintótico
R1-Macho 4,93 [1,163 ; 21,094]
R2-Macho 4,00 [0,612 ; 26,102]
R1-Fêmea 2,29 [0,629 ; 8,306]
R2-Fêmea 1,88 [0,183 ; 19,395]

Para simplificar os cálculos, considere o estimador de Wolf a fim de obter

a estimativa de ψ comum. Tem-se as seguintes estimativas:

209
log(ψ̃i ) ω̃i
1,600 0,5465
1,386 0,9160
0,827 0,4335
0,632 1,4167
P4 −1
P4
Segue portanto que i=1 ω̃i log(ψ̃i ) = 6, 7947 e i=1 ω̃i−1 = 5, 9342. Assim,
obtém-se as estimativas
4
6, 7947 X
ψ̂W = exp = 3, 142 e V̂arA {log(ψ̂W )} = 1/ ω̃i−1 = 1/5, 9342.
5, 9342 i=1

2
Consequentemente, tem-se que log(ψ̂W ) = log(3, 142) = 1, 145 e XHL =
(1, 6 − 1, 145)2 /0, 5465 + (1, 386 − 1, 145)2 /0, 916 + (0, 827 − 1, 145)2 /0, 4335 +
(0, 632−1, 145)2 /1, 4167 = 0, 861, cujo nivel descritivo para uma distribuição
qui-quadrado com 3 graus de liberdade é dado por P = 0, 84, não rejeitando-
se portanto a hipótese de ψ comum.
A estimativa intervalar de 95% para ψ comum fica dada por
p
[ψ̂I , ψ̂S ] = exp[log(3, 142) ± 1, 96 1/5, 9342]
= exp[1, 145 ± 0, 8046]
= [1, 4055; 7, 0259].

Será aplicado a seguir o teste de Mantel-Haenszel para testar H0 : ψ = 1

contra H1 : ψ 6= 1. Ou seja, verificar se há asusência de associação em cada
tabela 2×2. A estatı́stica do teste com correção de continuidade fica expressa
na seguinte forma:
P4 P4
2 {| i=1 y1i − EA (1)| − 0, 5}2
XM H = P4 i=1 i
i=1 VAi (1)
(|11 − 5, 2444| − 0, 5)2
= = 6, 9083.
3, 9983

210
Comparando com os quantis da distribuição qui-quadrado com 1 grau de
liberdade obtém-se o nı́vel descritivo P = 0, 0086, rejeitando-se a hipótese
nula. Esse resultado vai ao encontro da estimativa intervalar de ψ comum
usando o estimador de Wolf.

3.5.2 Efeito de extrato vegetal

Considere agora parte dos dados de um experimento (ver Paula et al.,1988)
conduzido para avaliar o efeito de diversos extratos vegetais na mortalidade
de embriões de Biomphalaria Glabrata (hospedeiro da equistossomose). Para
o extrato vegetal aquoso frio de folhas de P. Hyrsiflora foi considerado um
total de k = 7 grupos sendo que os ni embriões do i-ésimo grupo foram
submetidos a uma dose xi (ppm) do extrato vegetal, observando-se após o
20o dia o número de embriões mortos. Os dados são resumidos na Tabela
3.3. Para aplicar o teste de tendência dado em (3.13), deve-se considerar que
n = 50 + · · · + 50 = 350, n1 = y1 + · · · + y7 = 178, n2 = n − n1 = 172 e
mi = 50, ∀i. Assim, obtem-se Ei (1) = 25, 43 para i = 1, . . . , 7. A estatı́stica
2
do teste forneceu o valor XHOM = 131, 82, que é altamente significativo
quando comparado aos quantis da distribuição qui-quadrado com 6 graus
de liberdade, indicando uma forte tendência crescente para a proporção de
mortes com o aumento da dose.

Tabela 3.3
Distribuição dos embriões segundo
os nı́veis de exposição do estrato
vegetal aquoso.
xi 0 15 20 25 30 35 40
mi 50 50 50 50 50 50 50
yi 4 5 14 29 38 41 47

211
3.6 Regressão logı́stica linear
3.6.1 Introdução
A regressão logı́stica tem se constituı́do num dos principais métodos de mo-
delagem estatı́stica de dados. Mesmo quando a resposta de interesse não
é originalmente do tipo binário, alguns pesquisadores têm dicotomizado a
resposta de modo que a probabilidade de sucesso possa ser ajustada através
da regressão logı́stica. Isso ocorre, por exemplo, em análise de sobrevivência
discreta em que a resposta de interesse é o tempo de sobrevivência, no en-
tanto, em algumas pesquisas, a função de risco tem sido ajustada por modelos
logı́sticos. Tudo isso se deve, principalmente, pela facilidade de interpretação
dos parâmetros de um modelo logı́stico e também pela possibilidade do uso
desse tipo de metodologia em análise discriminante com a construção, por
exemplo, de curvas ROC.
Embora a regressão logı́stica seja conhecida desde os anos 1950, foi através
de Cox (1970) (ver também Cox e Snell, 1989) que a regressão logı́stica ficou
popular entre os usuários de Estatı́stica. Nesta seção serão apresentados
alguns resultados relacionados com o modelo logı́stico linear que completam
os procedimentos apresentados no Capı́tulo 1, em que esse modelo foi descrito
como um caso particular de modelos lineares generalizados.

3.6.2 Regressão logı́stica simples

Conside inicialmente o modelo logı́stico linear simples em que π(x), a pro-
babilidade de sucesso dado o valor x de uma variável explicativa qualquer, é
definida tal que
π(x)
log = α + βx, (3.14)
1 − π(x)

212
em que α e β são parâmetros desconhecidos. Esse modelo poderia, por exem-
plo, ser aplicado para analisar a associação entre uma determinada doença e
a ocorrência ou não de um fator particular. Seriam então amostrados, inde-
pendentemente, n1 indivı́duos com presença do fator (x=1) e n2 indivı́duos
com ausência do fator (x=0) e π(x) seria a probabilidade de desenvolvimento
da doença após um certo perı́odo fixo. Dessa forma, a chance de desenvolvi-
mento da doença para um indivı́duo com presença do fator fica dada por
π(1)
= eα+β ,
1 − π(1)
enquanto que a chance de desenvolvimento da doença para um indivı́duo com
ausência do fator é simplesmente
π(0)
= eα .
1 − π(0)
Logo, a razão de chances fica dada por
π(1){1 − π(0)}
ψ= = eβ ,
π(0){1 − π(1)}
dependendo apenas do parâmetro β. Mesmo que a amostragem seja re-
trospectiva, isto é, são amostrados n1 indivı́duos doentes e n2 indivı́duos
não doentes, o resultado acima continua valendo. Essa é uma das grandes
vantagens da regressão logı́stica, a possibilidade de interpretação direta dos
coeficientes como medidas de associação. Esse tipo de interpretação pode ser
estendido para qualquer problema prático.
Supor agora que tem-se dois estratos representados por x1 (x1 = 0 estrato
1, x1 = 1 estrato 2) e que são amostrados do estrato 1 n11 indivı́duos com pre-
sença do fator e n21 indivı́duos com ausência do fator e n12 e n22 , respectiva-
mente, do estrato 2. A probabilidade de desenvolvimento da doença será de-
notada por π(x1 , x2 ), com x2 (x2 =1 presença do fator, x2 = 0 ausência do fa-
tor). Tem-se aqui quatro parâmetros a serem estimados, π(0, 0), π(0, 1), π(1, 0)

213
e π(1, 1). Logo, qualquer reparametrização deverá ter no máximo quatro
parâmetros (modelo saturado).
Considere então a seguinte reparametrização:

π(x1 , x2 )
log = α + γx1 + βx2 + δx1 x2 ,
1 − π(x1 , x2 )
em que γ representa o efeito do estrato, β o efeito do fator e δ a interação
entre estrato e fator. Para entender melhor essa reparametrização, serão
calculadas as razões de chances em cada estrato
π(0, 1){1 − π(0, 0)}
ψ1 = = eβ
π(0, 0){1 − π(0, 1)}
e
π(1, 1){1 − π(1, 0)}
ψ2 = = eβ+δ .
π(1, 0){1 − π(1, 1)}
Assim, a hipótese de homogeneidade das razões de chances (H0 : ψ1 = ψ2 ) é
equivalente à hipótese de não interação (H0 : δ = 0). Portanto, a ausência
de interação entre fator e estrato significa que a associação entre o fator e a
doença não muda de um estrato para o outro. Contudo, pode haver efeito
de estrato. Como ilustração nesse caso, supor que não rejeita-se a hipótese
H0 : δ = 0. Assim, o logaritmo da chance de desenvolvimento da doença fica
dado por
π(x1 , x2 )
log = α + γx1 + βx2 ,
1 − π(x1 , x2 )
ou seja, é o mesmo nos dois estratos a menos da quantidade γ. Isso quer dizer
que mesmo não havendo interação entre os dois estratos (razão de chances
constante), as probabilidades de desenvolvimento da doença podem estar em
patamares diferentes. Num estrato essas probabilidades são maiores do que
no outro estrato. Essas interpretações podem ser generalizadas para três ou
mais tabelas.

214
Aplicação
Como ilustração, considere novamente o exemplo descrito na Seção 3.5.1,
supondo que agora temos apenas os estratos macho e fêmea. Os dados são
resumidos na Tabela 3.4 e no arquivo camundongos.txt.

Tabela 3.4
Classificação de camundongos segundo sexo, grupo e
ocorrência de tumor.
Macho Fêmea
Tumor Tratado Controle Tratado Controle
Sim 6 8 5 13
Não 26 158 28 159
Total 32 166 33 172

Denote por π(x1 , x2 ) a probabilidade de desenvolvimento de tumor dados

x1 (x1 =1 macho, x1 =0 fêmea) e x2 (x2 =1 tratado, x2 =0 controle). Para
testar a hipótese de ausência de interação (H0 : δ = 0) compara-se o desvio do
modelo sem interação D(y; µ̂0 ) = 0, 832 com os quantis da distribuição qui-
quadrado com 1 grau de liberdade (tem-se que o desvio do modelo saturado
é zero). O nı́vel descritivo obtido é dado por P= 0, 362, indicando pela não
rejeição da hipótese de homogeneidade das razões de chances. Assim, ajusta-
se o modelo sem interação. As estimativas resultantes são apresentadas na
Tabela 3.5.

Tabela 3.5
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
ocorrência de tumor em camundongos.
Efeito Estimativa E/E.Padrão
Constante -2,602 -9,32
Estrato -0,241 -0,64
Tratamento 1,125 2,81

215
Os nı́veis descritivos dos testes para H0 : β = 0 e H0 : γ = 0 são, res-
pectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presença de associação entre a exposição ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor não são di-
ferentes entre os dois estratos.
Tem-se que ψ̂ = eβ̂ , logo um intervalo assintótico de confiança para ψ
com coeficiente (1 − α), terá os limites
q
(ψ̂I , ψ̂S ) = exp{β̂ ± z(1−α/2) V̂ar(β̂)}.

Para o exemplo acima e assumindo um intervalo de 95%, esses limites ficam

dados por [1, 403; 6, 759].
O valor observado da variável explicativa no modelo logı́stico dado em
(3.14) pode representar o valor de alguma variável quantitativa qualquer
como, por exemplo, a dose ou a log-dose de uma determinada droga. Nesse
caso, faz sentido calcular a chance de um indivı́duo que recebeu a dose x∗ ,
ser curado, em relação a um outro indivı́duo que recebeu a dose x. A razão
de chances de cura, entre os dois nı́veis, fica dada por
π(x∗ ){1 − π(x)}
ψ(x∗ −x) = = exp{β(x∗ − x)}.
π(x){1 − π(x∗ )}
Portanto, log{ψ(x∗ −x) } é proporcional à diferença entre as duas doses. Se
β > 0, tem-se que a chance de cura aumenta com o aumento da dose e
se β < 0 ocorre o contrário. Essa interpretação pode ser estendida para
qualquer variável explicativa quantitativa.

3.6.3 Regressão logı́stica múltipla

Considere agora o modelo geral de regressão logı́stica

π(x)
log = β1 + β2 x2 + · · · + βp xp ,
1 − π(x)

216
em que x = (1, x2 , . . . , xp )> contém os valores observados de variáveis ex-
plicativas. Como visto na Seção 1.6.1, o processo iterativo para obtenção
de β̂ pode ser expresso como um processo iterativo de mı́nimos quadrados
reponderados
β (m+1) = (X> V(m) X)−1 X> V(m) z(m) ,
em que V = diag{π1 (1 − π1 ), . . . , πn (1 − πn )}, z = (z1 , . . . , zn )> é a variável
dependente modificada, zi = ηi + (yi − πi )/πi (1 − πi ), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), n é substituı́do por k, V =
diag{n1 π1 (1 − π1 ), . . . , nk πk (1 − πk )} e zi = ηi + (yi − ni πi )/{ni πi (1 − πi )}.
ni
Assintoticamente, n → ∞ no primeiro caso e para n
→ ai > 0 no segundo
caso, β̂ − β ∼ Np (0, (X> VX)−1 ).
Uma interpretação interessante pode ser dada para as razões de chances
quando tem-se (q−1)(q ≤ p) das (p−1) variáveis explicativas do tipo binário.
Como ilustração, supor q = 4 e que x2 (x2 = 1 presença, x2 = 0 ausência) e
x3 (x3 = 1 presença, x3 = 0 ausência) representam dois fatores. Supor ainda
que x4 = x2 x3 representa a interação entre os dois fatores. O modelo fica
então dado por
p
π(x) X
log = β1 + β2 x2 + β3 x3 + β4 x4 + xj β j .
1 − π(x) j=5

Denote por ψij a razão de chances entre um indivı́duo na condição (x2 =

i, x3 = j) em relação a um indivı́duo na condição (x2 = 0, x3 = 0), para i, j =
0, 1, supondo que os dois indivı́duos têm os mesmos valores observados para
as demais (p − 4) variáveis explicativas. Assim, pode-se mostrar facilmente
que

ψ10 = exp(β2 ), ψ01 = exp(β3 ) e ψ11 = exp(β2 + β3 + β4 ).

Portanto, testar a hipótese H0 : β4 = 0 (ausência de interação) é equivalente

a testar a hipótese de efeito multiplicativo H0 : ψ11 = ψ10 ψ01 . Em particular,

217
se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato 2), a razão
de chances no primeiro estrato entre presença e ausência do fator fica dada
por ψ10 = exp(β2 ), enquanto que no segundo estrato essa razão de chances
vale ψ11 /ψ01 = exp(β2 + β4 ). Logo, testar H0 : β4 = 0 equivale também a
testar a hipótese de homogeneidade das razões de chances nos dois estratos.

3.6.4 Bandas de confiança

Como foi visto na Seção 1.8.2 uma banda assintótica de confiança de coefi-
ciente 1 − α pode ser construı́da para π(z), ∀z ∈ IRp (ver também Piegorsch
e Casella, 1988). Assintoticamente β̂ − β ∼ Np (0, (X> VX)−1 ). Logo, uma
banda assintótica de confiança de coeficiente 1 − α para o preditor linear
z> β, ∀z ∈ IRp , fica dada por
√ 1
z> β̂ ± cα {z> (X> VX)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. Aplicando a transformação logito

pode-se, equivalentemente, encontrar uma banda de confiança de coeficiente
1 − α para π(z), dada por
√ 1
exp[z> β̂ ± cα {z> (X> VX)−1 z} 2 ]
√ 1 , ∀z ∈ IRp .
> > > −1
1 + exp[z β̂ ± cα {z (X VX) z} ] 2

É importante observar que z é um vetor p × 1 que varia livremente no IRp ,

enquanto X é uma matriz fixa com os valores das variáveis explicativas.

3.6.5 Seleção de modelos

Uma vez definido o conjunto de covariáveis (ou fatores) a ser incluı́do num
modelo logı́stico, resta saber qual a melhor maneira de encontrar um modelo
reduzido que inclua apenas as covariáveis e interações mais importantes para

218
explicar a probabilidade de sucesso π(x). Esse problema poderia ser resol-
vido pelos métodos usuais de seleção de modelos discutidos na Seção 1.11.
Contudo, a questão de interpretação dos parâmetros é crucial num modelo
logı́stico, implicando que uma forma puramente mecânica de seleção pode
levar a um modelo sem sentido e de difı́cil interpretação. Particularmente, a
inclusão de certas interações impõe a permanência no modelo de seus respec-
tivos efeitos principais de ordem inferior, na ótica do princı́pio hierárquico.
Muitas vezes, variáveis consideradas biologicamente importantes não devem
ser deixadas de lado pela sua falta de significância estatı́stica. Assim, a
seleção de um modelo logı́stico deve ser um processo conjugado de seleção
estatı́stica de modelos e bom senso.

Método stepwise
Um dos métodos mais aplicados em regressão logı́stica é o método stepwise.
O método, como foi visto na Seção 1.11, baseia-se num algoritmo misto de
inclusão e eliminação de variáveis explicativas segundo a importância das
mesmas de acordo com algum critério estatı́stico. Esse grau de importância
pode ser avaliado, por exemplo, pelo nı́vel de significância do teste da razão
de verossimilhanças entre os modelos que incluem ou excluem as variáveis em
questão. Quanto menor for esse nı́vel de significância tanto mais importante
será considerada a variável explicativa. Como a variável mais importante
por esse critério não é necessariamente significativa do ponto de vista es-
tatı́stico, deve-se impor um limite superior PE (os valores usuais estão no
intervalo [0, 15; 0, 25]) para esses nı́veis descritivos, a fim de atrair candidatos
importantes em princı́pio à entrada.
Dado que a inclusão de novas variáveis explicativas num modelo pode
tornar dispensáveis outras variáveis já incluı́das, será feita a verificação da

219
importância dessas variáveis confrontando os seus respectivos nı́veis com um
limite superior PS . As variáveis explicativas com um nı́vel descritivo maior
do que PS serão assim candidatas à remoção.
Descreve-se a seguir uma variante desse algoritmo aplicado em regressão
logı́stica (vide, por exemplo, Hosmer e Lemeshow, 1989). A etapa inicial
consiste no ajuste do modelo apenas com o intercepto sendo completada
pelos passos seguintes:

1. construir testes da razão de verossimilhanças entre o modelo inicial

e os modelos logı́sticos simples formados com cada uma das variáveis
explicativas do estudo. O menor dos nı́veis descritivos associados a
cada teste será comparado com PE . Se PE for maior, a variável refe-
rente àquele nı́vel é incluı́da no modelo indo ao passo seguinte. Caso
contrário, a seleção é concluı́da e adota-se o último modelo;

2. partindo do modelo incluindo a variável explicativa selecionada no

passo anterior, as demais variáveis são introduzidas individualmente.
Cada um desses novos modelos é testado contra o modelo inicial desse
passo. Novamente, o menor valor dos nı́veis descritivos é comparado
com PE . Se for menor do que PE , implica na inclusão no modelo da
variável correspondente e a passagem ao passo seguinte. Caso contrário,
a seleção é finalizada;

3. compara-se o desvio do modelo logı́stico contendo as variáveis seleci-

onadas nos passos anteriores com os desvios dos modelos que dele re-
sultam por exclusão individual de cada uma das variáveis. Se o maior
nı́vel descritivo dos testes da razão de verossimilhanças for menor do
que PS , a variável explicativa associada a esse nı́vel descritivo perma-
nece no modelo. Caso contrário, a variável é removida. Em qualquer

220
circunstância, o algoritmo segue para o passo seguinte;

4. o modelo resultante do passo anterior será ajustado, no entanto, an-

tes de tornar-se o modelo inicial da etapa 2 (seleção de interações de
primeira ordem entre as variáveis explicativas incluı́das), avalia-se a sig-
nificância de cada um dos coeficientes das variáveis selecionadas, por
exemplo através de um teste de Wald. Se alguma variável explicativa
não for significativa pode ser excluı́-la do modelo;

5. uma vez selecionadas as variáveis explicativas mais importantes, ou os

efeitos principais, entra-se na etapa 2 com o passo 1 que agora envolve
apenas interações de primeira ordem entre as variáveis selecionadas, e
assim por diante.

É comum que algumas variáveis explicativas ou interações de interesse ou

com algum significado no estudo sejam mantidas no modelo desde o inı́cio,
mesmo que não sejam significativas. É também comum que a seleção de
interações seja feita dentre aquelas de interesse ou com algum significado no
problema.
Um aprimoramento desse procedimento tipo stepwise foi proposto pos-
teriormente por Hosmer et al. (2013). Nesse novo algoritmo os autores
sugerem que as variáveis explicativas eliminadas no passo 1 que causarem
uma variação dsproporcional no(s) coeficiente(s) de alguma variável explica-
tiva que permaneceu no modelo, devem ser trazidas de volta para o modelo.
Os demais passos são similares, contudo o resultado final pode ser diferente,
e segundo os autores em geral têm levado a resultados mais coerentes.
Uma desvantagem do procedimento descrito pelos passos 1-5 é de exigir
as estimativas de máxima verossimilhança em cada passo, o que encarece o
trabalho computacional, particularmente quando há muitas variáveis expli-

221
cativas (ou fatores). Alguns autores têm sugerido aproximações para esse
processo de seleção. O aplicativo cientı́fico BMDP (Dixon, 1987) usa apro-
ximações lineares nos testes da razão de verossimilhanças. Peduzzi et al.
(1980) apresentam uma variante desse método baseada no uso da estatı́stica
de Wald.

Método de Akaike
Um procedimento mais simples para selecionar variáveis explicativas num
modelo logı́stico é através do método de Akaike descrito na Seção 1.11. Uma
sugestão é primeiro fazer uma seleção dos efeitos principais e depois num
segundo passo, das interações de 1a ordem. Para ilustrar uma aplicação do
método, supor que as respostas binárias estejam armazenadas em resp e as
variáveis explicativas sejam denotadas por var1, var2 e var3. O ajuste do
modelo logı́stico apenas com os efeitos principais pode ser realizado através
dos comandos
ajuste < − glm(resp ∼ var1 + var2 + var3, family=binomial).
A seleção dos efeitos principais pode ser realizada pelos comandos
require(MASS)
stepAIC(ajuste).
Eventualmente algumas variáveis explicativas selecionadas podem não ser
significativas marginalmente e a retirada das mesmas do modelo poderá ser
confirmada através de algum teste estatı́stico apropriado, como por exemplo
o teste da razão de verossimilhanças. A inclusão de interações de 1a ordem
pode ser feita individualmente dentre aquelas interações de interesse ou de
fácil interpretação.

222
3.6.6 Amostragem retrospectiva
Em muitas situações práticas, especialmente no estudo de doenças raras,
pode ser mais conveniente a aplicação de uma amostragem retrospectiva em
que um conjunto de n1 casos (indivı́duos com y = 1) e n2 controles (indivı́duos
com y = 0) é selecionado aleatoriamente e classificado segundo os valores de
x = (x1 , . . . , xp )> . Esse tipo de planejamento é muitas vezes motivado por
questões econômicas ligadas ao custo e a duração do experimento. A amos-
tragem retrospectiva assim constituı́da levaria diretamente a um modelo para
P r(X = x|y), ao contrário dos dados prospectivos que estão associados ao
modelo π(x) = P r(Y = y|x). Como o desenvolvimento de um modelo para
P r(X = x|y) pode ficar muito complexo à medida que o valor x envolve um
número maior de variáveis explicativas, particularmente contı́nuas, a pro-
posta de uma abordagem alternativa através da especificação de um modelo
para P r(Y = y|x), de modo a induzir um modelo para P r(X = x|y), tem
sido utilizada.
Supor então um modelo logı́stico linear para explicar π(x) = P r(Y =
1|x). Será mostrado a seguir que a probabilidade π(x), a menos de uma
constante adicionada ao intercepto do modelo, coincide com a probabilidade
π ∗ (x) = P r(Y = 1|x, Z = 1) se a seleção amostral não depende de x, em
que Z é uma variável indicadora da classificação amostral (ver, por exemplo,
Armitage, 1971). Denota-se γ1 = P r(Z = 1|Y = 1) e γ2 = P r(Z = 1|Y = 0),
em que γ1 é a probabilidade de um caso ser selecionado e γ2 é a probabilidade
de um controle ser selecionado da população global. A suposição é que γ1 e
γ2 não dependem de x. Portanto

π ∗ (x) = P r(Y = 1|x, Z = 1)

P r(Z = 1|Y = 1)P r(Y = 1|x)
= P ,
y=0,1 P r(Z = 1|Y = y)P r(Y = y|x)

223
que pode ser expressa em função de π(x), ou seja

γ1 π(x)
π ∗ (x) =
γ2 {1 − π(x)} + γ1 π(x)
h i
γ1 π(x)
γ2 1−π(x)
= h i.
γ1 π(x)
1+ γ2 1−π(x)

Assim, obtém-se
elog{γ1 /γ2 }+η
π ∗ (x) = ,
1 + elog{γ1 /γ2 }+η
Pp
em que η = j=1 xj βj .
Portanto, fazendo uma amostragem retrospectiva e ajustando um modelo
logı́stico como se fosse uma amostragem prospectiva, os coeficientes devem
coincidir desde que a seleção tenha sido feita independente de x. Se, no
entanto, há interesse em estimar π(x), isto é, fazer predições dado x, deve-se
corrigir a constante do modelo ajustado, obtendo um novo intercepto

β̂1 = β̂1∗ − log(γ1 /γ2 ),

em que β̂1∗ é o intercepto do modelo ajustado.

3.6.7 Qualidade do ajuste

Como visto na Seção 1.4, quando o número de grupos k é fixo num expe-
ni
rimento binomial e n
→ ai > 0 quando n → ∞, o desvio D(y; µ̂) segue
sob a hipótese do modelo adotado ser verdadeiro distribuição qui-quadrado
com (k − p) graus de liberdade. Esse resultado não vale quando n → ∞
e ni πi (1 − πi ) fica limitado. Nesse caso, Hosmer e Lemeshow (1989) suge-
rem uma estatı́stica alternativa para avaliação da qualidade do ajuste. Essa
estatı́stica é definida comparando o número observado com o número espe-
rado de sucessos de g grupos formados. O primeiro grupo deverá conter

224
n01 elementos correspondentes às n01 menores probabilidades ajustadas, as
quais serão denotadas por π̂(1) ≤ π̂(2) ≤ · · · ≤ π̂(n01 ) . O segundo grupo
deverá conter os n02 elementos correspondentes às seguintes probabilidades
ajustadas π̂(n01 +1) ≤ π̂(n01 +2) ≤ · · · ≤ π̂(n01 +n02 ) . E assim, sucessivamente, até
o último grupo que deverá conter as n0g maiores probabilidades ajustadas
π̂(n01 +···+n0g−1 +1) ≤ π̂(n01 +···+n0g−1 +2) ≤ · · · ≤ π̂(n) . O número observado de su-
Pn01
cessos no primeiro grupo formado será dado por O1 = j=1 y(j) , em que

y(j) = 0 se o elemento correspondente é fracasso e y(j) = 1 se é sucesso. Ge-

Pn01 +···+n0i
neralizando, obtém-se Oi = j=n 0 +···+n0
1 +1 y(j) , 2 ≤ i ≤ g. A estatı́stica é
i−1

definida por
g
X (Oi − n0 π̄i )2 i
Ĉ = ,
i=1
n0i π̄i (1 − π̄i )
em que
n1 0 n0i +···+n0i
1 X 1 X
π̄1 = 0 π̂(j) e π̄i = 0 π̂(j) ,
n1 j=1 ni
j=n01 +···+n0i−1 +1

para 2 ≤ i ≤ g. Hosmer e Lemeshow sugerem a formação de g = 10 grupos de

mesmo tamanho (aproximadamente), de modo que o primeiro grupo conte-
nha n0i elementos correspondentes às [n/10] menores probabilidades ajustadas
e assim por diante até o último grupo com n010 elementos correspondentes às
[n/10] maiores probabilidades ajustados. Quando não há empates, isto é,
ni = 1, ∀i, fica relativamente fácil formar os 10 grupos com tamanhos apro-
ximadamente iguais. No entanto, quando há empates, pode ser necessário
que dois indivı́duos com a mesma configuração de covariáveis sejam alocados
em grupos adjacentes a fim de que os grupos formados não tenham tama-
nhos muito desiguais. Hosmer e Lemeshow verificaram através de simulações
que a distribuição nula assintótica de Ĉ pode ser bem aproximada por uma
distribuição qui-quadrado com (g − 2) graus de liberdade.

225
3.6.8 Técnicas de diagnóstico
Estudos de simulação (ver, por exemplo, Williams, 1984) têm sugerido o
resı́duo tDi para as análises de diagnóstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
àquelas do resı́duo t∗i da regressão normal linear. Em particular, para os
modelos binomiais, esse resı́duo é expresso, para 0 < yi < ni , na forma
s 21
2 yi ni − yi
tDi = ± yi log + (ni − yi ) log ,
1 − ĥii ni π̂i ni − ni π̂i

em que o sinal é o mesmo de yi − ŷi . Quando yi = 0 ou yi = ni , o componente

do desvio padronizado toma as formas
1 1
{2ni | log(1 − π̂i )|} 2 {2ni | log π̂i |} 2
tDi =− p e tDi = p ,
1 − ĥii 1 − ĥii
respectivamente. O resı́duo Studentizado tSi , também utilizado para avaliar
a presença de observações aberrantes mesmo tendo em geral distribuição
assimétrica acentuada, toma a forma
1 (yi − ni π̂i )
tSi = p 1 .
1 − ĥii {ni π̂i (1 − π̂i )} 2
Uma outra opção, conforme descrito na Seção 1.10, é o resı́duo quantı́lico
(Dunn e Smyth, 1996) definido para variáveis discretas por

rqi = Φ−1 (ui ),

em que Φ(·) denota a função de distribuição acumulada da N (0, 1) e ui é um

valor gerado no intervalo (0, 1) com base em F (yi ; β̂) (função de distribuição
acumulada da distribuição discreta ajustada). Mostra-se para n grande que
os resı́duos rq1 , . . . , rqn são independentes e igualmente distribuı́dos N (0, 1).
Assim, o gráfico entre os quantis amostrais rq(1) ≤ · · · ≤ rq(n) contra os

226
quantis teóricos da normal padrão é recomendado para avaliar afastamentos
da distribuição postulada para a resposta.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo.
Contudo, no caso de variáveis discretas, o resı́duo quantı́lico é aleatorizado
e uma sugestão é gerar no GAMLSS m gráficos do worm plot (gráfico entre
rq(i) −E(Z(i) ) contra E(Z(i) )) para avaliar com mais segurança a adequação do
ajuste. Esse gráfico pode ser interpretado como um refinamento do gráfico
normal de probabilidades podendo ser acionado para m = 8 gráficos através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).
Por outro lado, para medir a influência das observações nas estimativas
dos coeficientes, utiliza-se a distância de Cook aproximada dada por

ĥii (yi − ni π̂i )2

LDi = .
(1 − ĥii )2 ni π̂i (1 − π̂i )

Hosmer e Lemeshow (1989) observam que ĥii depende das probabilidades

ajustadas π̂i , i = 1, . . . , k, e consequentemente os resı́duos tSi e tDi e a medida
de influência LDi também dependem. Tem-se que

hii = ni πi (1 − πi )x> > −1

i (X VX) xi ,

com V = diag{n1 π1 (1−π1 ), . . . , nk πk (1−πk )}. Hosmer e Lemeshow mostram

através de um estudo numérico que o comportamento de ĥii numa regressão
logı́stica pode ser muito diferente do comportamento de ĥii na regressão linear
para uma mesma matrix modelo X.

227
Tabela 3.6
Possı́veis valores para algumas medidas de diagnóstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida 0,0-0,1 0,1-0,3 0,3-0,7 0,7-0,9 0,9-1,0
t2Si grande ou moderado moderado ou moderado grande ou
pequeno pequeno pequeno
LDi pequeno grande moderado grande pequeno
ĥii pequeno grande moderado ou grande pequeno
pequeno
A Tabela 3.6 descreve os possı́veis valores de algumas medidas de di-
agnóstico em função das probabilidades ajustadas. A medida ĥii pode ser
interpretada de maneira similar à medida hii da regressão normal linear para
0, 1 ≤ π̂i ≤ 0, 9. No entanto, quando π̂i é pequena ou alta, ĥii fica em geral
pequeno o que pode dificultar a detecção de pontos que estejam mais afasta-
dos no subespaço gerado pelas colunas da matrix X. A sugestão, portanto,
são os gráficos de t2Si , t2Di e LDi contra as probabilidades ajustadas π̂i . Es-
ses gráficos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e influentes com relação às probabilidades ajustadas. Os gráficos
dessas quantidades contra ĥii podem ser complementares, pelo menos para
verificar se as tendências apresentadas na Tabela 3.11 são confirmadas para
o modelo ajustado.
Outros gráficos recomendados em regressão logı́stica são os gráficos da
variável adicionada e de |`max | contra π̂i .

3.6.9 Aplicacões
Processo infeccioso pulmonar
Considere novamente o exemplo discutido na Seção 1.12.2 em que 175 pa-
cientes com processo infeccioso pulmonar foram classificados de acordo com

228
as variáveis tipo de tumor, sexo, idade, nı́vel de HL e nı́vel de FF. Para
simplicidade das análises, os nı́veis de HL e FF serão reagrupados de modo
que os nı́veis de intensidade “ausente”e “discreto”sejam agora considerados
como intensidade “baixa”e os nı́veis “moderado”e “intenso”sejam agora de
intensidade “alta”conforme descrito na Tabela 3.7.

Tabela 3.7
Descrição das novas variáveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Variável Descrição Valores
Y Processo Infecioso 1:maligno
0:benigno
IDADE Idade em anos
SEXO Sexo 0:masculino
1:feminino
HL Intensidade de 1:alta
Histiócitos-linfócitos 0:baixa
FF Intensidade de 1:alta
Fibrose-frouxa 0:baixa

Nesse estudo os pacientes foram amostrados retrospectivamente, sendo

que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perı́odo da pesquisa. Portanto, seguindo a notação da
Seção 3.6.6 , tem-se que γ1 = 1 e γ2 = 104/270 1 .
O método de seleção stepwise proposto por Hosmer e Lemeshow (1989)
será aplicado a seguir. Na etapa 1 considerou-se apenas os efeitos principais.
Foram considerados PE = 0, 20 (nı́vel para inclusão de covariáveis) e PS =
0, 25 (nı́vel para eliminação de covariáveis).
1
Está sendo suposto que a razão γ1 /γ2 = 270/104 vale também se as amostras tivessem
sido extraı́das diretamente da população

229
No passo 1 foi incluı́da a variável explicativa IDADE, uma vez que o nı́vel
descritivo dessa variável foi o menor dentre os nı́veis descritivos das demais
variáveis explicativas e também foi menor do que PE . No passo seguinte
foi inbcluı́da a variável explicativa HL, e agora com duas variáveis incluı́das
no modelo verifica-se a possibilidade de eliminar uma das duas variáveis. O
maior nı́vel descritivo é da IDADE que encontra-se na Tabela 3.8 na linha
de referência do passo 2. O nı́vel descritivo dessa variável não é superior
a PS , logo IDADE é mantida no modelo. Seguindo essa lógica, tem-se os
menores nı́veis descritivos em cada passo como sendo o elemento da diagonal
principal de cada passo. No passo 3, por exemplo, entra a variável explicativa
SEXO que tem o menor nı́vel descritivo que por sua vez é menor do que PE .
Dado que SEXO entra no modelo, verifica-se a possibilidade de uma das
duas variáveis incluı́das no modelo ser retirada do modelo. Assim, no mesmo
passo 3, nota-se que o maior nı́vel descritivo (em asterisco) corresponde à
variável explicativa HL que não deve sair do modelo, uma vez que o nı́vel
descritivo não é maior do que PS . Seguindo essa mesma lógica todos os
efeitos principais são incluı́dos no modelo. Em resumo, o modelo resultante
na etapa 1 é o modelo com todos os efeitos principais.
De forma análoga procede-se a etapa 2, cujos nı́veis descritivos para to-
mada de decisão em cada passo encontram-se na Tabela 3.9. Por exemplo, no
passo 1, entra a interação entre IDADE e HL que tem o menor nı́vel descritivo
que por sua vez é menor do que PE . Não é verificado nessa etapa se algum
efeito principal deve sair do modelo mesmo que fique não significativo com
a inclusão das interações. Isso pode ser reavaliado após a seleção do modelo
final. No passo 4, por exemplo, nota-se que a interação entre IDADE e FF
não entra no modelo pois o nı́vel descritivo correspondente é maior do que
PE . Assim, como essa interação não entra no modelo, não é preciso verificar

230
a retirada das demais interações já incluı́das no modelo. Logo, tem-se apenas
três interações de primeira ordem incluı́das no modelo. Essas interações são
IDADE ∗ HL, HL ∗ FF e SEXO ∗ FF.
Na etapa 3 nenhuma interação de segunda ordem foi selecionada, uma
vez que o menor nı́vel descritivo dos testes de inclusão foi menor do que PE .
Assim, o modelo resultante contém os efeitos principais e três interações de
primeira ordem.

Tabela 3.8
Nı́veis descritivos referentes à etapa 1
do processo de seleção stepwise.
Passo IDADE HL SEXO FF
1 0,000 0,000 0,288 0,001
2 0,000 0,000 0,100 0,003
3 0,000 0,000∗ 0,050 0,125
4 0,000 0,000 0,072∗ 0,183
5 0,000 0,000 0,072 0,183∗

O desvio do modelo foi de D(y; µ̂) = 146, 22 (167 graus de liberdade),

indicando um ajuste adequado. As Figuras 3.1a-3.1d apresentam alguns
gráficos de diagnóstico. Na Figura 3.1a temos o gráfico de ĥii contra os valores
ajustados e nota-se dois pontos com maior destaque, #6 e #69. No gráfico
de resı́duos tDi , Figura 3.1b, a maioria dos pontos cai dentro do intervalo
[-2,2], com apenas duas observações, #21 e #172, fora do intervalo, porém
muito próximas aos limites. Já o gráfico de influência LDi destaca novamente
a observação #69 e a observação #172. O paciente #172 é do sexo feminino,
tem processo maligno, idade 55 anos e nı́veis altos para HL e FF. Pelos
resultados das estimativas seria mais provável esperar de um paciente com
esse perfil um processo benigno. O paciente #69 é também do sexo feminino,
tem 78 anos, nı́veis altos para HL e FF e não tem processo maligno. Aqui

231
seria um pouco menos provável processo benigno para o paciente. Perfil
parecido tem o paciente #6. Já o paciente #21 tem processo benigno, 82
anos, é do sexo feminino e tem nı́vel alto para HL e baixo para FF. Seria
mais provável nesse caso processo maligno para o paciente.

Tabela 3.9
Nı́veis descritivos referentes à etapa 2 do processo de seleção stepwise.
Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX
1 0,013 0,014 0,059 0,056 0,657 0,063
2 0,023 0,027 0,060 0,231 0,218 0,099
3 0,028∗ 0,005 0,012 0,234 0,275 0,176
4 0,208 0,403 0,794

Finalmente, tem-se na Figura 3.1d o gráfico normal de probabilidades

para o resı́duo tDi e não apresentando nenhum indı́cio de que a distribuição
utilizada seja inadequada. Retirando cada uma das observações destaca-
das pelos gráficos de diagnóstico nota-se mudança inferencial quando a ob-
servação #172 é excluı́da, a interação SEXO ∗ FF deixa de ser significativa.
Ou seja, a significância da interação SEXO ∗ FF é induzida pela observação
#172. Logo, essa interação deve ser retirada do modelo.
As estimativas dos parâmetros do modelo final sem a interação SEXO ∗ FF
bem como os valores padronizados pelos respectivos erros padrão aproxima-
dos encontram-se na Tabela 3.10.
Como há interesse em estudar a associação entre o tipo de processo in-
feccioso pulmonar e as covariáveis histológicas HL e FF, algumas razões de
chances são construı́das envolvendo essas covariáveis. Como ilustração, a
razão de chances de processo infeccioso maligno entre um paciente no nı́vel
alto de HL e um paciente no nı́vel baixo de HL, denotada por ψHL e supondo

232
que os pacientes tenham o mesmo sexo, idade e nı́vel de FF, é estimada por

ψ̂HL = exp{−5, 371 + 0, 061IDADE + 2, 255FF}.

Tabela 3.10
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito Parâmetro Estimativa E/E.Padrão
Constante β1∗ -1,247 -1,36
IDADE β2 0,038 2,23
HL β3 -5,371 -3,34
SEXO β4 0,765 1,60
FF β5 -2,090 -2,36
IDADE*HL β6 0,061 2,18
HL*FF β7 2,255 2,11
Logo, pode-se concluir que a chance de processo maligno é maior para
pacientes com nı́vel baixo de HL do que para pacientes com nı́vel alto de
HL, quando ambos estão no nı́vel baixo de FF e também tenham a mesma
idade. Por outro lado, quando ambos estão na categoria alta de FF, ψ̂HL
fica maior do que um após a idade de 52 anos (aproximadamente), indicando
uma chance maior de processo maligno para pacientes no nı́vel alto de HL
após essa idade.
Analogamente, denota-se por ψF F a razão de chances de processo infec-
cioso maligno entre um paciente com nı́vel alto de FF e um paciente com
nı́vel baixo de FF. Supondo que os pacientes são semelhantes nas demais
covariáveis esse parâmetro é estimado por

ψ̂F F = exp{−2, 090 + 2, 255HL}.

Dessa expressão pode-se deduzir que a chance de processo maligno é maior

para pacientes com intensidade baixa de FF do que para pacientes com inten-
sidade alta de FF, isso no grupo de pacientes com intensidade baixa de HL.

233
Ocorre o contrário no grupo de pacientes com intensidade alta de HL. Bandas
de confiança para ψHL e ψF F podem ser construı́das com os procedimentos
apresentados na Seção 3.6.4. Na comparação dos pacientes com relação ao
sexo temos que a razão de chances de processo infeccioso pulmonar entre paci-
entes do sexo feminino e masculino é estimada por ψ̂F M = exp(0, 765) = 2, 15.
Se o interesse em prever P r{Y = 1|x}, probabilidade de um paciente da
população com um determinado conjunto de valores para as covariáveis estar
com processo infeccioso maligno, deve-se antes estimar β1 fazendo a correção

β̂1 = β̂1∗ − log(270/104) = −1, 247 − 0, 954 = −2, 201.

Tabela 3.11
Discriminação do modelo logı́stico ajustado
aos dados sobre processo infeccioso pulmonar.
Classificação Classificação pelo modelo
Correta Benigno Maligno
Benigno 81 23
Maligno 13 58

A regressão logı́stica tem múltiplas utilidades, entre as quais a possibili-

dade de também ser utilizada em análise discriminante quando há apenas dois
grupos para serem discriminados. O objetivo aqui é encontrar um modelo
ajustado que melhor discrimine os dois grupos. Como aproximadamente 21%
dos 341 pacientes foi diagnosticado com processo maligno pode-se verificar
qual a taxa de acertos do modelo ajustado. Um critério seria classificarmos
com processo maligno todo indivı́duo com probabilidade ajustada de pelo
menos 0,21. Caso contrário o indivı́duo seria classificado com processo be-
nigno. A Tabela 3.11 apresenta a discriminaa̧ão feita pelo modelo ajustado
aos dados sobre processo infeccioso pulmonar. Tem-se que a taxa de acertos

234
0.4
69

3
172
6

2
Componente do Desvio
0.3

1
Alavanca

0.2

0
−1
0.1

−2
21

−3
0.0

0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8

Valor Ajustado Valor Ajustado

(a) (b)

3
172
1.5

2
Componente do Desvio
Distancia de Cook

69
1.0

0
−1
0.5

−2
0.0

−3

0.0 0.2 0.4 0.6 0.8 −2 −1 0 1 2

Valor Ajustado Percentil da N(0,1)

Figura 3.1: Gráficos de diagnóstico referentes ao modelo logı́stico ajustado

aos dados sobre processo infeccioso pulmonar.

é de 139/175 = 0,795 (79,5%). Uma outra forma de determinar o ponto de

corte para a classificação dos paciente é através de curvas ROC.

Ocorrência de vaso-constrição
Como outra aplicação, conside os dados de um experimento desenvolvido
para avaliar a influência da quantidade de ar inspirado na ocorrência de
vaso-constrição na pele dos dedos da mão (Finney, 1978; Pregibon, 1981).
Os dados do experimento são descritos na Tabela 3.12 e também no ar-
quivo pregibon.txt. A resposta, nesse exemplo, é a ocorrência (Y = 1) ou

235
ausência (Y = 0) de compressão de vasos e as covariáveis são o logaritmo do
volume e o logaritmo da razão de ar inspirado.

Tabela 3.12
Dados do experimento sobre a influência da razão e do volume de ar
inspirado na ocorrência de vaso-constrição da pele dos dedos da mão.
Obs Volume Razão Resposta Obs. Volume Razão Resposta
1 3,70 0,825 1 20 1,80 1,800 1
2 3,50 1,090 1 21 0,40 2,000 0
3 1,25 2,500 1 22 0,95 1,360 0
4 0,75 1,500 1 23 1,35 1,350 0
5 0,80 3,200 1 24 1,50 1,360 0
6 0,70 3,500 1 25 1,60 1,780 1
7 0,60 0,750 0 26 0,60 1,500 0
8 1,10 1,700 0 27 1,80 1,500 1
9 0,90 0,750 0 28 0,95 1,900 0
10 0,90 0,450 0 29 1,90 0,950 1
11 0,80 0,570 0 30 1,60 0,400 0
12 0,55 2,750 0 31 2,70 0,750 1
13 0,60 3,000 0 32 2,35 0,030 0
14 1,40 2,330 1 33 1,10 1,830 0
15 0,75 3,750 1 34 1,10 2,200 1
16 2,30 1,640 1 35 1,20 2,000 1
17 3,20 1,600 1 36 0,80 3,330 1
18 0,85 1,415 1 37 0,95 1,900 0
19 1,70 1,060 0 38 0,75 1,900 0
39 1,30 1,625 1

Supor para a i-ésima unidade experimental que Yi ∼ Be(πi ), em que

πi
log = β1 + β2 log (volume)i + β3 log (razão)i ,
1 − πi
com πi denotando a probabilidade de ocorrência de vaso-constrição.
As estimativas dos parâmetros são descritas na Tabela 3.13 e pode-se no-
tar que as variáveis explicativas log(volume) e log(raz~
ao) são altamente

236
significativas. O desvio do modelo foi de D(y; µ̂) = 29, 36 (com 36 graus de
liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d descrevem
alguns dos gráficos sugeridos acima bem como o gráfico normal de proba-
bilidades com envelope para o resı́duo tDi . Na Figura 3.2a tem-se o gráfico
de ĥii contra os valores ajustados e pode-se notar que a observação #31 é
destacada mais do que as restantes.

Tabela 3.13
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
vaso-constrição.
Parâmetro Estimativa E/E.Padrão
β1 -2,875 -2,18
β2 5,179 4,85
β3 4,562 2,49

Na Figura 3.2b tem-se o gráfico de LDi contra os valores ajustados e

pode-se notar duas observações mais discrepantes, #4 e #18, cujos valores
ajustados são menores do que 0, 11. Uma tendência similar é exibida na
Figura 3.2c onde tem-se o gráfico de t2Si contra os valores ajustados. A
eliminação da observação #4 levou às novas estimativas β̂1 = −5, 204(2, 17),
β̂2 = 7, 452(2, 93) e β̂3 = 8, 465(3, 246) com variação, respectivamente, de -
81%, 64% e 63%. O desvio do modelo reduziu para D(y; µ̂) = 22, 42 (35 g.l.),
variação de 24%. Resultado parecido ocorreu com a eliminação da observação
#18. Nesse caso obtém-se β̂1 = −4, 757(2, 008), β̂2 = 6, 879(2, 718) e β̂3 =
7, 669(2, 937) com variação, respectivamente, de -66%, 48% e 51%. O desvio
caiu para D(y; µ̂) = 23, 58 (35 g.l.), redução de 20%. Mesmo com as variações
desproporcionais não houve mudança inferencial. Esses resultados indicam
que os pontos #4 e #18 são influentes e aberrantes. Note que para os dois
casos houve ocorrência de ar inspirado, porém o valor do volume e da razão
são relativamente baixos contrariando a tendência observada pelo modelo

237
ajustado. O gráfico normal de probabilidades para o resı́duo tDi (Figura 3.2d)
não fornece indı́cios de afastamentos da suposição de distribuição binomial
para a resposta. Pode-se notar que a maioria dos pontos caem dentro do
envelope gerado.
0.25

31 4

1.2
0.20

Distancia de Cook
0.15

0.8
Alavanca

0.10

0.4
0.05
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Valor Ajustado Valor Ajustado

(a) (b)
14

4
12

2
Componente do Desvio
(Resid.Studentizado)^2

18
8

0
6

-1
4

-2
2
0

0.0 0.2 0.4 0.6 0.8 1.0 -2 -1 0 1 2

Valor Ajustado Percentil da N(0,1)

Figura 3.2: Gráficos de diagnóstico referentes ao modelo logı́stico ajustado

aos dados sobre vaso-constrição.

Na Tabela 3.14 são apresentados os grupos formados com as observações

da Tabela 3.12 para o cálculo da estatı́stica Ĉ proposta por Hosmer e Le-
meshow (1989). Foram formados sete grupos com cinco observações cada e

238
um grupo com quatro observações.

Tabela 3.14
Quantidades usadas para o cálculo da estatı́stica Ĉ
referente ao modelo logı́stico ajustado aos dados
sobre vaso-constrição.
Grupo Obervações Oi n0i π̄i
1 7,9,10,11,32 0 5 0,0024
2 4,18,21,26,30 2 5 0,0459
3 12,13,22,28,38 0 5 0,2737
4 8,19,23,29,37 1 5 0,5113
5 6,24,31,33,39 3 5 0,6728
6 5,15,34,35,36 5 5 0,7956
7 3,14,20,25,27 5 5 0,8974
8 1,2,16,17 4 4 0,9766

Os termos para o cálculo de Ĉ são dados abaixo

Ĉ = 0, 0120 + 14, 3157 + 1, 8842 + 1, 9391

+ 0, 1203 + 1, 2846 + 0, 5716 + 0, 0958
= 20, 2233,

cujo nı́vel descritivo para uma qui-quadrado com 6 graus de liberdade é dado
por P= 0, 0025, indicando que o ajuste não é adequado. Por outro lado,
se eliminando as observações #4 e #18, obtém-se Ĉ = 5, 9374, que leva ao
nı́vel descritivo P= 0, 4302. Portanto, as duas observações destacadas pelas
análises de diagnóstico têm grande influência na falta de ajuste detectada
pela estatı́stica Ĉ.

Preferência de consumidores
Para ilustrar uma terceira aplicação com resposta binária será analisado parte
dos dados descritos no arquivo prefauto.txt sobre a preferência de consu-
midores americanos com relação a automóveis. Uma amostra aleatória de

239
263 consumidores foi considerada. As seguintes variáveis foram observadas
para cada comprador: preferência do tipo de automóvel (1: americano, 0:
japonês), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster et al.(1998, pgs.
338-339). Na Tabela 3.15 tem-se a distribuição da preferência do comprador
segundo o sexo e estado civil, respectivamente.

Tabela 3.15
Distribuição da preferência do comprador de
automóvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4%)
Japonês 83 (57,6%) 65 (54,6%)
Total 144 119
Casado Solteiro
Americano 83 (48,8%) 32 (34,4%)
Japonês 87 (51,2%) 65 (65,6%)
Total 170 93

Pode-se notar que para ambos os sexos a maior preferência é por carro ja-
ponês. Dentre os casados há pequena vantagem por carro japonês. Contudo,
essa preferência é bem mais acentuada entre os solteiros. Pelos boxplots da
Figura 3.3 nota-se que a idade mediana dos compradores de automóvel ameri-
cano é ligeiramente superior à idade mediana dos compradores de automóvel
japonês. Denotando por Yi a preferência com relação ao tipo do automóvel
pelo i-ésimo comprador (1: americano, 0: japonês), supor inicialmente um
modelo logı́stico sem interação em que Yi ∼ Be(πi ) com

πi
log = β1 + β2 idadei + β3 sexoi + β4 ecivili ,
1 − πi
sendo πi a probabilidade do i-ésimo comprador preferir automóvel americano.
Aplicando o método AIC a variável sexo é retirada do modelo. As estimativas
dos parâmetros do modelo final sem interação são descritas na Tabela 3.16.

240
60
50
40
Idade
30
20

Japonês Americano

Figura 3.3: Boxplots da idade dos compradores de automóveis japonês e

americano.

Assim, a probabilidade ajustada de preferência por automóvel americano

fica expressa na forma
exp(−1, 600 + 0, 050 × Idade − 0, 526 × ECivil)
π̂ = ,
1 + exp(−1, 600 + 0, 050 × Idade − 0, 526 × ECivil)
que é descrita na Figura 3.4 segundo a idade e o estado civil do comprador.

Tabela 3.16
Estimativas dos parâmetros referentes
ao modelo logı́stico ajustado aos dados
sobre preferência de compradores.
Efeito Estimativa E/E.Padrão
Constante -1,600 -2,31
Idade 0,049 2,30
E.Civil -0,526 -1,94

241
0.8
Probabilidade Ajustada

0.6
0.4

Casado
Solteiro
0.2

20 30 40 50 60

Idade

Figura 3.4: Probabilidade ajustada de preferência por caso americano se-

gundo a idade e oestado civil do comprador.

Não foi significativa a inclusão no modelo da interação entre a idade e o

estado civil do comprador. Assim, tem-se que a preferência por automóvel
americano aumenta com a idade do comprador. Com relação ao estado civil
nota-se que os casados preferem mais carro americano do que os solteiros.
Essa razão de chances (entre casados e solteiros) por carro americano pode
ser estimada por ψ̂ = exp(0, 526) = 1, 69, enquanto uma estimativa intervalar
aproximada de 90% para a razão de chances fica dada por

e0,526±1,65×0,272 = e0,526±0,449
= [1, 080; 2, 651][8, 0%; 165, 1%].

Portanto, um comprador casado tem uma chance entre 8% e 165,1% maior

de preferir automóvel americano em relação a um comprador solteiro.
No gráfico da distância de Cook aproximada (Figura 3.5) a observação
#99 (idade de 60 anos, solteira e prefere carro japonês) é destacada como

242
99

0.25
0.20
Distância de Cook
0.15
0.10
0.05
0.00

0 50 100 150 200 250

Índice

Figura 3.5: Distância de Cook referente ao modelo logı́stico ajustado aos

dados sobre preferência de consumidores.

possı́velmente influente, enquanto pela Figura 3.6 não há indı́cios de afasta-
mentos importantes de suposição de distribuição binomial para a resposta.
Tem-se na Tabela 3.17 as estimativas dos parâmetros sem a observação #99 e
pode-se notar que, embora ocorram algumas variações desproporcionais, não
há mudança inferencial. Essa compradora tem perfil com relação à idade de
ter preferência por carro americano, e isso pode levado à discrepância com
relação à distância de Cook.

Tabela 3.17
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre preferência
de consumidores sem a observação #99.
Efeito Estimativa E/E.Padrão Variação
Constante -1,942 -2,65 -21,4%
Idade 0,060 2,65 22,4%
E.Civil -0,474 -1,72 9,9%

243
2
1
Componente do Desvio
0
−1
−2

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 3.6: Gráfico normal de probabilidades para o resı́duo componente do

desvio referente ao modelo logı́stico ajustado aos dados sobre preferência de
consumidores.

3.7 Curva ROC

A Curva Caracterı́stica de Operação do Receptor (vide, por excemplo Agresti,
2013), também conhecida como curva ROC, é um procedimento gráfico de
discriminação de dados binários que varia conforme variam taxas de verda-
deiros positivos e falsos positivos. Assim, procura-se algum critério na curva
ROC que maximize a taxa de verdadeiros positivos e minimize a taxa de
falsos positivos.
Especificamente para regressão logı́stica, denotando por π̂ a probabili-
dade ajustada de sucesso de um modelo selecionado, o ojetivo principal é
estabelecer algum critério para a probabilidade ajustada a fim de classificar
um novo indivı́duo como sendo sucesso ou fracasso. É esperado que esse novo
indı́vio seja classificado como sendo sucesso à medida que π̂ se aproxima de 1

244
e como fracasso à medida que π̂ se aproxima de 0. Assim, definindo um ponto
de corte para a probabilidade ajustada, pode-se construir para os dados da
amostra uma tabela similar à Tabela 3.18, com as seguintes definções:

• Acurácia: proporção de predições corretas

VP+VN
ACC = n
.

• Sensibilidade: proporção de verdadeiros positivos

VP
SENS = VP+FN
1 - SENS: proporção de falsos negativos.

• Especificidade: proporção de verdadeiros negativos

VN
ESPEC = FP+VN
1 - ESPEC: proporção de falsos positivos.
Tabela 3.18
Tabela de classificação para dados binários.
Classificação Classificação Correta
pelo Modelo Sucesso Fracasso Total
Sucesso VP FP VP+FP
Fracasso FN VN FN+VN
Total VP+FN FP+VN n
A curva ROC para o exemple sobre preferência de consumidores é apresen-
tada na Figura 3.7 e como pode ser observado a área sob a curva é pequena,
dificultando encontrar um ponto de corte que corresponda a uma taxa de
verdadeiros positivos alta e a uma taxa de falsos positivos pequena. Ape-
nas, para ilustrar, supor ponto de corte de 0,44. Ou seja, classificar como
comprador de automóvel americano se a probabilidade ajustada π̂ ≥ 0, 44 e
como comprador de automóvel japonês se π̂ < 0, 44. A classificação segundo
esse critério para a amostra do exemplo de preferência de consumidores é
descrita na Tabela 3.19 e nota-se taxas de acurácia, sensibilidade e especi-
ficidade, respectivamente, dadas por ACC = 68+86 ∼ = 0, 586(58, 6%), SENS
263

245
= 68 ∼
= 0, 591(59, 1%) e ESPEC = 86 ∼
= 0, 581(58, 1%), que podem ser
115 148
consideradas baixas.
Proporção de Verdadeiros Positivos
1.0
0.8
0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Proporção de Falsos Positivos

Figura 3.7: Curva ROC referente ao modelo logı́stico ajustado aos dados
sobre preferência de consumidores.

Tabela 3.19
Tabela de classificação para o exemplo de
preferência de consumidores.
Classificação Classificação Correta
pelo Modelo Americano Japonês Total
Americano 68 62 130
Japonês 47 86 133
Total 115 148 263

3.8 Modelos de dose-resposta

O modelo logı́stico é frequentemente utilizado em Toxicologia no estudo do
comportamento de determinados medicamentos, que é medido pela probabi-

246
lidade π(x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expressão geral Z x
π(x) = f (u)du, (3.15)
−∞

em que f (u) representa uma função densidade de probabilidade, também

conhecida como função de tolerância. Como visto na Seção 1.3.1, alguns
candidatos naturais para f (u) são as funções de densidade da normal padrão,
da distribuição logı́stica e da distribuição do valor extremo, as quais levam aos
modelos probito, logı́stico e complementar log-log, respectivamente. Utiliza-
se o preditor linear η = β1 + β2 x no lugar de x em (3.15) a fim de ampliar o
leque de opções para π(x).
Os modelos de dose-resposta visam não somente a predição da proba-
bilidade de sucesso π(x) para uma dosagem especı́fica x, mas também a
determinação da dosagem necessária para atingir uma probabilidade de su-
cesso p. Essa dosagem é chamada de dose letal. A notação usual para uma
dose letal de 100p% é dada por DL100p . Logo,

p = π(β1 + β2 DL100p ), 0 < p < 1.

A dose letal mais comum em Toxicologia é a dose mediana (DL50 ), embora

em certos casos sejam também de interesse doses extremas, tais como DL1
ou DL99 . Deve-se observar que hoje em dia modelos de dose-resposta são
definidos em várias áreas do conhecimento, em que a dose pode ser a idade,
o peso, a resistência de um material, etc.
Supondo o modelo logı́stico com preditor linear η = β1 +β2 x, a estimativa
de máxima verossimilhança de DL100p fica, pela propriedade de invariância,
dada por
1 p
DL100p = d(β̂) =
c log − β̂1 ,
β̂2 1−p

247
em que β̂ é a estimativa de máxima verossimilhança de β = (β1 , β2 )> .
A variância assintótica de DL
c 100p pode ser obtida após uma aproximação
de primeira ordem por série de Taylor de d(β̂) em torno de β, conhecido
como método delta, levando ao seguinte resultado:

c 100p ] = D(β)> (X> VX)−1 D(β),

VarA [DL

em que
>
∂d(β) −1 1 p
D(β) = = , β1 − log .
∂β β2 β22 1−p
Importante observar que (X> V̂X)−1 contém as variâncias e covariância es-
timadas de β̂1 e β̂2 . Portanto, um intervalo de confiança assintótico de coe-
ficiente (1 − α) para DL100p fica dado por
q
DL100p ± z(1−α/2) V̂arA [d(β̂)].
c

3.8.1 Aplicações
Exposição de besouros
Em Bliss (1935) (ver também Silva, 1992) encontra-se uma situação tı́pica
para o ajuste de um modelo logı́stico de dose-resposta. O estudo baseia-se
no comportamento de besouros adultos à exposição de disulfeto de carbono
gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos 481
besouros expostos segundo diferentes doses são apresentados na Tabela 3.20
e no arquivo besouros.txt.
Ajustando um modelo logı́stico do tipo logit{π(x)} = β1 + β2 x aos dados,
em que x denota a dose de CS2 , obtém-se as estimativas β̂1 = −60, 72(5, 18),
β̂2 = 34, 27(2, 91) e Cov(β̂1 , β̂2 ) = −15, 04. O desvio do modelo foi de
D(y; µ̂) = 11, 23 para 6 graus de liberdade, o que leva a um nı́vel descri-
tivo de P= 0, 0815, indicando um ajuste razoável. O gráfico de envelope

248
descrito na Figura 3.8 confirma essa falta de ajuste. Talvez a inclusão de um
termo quadrático ou mesmo o ajuste de um modelo logı́stico não linear (ver
Silva, 1992) possam melhorar a qualidade do ajuste.

Tabela 3.20
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose Besouros Besouros
log10 CS2 expostos mortos
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60

Uma vez conhecida a covariância assintótica entre β̂1 e β̂2 , pode-se calcular
a variância assintótica de DL
c 100p para alguns valores de p e consequentemente
os intervalos assintóticos de confiança. Em particular, para p = 0, 50, obtém-
se a dose letal estimada

1 0, 5
DL
c 50 = log − β̂1
β̂2 1 − 0, 5
β̂1 60, 72
= − =
β̂2 34, 27
= 1, 772.

Um intervalo de confiança assintótico de 95% para DL50 fica então dado por
s
−0, 029
1, 772 ± 1, 96 (−0, 029, −0, 052)> (X> V̂X)−1
−0, 052
p
= 1, 772 ± 1, 96 0, 00001488
= [1, 764; 1, 780].

249
2
1
Componente do Desvio

0
-1
-2
-3

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Quantil da N(0,1)

Figura 3.8: Gráfico normal de probabilidades referente ao modelo logı́stico

ajustado aos dados sobre exposição de besouros.

A Figura 3.9 descreve a curva ajustada e as frequências observadas. Como

pode-se observar os pontos abaixo de π̂(x) = 0, 50 parecem mais mal ajusta-
dos do que os pontos com resposta estimada acima desse valor. Isso sugere
que um modelo binomial com ligação assimétrica poderia levar a um ajuste
mais adequado. Uma opção poderia ser o modelo binomial com ligação com-
plemento log-log, que é assimétrico em torno de p = 0, 50 e cuja parte sis-
temática fica expressa na forma

log{− log(1 − π(x))} = β1 + β2 x,

em que x denota a dose de CS2 . As estimativas paramétricas ficam dadas

por β̂1 = −39, 57(3, 24), β̂2 = 22, 04(1, 80) e Cov(β̂1 , β̂2 ) = −5, 82. O desvio
do modelo caiu para D(y; µ̂) = 3, 45 com 6 graus de liberdade, que leva a um

250
1.0
0.8
Porporcao de Mortos

0.6
0.4
0.2
0.0

1.65 1.70 1.75 1.80 1.85 1.90

dose

Figura 3.9: Modelo logı́stico ajustado à proporção de besouros mortos.

nı́vel descritivo de P= 0, 751. Logo, não rejeita-se o modelo. O gráfico da

curva ajustada (Figura 3.10a) e o gráfico normal de probabilidades (Figura
3.10b) confirmam essa indicação de modelo bem ajustado.

Para o modelo com ligação complemento log-log a estimativa de máxima

verossimilhança de DL100p fica dada por
1 h i
DL100p = d(β̂) =
c log{− log(1 − p)} − β̂1 ,
β̂2
para a qual obtém-se a variância assintótica

c 100p ] = D(β)> (X> WX)−1 D(β),

VarA [DL

em que
>
∂d(β) −1 1
D(β) = = , {β1 − log(− log(1 − p))} ,
∂β β2 β22

251
1.0

2
0.8

Componente do Desvio
Porporcao de Mortos

1
0.6

0
0.4

-1
0.2

-2
0.0

-3
1.65 1.70 1.75 1.80 1.85 1.90 -1.5 -0.5 0.0 0.5 1.0 1.5

dose Quantil da N(0,1)

(a) (b)

Figura 3.10: Curva ajustada para a proporção de besouros mortos (a) e

gráfico normal de probabilidades sob o modelo complementar log-log (b).

com W sendo uma matriz diagonal de pesos dados por ωi = ni πi−1 (1 −

πi ) log2 (1 − πi ) i = 1, . . . , 8. Em particular, para p = 0, 50, obtém-se
c 50 = 1 log{− log(1 − 0, 5)} − β̂1
h i
DL
β̂2
1
= (−0, 3665 + 39, 57)
22, 04
= 1, 779.

Logo, um intervalo assintótico de 95% para DL50 fica dado por

s
> > −1
−0, 0454
1, 779 ± 1, 96 (−0, 0454, −0, 0807) (X ŴX)
−0, 0807
p
= 1, 779 ± 1, 96 0, 00001606
= [1, 771; 1, 787].

Pode-se notar que as estimativas intervalares para DL50 são praticamente as

mesmas sob os dois modelos ajustados.

252
Garotas de Varsóvia
Os problemas de dose-resposta não se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do inı́cio da menstruação em 3918 ga-
rotas de Varsóvia. Para 25 médias de idade foram observadas a ocorrência
(Y = 1) ou não (Y = 0) do inı́cio de perı́odos de menstruação nas adoles-
centes. Os dados desse estudo são apresentados na Tabela 3.21 e no arquivo
meninas.txt. Considere o modelo logı́stico linear

π(x)
log = β1 + β2 x,
1 − π(x)

em que π(x) = P r{Y = 1|x} e x denota a idade média. As estimativas

de máxima verossimilhança deram β̂1 = −21, 23(0, 769), β̂2 = 1, 63(0, 059)
e Cov(β̂1 , β̂2 ) = −0, 045. Na Figura 3.11 são apresentadas a curva ajustada
e as frequências observadas. O desvio do modelo foi de D(y; µ̂) = 26, 80
(23 graus de liberdade) para um nı́vel descritivo de P= 0, 264, indicando um
ajuste adequado.
A estimativa da idade mediana de inı́cio do perı́odo de menstruação fica
portanto dada por
c 50 = 21, 23 = 13, 02,
DL
1, 63
com o seguinte intervalo assintótico de confiança de 95%:
p
13, 02 ± 1, 96 0, 004524 = [12, 89; 13, 15].

Pelo gráfico de envelope descrito na Figura 3.12a nota-se que os resı́duos

apresentam uma tendência sistemática dentro do envelope gerado, sugerindo
a inclusão de um termo quadrático na parte sitemática do modelo. O ajuste
de um modelo com parte sistemática dada por

η(x) = β1 + β2 x + β3 x2

253
forneceu as seguintes estimativas: β̂1 = −30, 96(5, 24), β̂2 = 3, 12(0, 78) e
β̂3 = −0, 06(0, 03) com desvio D(y, ; µ̂) = 23, 40 (22 graus de liberdade) para
um nı́vel descritivo de P= 0, 38. O gráfico de envelope descrito na Figura
3.12b confirma a adequação do modelo com termo quadrático.

Tabela 3.21
Ocorrência do inı́cio da menstruação em garotas de Varsóvia.
Número de garotas Número de garotas
Idade Menstruadas Entrevistadas Idade Menstruadas Entrevistadas
9,21 0 376 13,08 47 99
10,21 0 200 13,33 67 106
10,58 0 93 13,58 81 105
10,83 2 120 13,83 88 117
11,08 2 90 14,08 79 98
11,33 5 88 14,33 90 97
11,58 10 105 14,58 113 120
11,83 17 111 14,83 95 102
12,08 16 100 15,08 117 122
12,33 29 93 15,33 107 111
12,58 39 100 15,58 92 94
12,83 51 108 15,83 112 114
17,53 1049 1049

Stukel (1988) (ver também Silva, 1992) mostra que o uso de um modelo
logı́stico não linear pode melhorar substancialmente a qualidade do ajuste
dos modelos de dose-resposta apresentados nesta seção.

3.8.2 Estimação da dose letal

Intervalos de confiança aproximados para a dose letal DL100p podem ser cons-
truı́dos utilizando a variância assintótica para DL
c 100p , conforme descrito na

254
1.0
Porporcao de Garotas Menstruadas

0.8
0.6
0.4
0.2
0.0

10 12 14 16 18

Idade

Figura 3.11: Curva ajustada pelo modelo logı́stico linear para a proporção
de garotas de Varsóvia.

seção anterior. Há, contudo, um outro método que é baseado no teorema de

Fieller (1954) e será descrito a seguir.
β0
Denote por ρ = β1
, em que β0 e β1 são estimados por β̂0 e β̂1 , sendo
assumido que essas estimativas são normalmente distribuı́das com médias β0
e β1 , variâncias v00 e v11 e covariância v01 . Defina a função ψ̂ = β̂0 − ρβ̂1 .
Então, se β̂0 e β̂1 são estimativas não viesadas de β0 e β1 , obtém-se E(ψ̂) = 0.
A variância de ψ̂ fica, portanto, dada por

v = Var(ψ̂) = v00 + ρ2 v11 − 2ρv01 . (3.16)

Desde que β̂0 e β̂1 são normalmente distribuı́dos, então ψ̂ também é normal-
mente distribuı́do. Consequentemente, a variável
√
(β̂0 − ρβ̂1 )/ v

segue distribuição normal padrão. Assim, um intervalo assintótico de con-

255
fiança para ρ com coeficiente (1 − α) é formado pelos valores de ρ tais que
√
| β̂0 − ρβ̂1 |≤ z(1−α/2) v.

Os limites desse intervalo de confiança saem da equação quadrática

2
β̂02 + ρ2 β̂12 − 2ρβ̂0 β̂1 − z(1−α/2) v = 0,

que, após algumas manipulações algébricas e usando (3.16), fica dada por

(β̂12 − z(1−α/2)
2
v11 )ρ2 + (2v01 z(1−α/2)
2
− 2β̂0 β̂1 )ρ + β̂02 − v00 z(1−α/2)
2
= 0,

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão.

Portanto, as raı́zes da equação acima formam os limites inferior e superior
do intervalo de confiança para ρ. Por exemplo, basta chamar ρ = − ββ12 e apli-
car os resultados acima para encontrar um intervalo assintótico de coeficiente
(1 − α) para a dose letal mediana DL50 .

3.8.3 Modelos de retas paralelas

Modelos de retas paralelas são comumente aplicados na área de Farmacolo-
gia para a comparação da eficiência de drogas do mesmo tipo, ou seja, com
ação similar (ver, por exemplo, Finney, 1971; Collett, 1991). Nesses estudos,
o interesse principal é comparar as potências entre as drogas definindo uma
droga particular como nı́vel base ou droga padrão. Para aplicar esses mo-
delos em experimentos com respostas binárias é assumido que Yijk , o efeito
produzido pela j-ésima dose correspondente à i-ésima droga no k-ésimo in-
divı́duo, i = 1, . . . , g, j = 1, . . . , di e k = 1, . . . , nij , segue distribuição de
Bernoulli com probabilidade de sucesso πij definida tal que

g(πij ) = αi + βlogxij , (3.17)

256
2

2
Componente do Desvio

Componente do Desvio
1

1
0

0
-1

-1
-2

-2
-3

-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) Quantil da N(0,1) (b) Quantil da N(0,1)

Figura 3.12: Gráficos normais de probabilidades para os modelos logı́stico

com componente sistemática linear (a) e não linear (b) ajustados aos dados
sobre garotas de Varsóvia.

e que as variáveis Yijk ’s são mutuamente independentes. Considerando a

primeira droga como padrão, a potência ρi da i-ésima droga com relação à
primeira é definida por

log(ρi ) = (αi − α1 )/β,

i = 1, . . . , g. Essa suposição leva à seguinte relação:

g(πij ) = α1 + β log(ρi xij ),

isto é, x unidades da droga i têm o mesmo efeito que ρi x unidades da primeira
droga.

Aplicação
A Tabela 3.22 resume os resultados de um experimento (ver Collett, 1991)
em que três inseticidas são aplicados num determinado tipo de inseto e é

257
verificado o número de sobreviventes para cada dose aplicada. Esses dados
estão também descritos no arquivo insetic.txt.

Tabela 3.22
Mortalidade de insetos segundo as doses de três inseticidas.
Dose mg/cm2
Inseticida 2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
γ-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + γ-BHC 28/50 37/50 46/50 48/50 48/50 50/50

Ajustando o modelo (3.17) com ligação logito aos dados, obtém-se as

estimativas α̂1 = −4, 555(0, 361), α̂2 = −3, 842(0, 333), α̂3 = −1, 425(0, 285)
e β̂ = 2, 696(0, 214), com desvio dado por D(y; µ̂) = 21, 282, para 14 graus
de liberdade, P= 0, 0946. Isso quer dizer que o ajuste do modelo de retas
paralelas parece ser razoável.

Tem-se, portanto, os seguintes ajustes para as três drogas:

π̂1 (xj )
log = −4, 555 + 2, 696 log(xj ) (DDT);
1 − π̂1 (xj )

π̂2 (xj )
log = −3, 842 + 2, 696 log(xj ) (γ−BHC) e
1 − π̂2 (xj )

π̂3 (xj )
log = −1, 425 + 2, 696 log(xj ) (DDT + γ−BHC),
1 − π̂3 (xj )
para j = 1, . . . , 6. Nota-se, pelas estimativas, que há um aumento de potência
quando as drogas DDT e γ-BHC são misturadas. Em particular, a potência
da mistura com relação às drogas DDT e γ-BHC é estimada, respectiva-
mente, por ρ̂1 = exp{(−1, 425+4, 555)/2, 696} = 3, 19 e ρ̂2 = exp{(−1, 425+
3, 842)/2, 696} = 2, 45.

258
3
2
Componente do Desvio

1
0
-1
-2

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.13: Gráfico normal de probabilidades para o modelo logı́stico de

retas paralelas ajustado aos dados sobre três tipos de inseticida.

Pelo gráfico normal de probabilidades (Figura 3.13), nota-se que todos

os resı́duos caem dentro do envelope gerado. No entanto, parece haver uma
tendência no gráfico, uma vez que os resı́duos negativos apresentam-se ligei-
ramente abaixo da média enquanto os resı́duos positivos apresentam-se ligei-
ramente acima. Isso pode ser um indı́cio de sobredispersão, isto é, que as
réplicas (para cada dose e cada inseticida) não são totalmente independentes.
Em Collett (1991, Cap. 6) há uma discussão sobre o assunto. Apresenta-se
a seguir uma abordagem para esse tipo de problema.

3.9 Sobredispersão
Sobredispersão ou variação extrabinomial é um fenômeno comum que ocorre
na modelagem de dados binários agrupados e cuja ocorrência é caracterizada
quando a variação observada excede aquela assumida pelo modelo (ver, por

259
exemplo, Hinde e Demétrio, 1998). Em particular em regressão logı́stica,
quando o desvio D(y; µ̂) é maior do que o número de graus de liberdade
(g − p), pode haver indı́cios de sobredispersão, em que g é o número de
grupos. Isso pode ser avaliado mais precisamente pelo nı́vel descritivo do
teste de ajustamento comparando D(y; µ̂) com os quantis da distribuição
qui-quadrado com (g − p) graus de liberdade.
Diferentes circunstâncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredispersão aparente. Por
exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminação desses pontos pode reduzir as evidências de
sobredispersão. Outra causa aparente de sobredispersão é a ausência de
algum termo extra na parte sistemática do modelo. Medidas de diagnóstico
são ferramentas importantes para detectar o fenômeno. Em sı́ntese, há duas
possı́veis causas de sobredispersão: correlação entre as réplicas binárias ou
variação entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prático é difı́cil distinguir entre os dois casos. Contudo, como será
descrito a seguir, os procedimentos estatı́sticos para tratar a sobredispersão
podem ser os mesmos.

3.9.1 Caso I
Supor inicialmente a existência de g grupos de modo que para o i-ésimo
grupo sejam observadas ni repetições de uma variável aleatória Yij ∼ Be(πi )
(Bernoulli com probabilidade de sucesso πi ). O número total de sucessos no
i-ésimo grupo será definido por

Yi = Yi1 + · · · + Yini .

260
Segue que E(Yij ) = πi e Var(Yij ) = πi (1 − πi ). Supor adicionalmente a
existência de correlação entre as repetições do i-ésimo grupo. Logo,
ni
X ni
X ni
X
Var(Yi ) = Var(Yij ) + Cov(Yij , Yik ).
j=1 j=1 k=1,k6=j

Se essa correlação é constante, Corr(Yij , Yik ) = δ para j 6= k, então tem-se

que Cov(Yij , Yik ) = δπi (1 − πi ). Daı́ obtém-se
ni
X ni
X ni
X
Var(Yi ) = πi (1 − πi ) + δπi (1 − πi )
j=1 j=1 k=1,k6=j

= ni πi (1 − πi ) + ni (ni − 1)δπi (1 − πi )
= σi2 ni πi (1 − πi ),

em que σi2 = 1 + (ni − 1)δ. Se é exigido que σi2 > 0, então deve-se ter

1 + (ni − 1)δ > 0,

que implica em δ > −1/(ni − 1). Portanto, haverá a restrição

1
− ≤ δ ≤ 1.
ni − 1
Assim, δ assumirá valores negativos apenas para ni pequeno. Caso contrário,
δ assumirá valores em geral positivos. Logo, tem-se em geral Var(Yi ) >
ni πi (1 − πi ) (sobredispersão).

3.9.2 Caso II
Supor agora que pi representa a probabilidade de sucesso nas respostas do
i-ésimo grupo tal que E(pi ) = πi e Var(pi ) = δπi (1 − πi ), δ ≥ 0. Tem-se
portanto um modelo de efeito aleatório, que reduz ao modelo usual de efeito
fixo fazendo δ = 0. Assumindo ainda que Yij |pi ∼ Be(pi ) de onde segue que
E(Yij |pi ) = pi e Var(Yij |pi ) = pi (1 − pi ). Daı́ obtém-se

E(Yi ) = E{E(Yi |pi )} = ni πi

261
e

Var(Yi ) = E{Var(Yi |pi )} + Var{E(Yi |pi )}

= ni πi (1 − πi )(1 − δ) + n2i δπi (1 − πi )
= ni πi (1 − πi ){1 + (ni − 1)δ},

que coincidem com os resultados obtidos para o primeiro caso. No entanto

aqui tem-se a restrição δ ≥ 0.

3.9.3 Estimação
A estimação de δ tem sido discutida em vários contextos. No primeiro caso,
por exemplo, δ pode ser consistentemente estimado por
g
X X
δ̃ = r̂Pi` r̂Pi`0 /(N − p), (3.18)
i=1 `0 <`
p
em que r̂Pi` = (yi` − π̂i )/ π̂i (1 − π̃i ) é o resı́duo de Pearson estimado,
N = 12 gi=1 ni (ni − 1) e π̂i é a estimativa de máxima verossimilhança de
P

πi supondo δ = 0. Contudo, deve-se estimar β e δ simultaneamente através

de um processo iterativo. Uma proposta é o uso de equações de estimação
generalizadas (Liang e Zeger, 1986) as quais serão discutidas no Capı́tulo 5.
As novas estimativas, denotadas por β̂ G e δ̂, saem do sistema de equações
g
X
{1 + (ni − 1)δ̂}−1 xi (yi − ni π̂i ) = 0.
i=1

Dada uma estimativa inicial para δ, que pode ser δ̃, tem-se o seguinte processo
iterativo para obter β̂ G :
g g
X (m)
X (m) (m) (m) (m)
β (m+1)
=β (m)
+{ ωi xi x>
i }
−1
{ωi xi (yi −ni πi )/ni πi (1−πi )},
i=1 i=1
(3.19)

262
m = 0, 1, 2 . . ., em que ωi = ni πi (1 − πi )/{1 + (ni − 1)δ̂}. O processo iterativo
(3.19) é alternado com (3.18) até chegar à convergência. Pode-se mostrar
que o estimador β̂ G é consistente e assintoticamente normal. A variância
assintótica de β̂ G é dada por
g
X
Var(β̂ G ) = { ωi xi x> −1
i } .
i=1

Há também uma proposta de variância assintótica robusta no caso da estru-

tura de correlação ter sido definida incorretamente, que é dada por
g g g
X X X
Var(β̂ G ) = { ωi xi x> −1
i } { νi x i x >
i }{ ωi xi x> −1
i } ,
i=1 i=1 i=1

em que νi = {1 + (ni − 1)δ}−2

P
`,`0 (yi` − πi )(yi`0 − πi ). Um desvio corrigido
para esse modelo fica dado por
g
X
D(y; µ̂G ) = {1 + (ni − 1)δ̂}d2i ,
i=1

em que d2i é o i-ésimo componente do desvio de um modelo binomial, avaliado

em β̂ G .
A seguir são descritos procedimentos para resolver (3.19) no R. Inicial-
mente é definida uma função corpearson para obter (3.18). Denota-se os
vetores (y1 /n1 , . . . , yg /ng )> , (y1 , . . . , yg )> e (n1 , . . . , ng )> por fr, yt e nt,
respectivamente, e o número de parâmetros por npar. A função é definida
por
corpearson = function(fr, yt, nt, npar) {
nt1 = 0.5*sum(nt*(nt-1))
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum1 = sum(sum1)

263
rho = sum1/(nt1-npar)
rho }.
Supor que há duas variáveis explicativas representadas por x1 e x2 sem in-
tercepto e que os resultados do ajuste do modelo supondo independência
sejam colocados em fit.model. Em fit.gee são armazenados os resultados
do processo iterativo dado em (3.19) e supor ainda 10 iterações. Seguem os
comandos
fit.model = glm(resp ∼ x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp ∼ x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa final da correlação está armazenada em rr. Para rodar os
programas descritos acima no R deve-se armazenar inicialmente a função
corpearson num arquivo externo, por exemplo denominado corr.s, e exe-
cutar o mesmo através do comando abaixo
source(‘‘corr.s’’).
Então a função corpearson estará instalada. Em seguida deve-se fazer o

264
mesmo para ajustar o modelo colocando os demais comandos num arquivo
externo, por exemplo denominado super.s, fazendo o seguinte:
source(‘‘super.s’’).

3.9.4 Teste de ausência de sobredispersão

Pode ser de interesse testar a hipótese de ausência de sobredispersão H0 :
δ = 0 contra H1 : δ > 0. Como o conhecimento da distribuiçào de Yij é
mais complexo sob a hipótese alternativa, dificultando a aplicação de testes
tradicionais tais como razão de verossimilhanças, Wald e escore, a proposta
de aplicar um teste tipo escore que requer apenas o conhecimento dos dois
primeiros momentos de Yij com a estatı́stica do teste sendo avaliada sob a
hipótese nula (modelo binomial de respostas independentes) torna-se atra-
tivo. Uma estatı́stica do teste proposta por Paula e Artes (2000) é expressa
na forma assume a forma
Pg
M̂i
ξS = qPi=1 ,
g 2
i=1 M̂i

P
em que M̂i = `<`0 r̂Pi` r̂Pi`0 de modo que H0 seja rejeitada quando ξS >
z(1−α) . Pode-se mostrar que essa estatı́stica corresponde à forma padronizada
(sob H0 ) de δ̃. Para calcular ξS tem-se a função abaixo em que fr denota os
valores ajustados sob a hipótese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.

265
3.9.5 Modelo beta-binomial
Uma outra possibilidade para estudar o fenômeno de sobredispersão é através
do uso do modelo beta-binomial, em que variáveis aleatórias Y e Z são defi-
nidas tais que
Y |z ∼ B(n, z) e Z ∼ Beta(µ, σ),

com 0 < z, µ < 1 e σ > 0. Então, após algumas manipulações algébricas,

pode-se mostrar que a distribuição marginal de Y é dada por

Y ∼ BB(n, µ, σ), y = 0, 1, . . . , n,

com E(Y ) = nµ e Var(Y ) = nµ(1 − µ){1 + (n − 1)σ 2 }. Ou seja, tem-se a

distribuição beta-binomial com mesmo domı́nio e mesma média da binomia,
contudo com variância maior do que a variância da binomial. A distribuição
beta-binomial não pertene à famı́lia exponencial, contudo pode ser ajustada
através da biblioteca GAMLSS (Stasinopoulos et al., 2017) e pode contemplar
os dois tipos de situações descritos na Seção 1.9 que geram sobredispersão
com dados binários.

3.9.6 Quase-verossimilhança
Pode-se ainda supor σi2 = φ−1 e estimar φ consistentemente dos dados ou
do modelo ajustado substituindo a estimativa obtida nas quantidades que
envolvem φ. Quando ni é grande, ∀i, pode-se estimar φ diretamente do
desvio
D(y; µ̂)
φ̂−1 = .
g−p
No caso de ni pequeno, para algum i, recomenda-se a estimativa abaixo
g
−1 1 X (yi − ni π̂i )2
φ̂ = ,
g − p i=1 ni π̂i (1 − π̂i )

266
em que p denota o número de parâmetros da parte sistemática do modelo
e π̂1 , . . . , π̂g são as probabilidades ajustadas nos g grupos. Sob a hipótese
de que o modelo é verdadeiro, essa estimativa é também consistente para φ.
Essa opção é um caso particular de modelos de quase-verossimilhança que
serão discutidos no Capı́tulo 5.
2
Componente do Desvio

1
0
-1
-2
-3

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.14: Gráfico normal de probabilidades para o resı́duo corrigido para

o modelo logı́stico de retas paralelas ajustado aos dados sobre três tipos de
inseticida.

No exemplo da seção anterior, envolvendo a comparação de três inseti-

cidas, tem-se um total de 18 grupos com probabilidades ajustadas π̂i (xj ),
i = 1, 2, 3 e j = 1, . . . , 6. Como ni = 50 para a maioria dos grupos, pode-se
estimar φ consistentemente através de
D(y; µ̂) 21, 282
φ̂−1 = = = 1, 52.
g−p 14

267
Algumas quantidades que envolvem φ deverão ser corrigidas,

Var(β̂) = φ̂−1 (X> VX)−1 e D∗ (y; µ̂) = φ̂D(y; µ̂)

q
com t∗Di = φ̂tDi . O novo gráfico normal de probabilidades, agora com t∗Di ,
é apresentado na Figura 3.14 e não apresenta indı́cios de afastamentos sérios
das suposições feitas para o modelo. É importante observar que o novo
resı́duo t∗Di não corresponde ao componente do desvio de nenhum modelo
particular. Nos modelos de quase-verossimilhança a distribuição da resposta
é em geral desconhecida e o uso de D∗ (y; µ) deve ser encarado de forma
descritiva.

3.9.7 Aplicação
Collett (1991, Seção 6.9) descreve um experimento com duas espécies de
rotifers, um tipo microscópico de invertebrado aquático. O objetivo do ex-
perimento é determinar a densidade relativa para cada uma das espécies.
Foi utilizado um método indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substância e então
utilizar uma regressão logı́stica para ajustar a proporção de rotifers que per-
manecem suspensos segundo a densidade relativa. A densidade relativa de
cada espécie pode ser estimada pela DL50 , que nesse caso representa a den-
sidade relativa da substância que deixa suspenso 50% de rotifers.
Seja Yij o número de animais da i-ésima espécie que permanecem sus-
pensos num recipiente com densidade relativa dj da solução, onde foram
colocados nij rotifers. É assumido inicialmente que Yij ∼ B(nij , πij ), i = 1, 2
e j = 1, . . . , 20, em que

πij
log = αi + βi dj .
1 − πij

268
Na Tabela 3.21 e no arquivo rotifers.txt são apresentados para cada espécie
a densidade relativa da substância, o número de rotifers expostos e o número
de rotifers em suspensão. Para a espécie Polyathra as estimativas de máxima
verossimilhança são dadas por α̂1 = −109, 72(5, 22) e β̂1 = 105, 67(5, 02),
enquanto que para a espécie Keratella obtém-se α̂2 = −114, 35(4, 03) e β̂2 =
108, 75(3, 86).

Tabela 3.21
Distribuição de rotifers das duas espécies.
Polyarthra major Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019 11 58 13 161
1,020 7 86 14 248
1,021 10 76 30 234
1,030 19 83 10 283
1,030 9 56 14 129
1,030 21 73 35 161
1,031 13 29 26 167
1,040 34 44 32 286
1,040 10 31 22 117
1,041 36 56 23 162
1,048 20 27 7 42
1,049 54 59 22 48
1,050 20 22 9 49
1,050 9 14 34 160
1,060 14 17 71 74
1,061 10 22 25 45
1,063 64 66 94 101
1,070 68 86 63 68
1,070 488 492 178 190
1,070 88 89 154 154

Embora essas estimativas sejam altamente significativas, o desvio do mo-

delo D(y; µ̂) = 434, 02 (36 graus de liberdade) indica para um ajuste inade-

269
quado. O gráfico normal de probabilidades descrito na Figura 3.15 confirma
a sobredispersão. Segundo Collett (1991, Cap. 6) a sobredispersão nos dados
pode ter sido causada por uma possı́vel má distribuição dos animais nos re-
cipientes, uma vez que rotifers mais jovens são menos densos do que os mais
maduros. Collett (1991) propõe um modelo logı́stico com efeito aleatório
para ajustar a proporção de animais em suspensão e consegue uma redução
substancial no valor do desvio. Alternativamente será assumido o modelo
proposto na Seção 3.6.14, que com uma adaptação de notação corresponde a
assumir E(Yij ) = nij πij e Var(Yij ) = nij πij (1 − πij ){1 + (nij − 1)δ}, em que
δ denota a correlação intraunidade experimental.
6
4
Componente do Desvio

2
0
-2
-4
-6

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.15: Gráfico normal de probabilidades do modelo logı́stico ajustado

aos dados sobre rotifers.

270
1
Residuo de Pearson

0
-1
-2

16
-3

0.0 0.2 0.4 0.6 0.8

Valor Ajustado

Figura 3.16: Gráfico de resı́duos de Pearson contra os valores ajustados para

o modelo logı́stico de sobredispersão ajustado aos dados sobre rotifers.

Usando o processo iterativo dado na seção anterior obtém-se as novas

estimativas α̂1 = −90, 64(13, 18), β̂1 = 87, 22(12, 66), α̂2 = −117, 25(14, 91),
β̂2 = 111, 45(14, 21) e δ̂ = 0, 0815. Pela Figura 3.16 nota-se que, exceto
a observação #16 que corresponde a uma unidade experimental com baixa
proporção de rotifers (10/22) para uma densidade alta, os demais resı́duos
permanecem no intervalo [-2,2] e não apresentam nenhuma tendência sis-
temática contra os valores ajustados.
A aplicação da estatı́stica ξS para testar H0 : δ = 0 contra H1 : δ > 0
forneceu o valor ξS = 3, 126, com nı́vel descritivo P= 0, 0009, indicando forte-
mente pela rejeição da hipótese nula. Portanto, há indı́cios de sobredispersão
nos dados.

271
3.10 Modelo logı́stico condicional
Em alguns estudos de caso e controle ou de seguimento o número de estra-
tos formados pode ser relativamente grande. Isso ocorre em particular nos
estudos emparelhados de caso e controle, em que a influência de fatores sus-
peitos de confundimento é controlada através de emparelhamentos de casos
com controles, segundo alguns nı́veis desses fatores. Para cada emparelha-
mento tem-se um estrato. Assim, se é adotado um modelo logı́stico linear,
além dos parâmetros correspondentes aos efeitos incluı́dos no modelo, tem-se
um parâmetro (intercepto) para cada estrato. Nos casos de estratos com
poucas observações, o número de parâmetros pode ser da mesma ordem do
número total de observações, que pode levar a estimativas viesadas (ver Cox
e Hinkley, 1974, p. 292).
Como ilustração, supor um estudo de caso e controle com k emparelha-
mentos do tipo 1:1 (1 caso por 1 controle) segundo os nı́veis de um fator
binário de exposição representado pela variável X (X = 1 presença da ex-
posição, X = 0 ausência da exposição). Denote por Yi (x) o resultado da
resposta para o indivı́duo do i-ésimo estrato com X = x (Yi (x) = 1 caso,
Yi (x) = 0 controle). Supor que Yi (x) ∼ Be{πi (x)}, em que

πi (x)
log = αi + βx.
1 − πi (x)
A razão de chances de ser caso entre o indivı́duo exposto e o indivı́duo não
exposto no i-ésimo estrato fica dada por
πi (1)/{1 − πi (1)}
ψ= = exp(β)
πi (0)/{1 − πi (0)}
sendo, portanto, constante ao longo dos estratos.
Para eliminar os parâmetros αi ’s pode-se trabalhar com a distribuição
condicional de Yi (1) dado Yi (1) + Yi (0) = m. Essa distribuição foi discutida

272
na Seção 3.2.3. A função de probabilidade pode ser expressa na forma
1
1 a
a m−a
ψ
f (a|m; ψ) = Pv 1
1
,
t
t=u t m−t ψ

em que a = 0, 1 e m = 0, 1, 2. É fácil mostrar que f (a|0; ψ) = f (a|2; ψ) = 1,

havendo portanto informação a respeito de ψ somente nos estratos em que
Yi (1) + Yi (0) = 1. A função de probabilidade nesse caso é definida para a = 0
e a = 1, sendo as probabilidades dadas por

f (0|1; ψ) = 1/(1 + ψ)

e
f (1|1; ψ) = ψ/(1 + ψ).

Definindo para o i-ésimo estrato duas novas variáveis binárias X1i e X2i
representando, respectivamente, o nı́vel de exposição do caso e do controle,
é possı́vel expressar as probabilidades condicinais na forma
exp(x1i − x2i )β
f (a|1, ψ) = ,
1 + exp(x1i − x2i )β
em que a = 0, 1. Assim, para k estratos, a função de verossimilhança conjunta
condicional, que depende apenas de β e será denotada por `(β), assume a
forma

exp{(xi1 − xi2 )β}
`(β) = Πki=1 .
1 + exp{(xi1 − xi2 )β}
Tem-se que a expressão acima coincide com a função de verossimilhança
de uma regressão logı́stica com k sucessos em k ensaios, com uma única
covariável com valores observados zi = xi1 − xi2 , i = 1, . . . , k, e passando
pela origem.
Generalizando para p covariáveis e supondo ainda emparelhamentos 1:1,
tem-se o modelo
πi (x)
log = αi + x> β,
1 − πi (x)

273
em que x = (x1 , . . . , xp )> , β = (β1 , . . . , βp )> e πi (x) = P r{Yi = 1|x},
i = 1, . . . , k. Observando no i-ésimo estrato os valores xi1 = (xi11 , . . . , xi1p )>
para o caso e os valores xi2 = (xi21 , . . . , xi2p )> para o controle, a função de
verossimilhança conjunta condicional assume a forma geral (ver, po exemplo,
Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)
exp{(xi1 − xi2 )> β}

k
`(β) = Πi=1 .
1 + exp{(xi1 − xi2 )> β}
Logo, a estimação de β pode ser feita através do ajuste de uma regressão
logı́stica com k sucessos em k ensaios, com valores observados das covariáveis
dados por zij = xi1j − xi2j , i = 1, . . . , k e j = 1, . . . , p e passando pela origem.
Deve-se observar que embora algumas quantidades da regressão logı́stica con-
dicional para estudos emparelhados do tipo 1:1 coincidam com as quantida-
des de uma regressão logı́stica não condicional passando pela origem, tais
como estimativas dos parâmetros e erros padrão assintóticos, as distribuições
dos modelos são diferentes. No primeiro caso tem-se o produto de hiper-
geométricas independentes, enquanto que no segundo caso tem-se o produto
de binomiais independentes. Isso pode refletir na obtenção de alguns resul-
tados, como por exemplo, geração de envelope para o resı́duo componente do
desvio que usa a distribuição da resposta no processo de geração dos dados.

3.10.1 Técnicas de diagnóstico

Moolgavkar et al.(1985) e Pregibon (1984) têm mostrado que a maioria das
técnicas usuais de diagnóstico do modelo logı́stico não condicional podem ser
estendidas para o modelo logı́stico condicional. Como a variável resposta no
modelo logı́stico condicional sempre assume o valor 1, o resı́duo componente
do desvio é sempre positivo, sendo dado por
√
2| log π̂i |
tDi = p ,
1 − ĥii

274
em que
exp(z>
i β̂)
π̂i = e ĥii = π̂i (1 − π̂i )z> > −1
i (Z V̂Z) zi .
1+ exp(z>
i β̂)

Os gráficos de tDi e ĥii contra os valores ajustados π̂i podem revelar em-
parelhamentos discrepantes com algum tipo de influência nos resultados do
modelo.
De forma similar, a distância de Cook no caso emparelhado fica dada por

ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

em que
1 − π̂i
r̂Pi = p
π̂i (1 − π̂i )
é o resı́duo de Pearson. Tem-se que r̂P1 assume sempre valores não negativos.
O gráfico de LDi contra os valores ajustados π̂i pode revelar aqueles empare-
lhamentos com maior influência nas estimativas dos parâmetros. A geração
de envelope, contudo, somente pode ser feita através do modelo logı́stico
condicional.
Para ilustrar o ajuste no R, supor um estudo com k = 20 emparelhamentos
do tipo 1:1 e que foram observados os valores de duas covariáveis V 1 e V 2.
Os valores observados dos casos serão armazenados nos objetos v11 e v12 e
os valores observados dos controles nos objetos v21 e v22. O ajuste segue os
seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp ∼ z1+z2 - 1, family=binomial).
Pode-se analisar fit.cond em geral da mesma forma que é analisada a saı́da
de um modelo logı́stico linear. Por exemplo, as estimativas e os erros padrão,

275
como foi mostrado acima, coincidem com as estimativas e os erros padrão
obtidos pelo modelo logı́stico condicional.

3.10.2 Aplicação
Como aplicação será discutido a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histórico familiar e de atividades fı́sicas no desenvolvi-
mento de diabetes não dependente de insulina. 30 indivı́duos não diabéticos
foram emparelhados com 30 indivı́duos diabéticos não dependentes de insu-
lina pela idade e pelo sexo. A obesidade foi medida através do ı́ndice de
massa coporal (IMC), que é definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histórico familiar com diabetes (HF)
e as atividades fı́sicas (ATF) foram tratadas como sendo variáveis binárias
(HF=1 presença, HF=0 ausência; ATF=1 presença, ATF=0 ausência). Os
dados são descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
estão também no arquivo diabetes.txt. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histórico familiar (HF) e
atividades fı́sicas (ATF) para o i-ésimo indivı́duo diabético e por xi21 , xi22
e xi23 os valores dessas variáveis para o i-ésimo indivı́duo não diabético. A
função de verossimilhança do modelo logı́stico condicional será dada por

30 exp(zi1 β1 + zi2 β2 + zi3 β3 )
`(β) = Πi=1 ,
1 + exp(zi1 β1 + zi2 β2 + zi3 β3 )
em que zi1 = xi11 − xi21 , zi2 = xi12 − xi22 e zi3 = xi13 − xi23 .
As estimativas de máxima verossimilhança (erro padrão aproximado) são
dadas por β̂1 = 0, 090(0, 065), β̂2 = 0, 968(0, 588) e β̂3 = −0, 563(0, 541),
cujos nı́veis descritivos são, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indı́cios de efeito significativo apenas para o histórico familiar.

276
Tabela 3.22
Emparelhamento de 30 diabéticos não
dependentes de insulina (casos) e 30
não diabéticos (controles).
Casos Controles
Par IMC HF ATF IMC HF ATF
1 22,1 1 1 26,7 0 1
2 31,3 0 0 24,4 0 1
3 33,8 1 0 29,4 0 0
4 33,7 1 1 26,0 0 0
5 23,1 1 1 24,2 1 0
6 26,8 1 0 29,7 0 0
7 32,3 1 0 30,2 0 1
8 31,4 1 0 23,4 0 1
9 37,6 1 0 42,4 0 0
10 32,4 1 0 25,8 0 0
11 29,1 0 1 39,8 0 1
12 28,6 0 1 31,6 0 0
13 35,9 0 0 21,8 1 1
14 30,4 0 0 24,2 0 1
15 39,8 0 0 27,8 1 1
16 43,3 1 0 37,5 1 1
17 32,5 0 0 27,9 1 1
18 28,7 0 1 25,3 1 0
19 30,3 0 0 31,3 0 1
20 32,5 1 0 34,5 1 1
21 32,5 1 0 25,4 0 1
22 21,6 1 1 27,0 1 1
23 24,4 0 1 31,1 0 0
24 46,7 1 0 27,3 0 1
25 28,6 1 1 24,0 0 0
26 29,7 0 0 33,5 0 0
27 29,6 0 1 20,7 0 0
28 22,8 0 0 29,2 1 1
29 34,8 1 0 30,0 0 1
30 37,3 1 0 26,5 0 0

277
3
18
0.6

Residuo Componente do Desvio

2
Distancia de Cook

0.4

1
0.2

0
0.0

0 5 10 15 20 25 30 0 5 10 15 20 25 30

Indice Indice

Figura 3.17: Gráficos de diagnóstico para o modelo logı́stico condicional

aplicado aos dados sobre diabetes.

Na Figura 3.17 são apresentados alguns gráficos de diagnóstico em que

pode-se notar destaque para as observações #18 e #28 como possivelmente
influentes nas estimativas dos parâmetros. A eliminação do emparelhamento
#18 não muda os resultados inferenciais embora aumente a significância do
histórico familiar. Já a eliminação do emparelhamento #28 muda os resul-
tados inferenciais uma vez que o ı́ndice de massa corporal passa a ser signifi-
cante ao nı́vel de 10%. Nesse emparelhamento o controle tem histórico fami-
liar e atividade fı́sica enquanto o caso não apresenta as duas caracterı́sticas.
Além disso, o caso tem um ı́ndice de massa corporal menor do que o controle.

3.10.3 Emparelhamento 1:M

Para emparelhamentos do tipo 1:M (M ≥ 2) e k estratos a função de veros-
similhança (ver, por exemplo, Breslow e Day, 1980) para β = (β1 , . . . , βp )>

278
fica dada por
M
X
`(β) = Πki=1 {exp(x>
i0 β)/ exp(x>
i` β)}, (3.20)
`=0
cujo logaritmo assume a forma
k
X M
X
L(β) = log `(β) = [x>
i0 β − log{ exp(x>
i` β)}], (3.21)
i=1 `=0

em que xi0 = (xi01 , . . . , xi0p )> denota os valores observados para o caso e
xi` = (xi`1 , . . . , xi`p )> denota os valores observados para o `-ésimo controle.
A função de verossimilhança (3.21) coincide com a função de verossimi-
lhança do modelo de regressão de Cox (Cox, 1972; Cox e Oakes, 1974) quando
não há ocorrência de empates. Isso permite que os modelos logı́sticos con-
dicionais para emparelhamentos 1:M (M ≥ 2) sejam ajustados através de
programas desenvolvidos para o modelo de Cox.

3.11 Exercı́cios
1. Supor a seguinte tabela de contingência 2 × 2:

Fator
Doença A B
D y 1 y2
D̄ y 3 y4
n

e que a amostragem foi realizada segundo distribuição multinomial, isto

é, a função de probabilidade de Y = (Y1 , Y2 , Y3 , Y4 )> é dada por
n!
P (Y = y) = π1y1 π2y2 π3y3 π4y4 ,
y1 !y2 !y3 !y4 !
com y = (y1 , y2 , y3 , y4 )> , 4i=1 yi = n, 0 < πi < 1 e 4i=1 πi = 1. Sabe-
P P

se que E(Yi ) = nπi , Var(Yi ) = nπi (1 − πi ) e cov(Yi , Yj ) = −nπi πj , para

279
i 6= j. Mostre que as estimativas de máxima verossimilhança são dadas
yi
por π̂i = n
, i = 1, 2, 3, 4, com E(π̂i ) = πi , variâncias e covariâncias
π̂i (1−π̂i ) πi πj
Var(π̂i ) = n
e cov(π̂i , π̂j ) = − n
, para i 6= j.

2. A razão de chances sob amostragem multinomial é definida por ψ =

π1 π4 /π2 π3 . Considere log(ψ)
b e mostre, usando o método delta, que a
variância assintótica de log(ψ)
b fica dada por Var{log(ψ)}
b = [1/nπ1 +
1/nπ2 + 1/nπ3 + 1/nπ4 ]. Lembre que a variância assintótica pode ser
obtida através da expressão
>
∂ log(ψ) ∂ log(ψ)
Var{log(ψ)}
b = Var(π̂) ,
∂π ∂π
em que π = (π1 , π2 , π3 , π4 )> e Var(π̂) denota a matriz de variâncias e
covariâncias assintóticas de π̂. Neste caso as variâncias e covariâncias
assintóticas são as mesmas obtidas em (1).

3. A tabela abaixo resume um estudo de caso e controle em que foram con-

siderados como casos 200 homens adultos diagnosticados com câncer de
esôfago num hospital de uma determinada comunidade. Os controles
foram uma amostra de 775 homens adultos escolhidos aleatoriamente
da lista de eleitores da comunidade. Esses dois grupos foram classifica-
dos segundo os nı́veis alto (mais de 80g/dia) e baixo (até 80g/dia) do
fator exposição ao alcool.

Alto Baixo Total

Caso 96 104 200
Controle 109 666 775
Total 205 770 975

Verifique, através de um teste apropriado, se há associação entre o fator

de exposição e a doença. Encontre uma estimativa intervalar de 95%

280
para a razão de chances. Indique as suposições utilizadas e interprete
os resultados.

4. Considere a tabela 2 × 2 descrita abaixo.

Fator
Doença A B Total
D 3 7 10
D̄ 6 9 15
Total 9 16 25

Aplicar o teste exato de Fisher para testar H0 : ψ = 1 contra H1 :

ψ 6= 1. Obter inicialmente as probabilidades condicionais usando a
distribuição hipergeométrica central correspondente. Comparar com o
teste assintótico.

5. Os dados abaixo são provenientes de um estudo de seguimento cujo

objetivo foi avaliar a associação de duas técnicas cirúrgicas, A e B, e
a ocorrência de problemas graves pós-operatórios segundo duas faixas
de idade.

Faixa I Faixa II
Problema A B A B
Sim 6 7 7 4
Não 14 23 9 12

Obter estimativa intervalar de 95% para a razão de chances em cada

estrato. Teste a hipótese de homogeneidade das razões de chances. Se a
hipótese nula não for rejeitada ao nı́vel de 5%, aplicar o teste de Mantel-
Haenszel (com e sem correção para continuidade) para testar ausência
de associação entre técnica cirúrgica e ocorrência de problemas graves
pós-operatórios.

281
6. (Day e Byar, 1979). Suponha Yij ∼ B(nij , πij ) mutuamente indepen-
dentes, i, j = 1, 2 com as probabilidades πij sendo definidas por

πi1 πi2
log = αi − ∆ e log = αi + ∆.
1 − πi1 1 − πi2
Interprete α1 , α2 e ∆. Mostre que o teste de escore para testar H0 :
∆ = 0 contra H1 : ∆ 6= 0, coincide com o teste de Mantel-Hanszel
2
(XM H ) para testar H0 : ψ = 1 contra H1 : ψ 6= 1, em que ψ =

πi2 (1 − πi1 )/πi1 (1 − πi2 ), i = 1, 2.

ind
7. Supor um modelo binomial quadrático de dose-resposta, em que Yi ∼
B(ni , πi ), com g(πi ) = α + βxi + γx2i , i = 1, . . . , k. Como fica expressa
a estimativa DL c 100p ? E a variância assintótica de DL c 100p ?

ind
8. Supor um modelo binomial quadrático de dose-resposta, em que Yi ∼
B(ni , πi ), com g(πi ) = ηi = α + βxi + γx2i , i = 1, . . . , k. Assumir que
∂ 2 η/∂x2 < 0, ∀x. Qual a solução para ∂η/∂x = 0? Denotando essa
solução por x0 , interprete e encontre uma estimativa intervalar para x0 .

9. (Paula et al.,1988). Os conjuntos de dados apresentados nos arqui-

vos dose1.txt, dose2.txt e dose3.txt são provenientes de um experi-
mento de dose-resposta conduzido para avaliar a influência dos extratos
vegetais “aquoso frio de folhas”, “aquoso frio de frutos”e de um extrato
quı́mico, respectivamente, na morte de um determinado tipo de cara-
mujo. Para cada conjunto, ajuste um modelo logı́stico linear simples e
um modelo complementar log-log linear simples. Para o melhor ajuste
(use envelopes como critério), encontre um intervalo assintótico de 95%
para a dose letal DL50 , construa as bandas de confiança e verifique se
há indı́cios de sobredispersão aplicando um teste apropriado.

282
10. (Collett, 1991, p.127). Os dados abaixo são provenientes de um ex-
perimento desenvolvido para avaliar a germinação de um determinado
tipo de semente segundo três condições experimentais: nı́vel da tempe-
ratura (21o C, 42o C e 62o C); nı́vel da umidade (baixo, médio e alto) e
temperatura da germinação (11o C e 21o C). A tabela abaixo apresenta
o número de sementes que germinaram após cinco dias para cada 100
sementes submetidas a cada condição experimental.

Temperatura da Nı́vel da Nı́vel da Temperatura

Germinação Umidade 21o C 42o C 62o C
11o C baixo 98 96 62
11o C médio 94 79 3
11o C alto 92 41 1
o
21 C baixo 94 93 65
21o C médio 94 71 2
21o C alto 91 30 1

Assuma um modelo logı́stico para explicar o número de sementes que

germinaram. Aplique o método AIC para selecionar um modelo consi-
derando interações de 1a ordem. Interprete os resultados. Faça uma
análise de resı́duos com o modelo selecionado. Esses dados estão des-
critos no arquivo sementes.txt.

11. Mostre que a variância assintótica do estimador de máxima verossimi-

lhança não condicional da razão de chances numa tabela 2 × 2 é dada
por
2 1 1
VarA (ψ̃) = ψ + .
n1 π1 (1 − π1 ) n2 π2 (1 − π2 )
Lembre que: sob condições gerais de regularidade, os estimadores de
máxima verossimilhança são assintoticamente normais e não viesados
com variância assintótica igual à inversa da matriz de informação de
Fisher.

283
12. A tabela abaixo descreve o resultado de um experimento em que vários
pacientes foram submetidos a um de quatro nı́veis de exposição de um
tratamento particular e foi observado, após 12 meses, se o paciente foi
curado ou não curado.

Nı́vel de Exposição
Resultado E1 E2 E3 E4
Curado 20 16 12 5
Não-Curado 80 84 48 20

Seja Yi o número de pacientes curados dentre os ni submetidos ao nı́vel

de exposição Ei. Supor que Yi ∼ B(ni , πi ), i = 1, . . . , 4. Assunir o nı́vel
E1 como nı́vel de referência e teste a hipótese de homogeneidade das
razões de chances contra a alternativa de razões de chances diferentes.

13. Sejam Y1 e Y2 variáveis aleatórias independentes tais que Y1 ∼ B(n1 , π1 )

e Y2 ∼ B(n2 , π2 ). Seja RR = π1 /π2 o risco relativo. Aplique o método
delta para obter a variância assintótica de RR.
c Desenvolva o teste da
Wald para testar H0 : RR = 1 contra H1 : RR 6= 1. Qual a distribuição
nula assintótica do teste?

14. Sejam Y1 , . . . , Yn variáveis aleatórias mutuamente independentes tais

que Yi ∼ B(m, πi ), em que log{πi /(1 − πi )} = α. (i) Encontre a es-
timativa de máxima verossimilhança de α. (ii) Calcule Var(α̂). (iii)
Como fica o teste da razão de verossimilhanças para testar H0 : α = 0
versus H1 : α 6= 0? Qual a distribuição nula assintótica da estatı́stica
do teste?
ind
15. Supor Yij ∼ Be(µi ), 0 < µi < 1, para i = 1, 2 e j = 1, 2, . . . , r, em que
√ √
arcsen( µ1 ) = α + ∆ e arcsen( µ2 ) = α − ∆. Como fica a matriz X?
ˆ e as respectivas variâncias assintóticas, além de Cov(α̂, ∆).
Obter α̂ e ∆ ˆ

284
Obter a estatı́stica do teste de escore para testar H0 : ∆ = 0 contra
H1 : ∆ 6= 0. Qual a distribuição nula assintótica da estatı́stica do teste?
d √ 1 du
Use o resultado: dx
arcsen{u(x)} = 1−u2 dx
.

16. (Lawless, 1982, p.389; Efron, 1988). Considere uma aplicação de re-
gressão logı́stica em análise de sobrevivência. Seja πi (t) a probabilidade
de um equipamento do tipo i falhar no intervalo It = (t − 1, t] dado que
o mesmo não falhou até o tempo t − 1. Seja Yit o número de falhas no
intervalo It e seja nit o número de equipamentos que não falharam até
o tempo t − 1 no i-ésimo grupo. Assumir que Yit ∼ B(nit , πi (t)) e que
as falhas são independentes. Ajustar um modelo logı́stico do tipo

πi (t)
log = αi + βi t + γi t2 (3.22)
1 − πi (t)
ao seguinte conjunto de dados:

Tipo A Tipo B Tipo C

Tempo n1t y1t n2t y2t n3t y3t
1 42 4 50 6 48 11
2 38 3 44 11 37 10
3 35 3 32 10 27 12
4 31 5 22 8 15 8
5 26 6 12 6 6 4

Apresente o gráfico com as curvas ajustadas e os valores observados.

Tente selecionar um submodelo apropriado. Verifique a adequação do
modelo adotado através de gráficos de resı́duos. Interprete os resulta-
dos. Os dados estão descritos no arquivo equipamentos.txt.

17. (Hosmer e Lemeshow, 1989, Cap.7). No arquivo matched.txt estão os

dados de um estudo de caso-controle com emparelhamentos do tipo 1:1,
em que os casos foram mulheres com diagnóstico confirmado de tumor

285
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perı́odo dos casos. A variável de emparelhamento foi
a idade da paciente na época da entrevista AGMT. Escolha três variáveis
do arquivo mencionado e verifique através de uma regressão logı́stica
condicional a associação entre as variáveis escolhidas e o diagnóstico
da doença (sim=1, não=0) representado pela variável FNDX. Interprete
as estimativas dos parâmetros do modelo ajustado. Faça uma análise
de diagnóstico. Obsevação: caso você escolha alguma variável com
observações perdidas, exclua das análises as pacientes correspondentes.

18. Considere uma aplicação de regressão logı́stica em transportes. Seja

πi (t) a probabilidade de um caminhão do tipo i ser desativado durante
o ano t dado que o mesmo não foi desativado durante o ano t − 1.
Assuma que durante o ano t foram desativados yit caminhões dentre
os nit existentes no começo do ano, i = 1, 2 e t = 1, . . . , k. Supor que
Yit ∼ B(nit , πi (t)) e que são mutuamente independentes. Considere o
modelo

π1 (t) π2 (t)
log = γt e log = γt + β.
1 − π1 (t) 1 − π2 (t)
O que significa testar H0 : β = 0? Qual é a matriz X do modelo?
Como fica Var(β̂)? Mostre que a estatı́stica do teste de escore para
testar H0 : β = 0 contra H1 : β 6= 0 pode ser expressa na forma
( k )2 X k
X yt n2t yt n1t n2t (nt − yt )
ξSR = y2t − / 3
,
t=1
n t t=1
n t

em que nt = n1t + n2t e yt = y1t + y2t . Qual é a distribuição nula

assintótica da estatı́stica do teste?

19. Sejam Y1 , . . . , Yk variáveis aleatórias independentes tais que a função

286
de probabilidade de Yi seja dada por
1 1
ψiyi

yi 1−yi
f (yi ; ψi ) = P1 1 1 t ,
t=0 t 1−t ψi

em que yi = 0, 1. Supor a parte sistemática log(ψi ) = β. (i) Encontre a

estimativa de máxima verossimilhança de β; (ii) encontre a informação
de Fisher para β; (iii) como fica o teste de escore para testar H0 : β = 0
contra H1 : β 6= 0? Qual a distribuição nula assintótica
q da estatı́stica
do teste? (iv) Expresse o resı́duo ri = (yi − µ̂i )/ V̂ar(Yi ) em função
de yi e β̂; (v) Como você faria para gerar valores de Yi da distribuição
dada acima?

20. (Agresti, 2013, p.408). Considere a tabela abaixo em que um grupo

de gestantes fumantes foi classificado segundo os fatores: idade (< 30
ou 30 ou +), número de cigarros consumidos por dia (< 5 ou 5 ou +),
tempo de gestação (≤ 260 dias ou > 260 dias) e a situação da criança
(sobreviveu ou não sobreviveu).

Duração da Sobrevivência
Idade No. de cigarros Gestação Não Sim
< 30 <5 ≤ 260 50 315
> 260 24 4012
5+ ≤ 260 9 40
> 260 6 459
30+ <5 ≤ 260 41 147
> 260 14 1594
5+ ≤ 260 4 11
> 260 1 124

Ajustar um modelo logı́stico linear em que a resposta é a sobrevivência

da criança (sim=1, não=0). Considere até interações de 1a ordem.
Verifique a adequação do modelo e interprete os resultados através de

287
estimativas intervalares para as razões de chances. Esss dados estão
descritos no arquivo gestantes.txt.

21. (Agresti, 2013, p.205) Construir o logaritmo da função de verossimi-

lhança de um modelo logı́stico log{π(x)/(1 − π(x))} = α + βx de duas
binomiais independentes, em que tem-se y0 sucessos em n0 ensaios para
x = 0 e y1 sucessos em n1 ensaios para x = 1. Mostre que a estimativa
de máxima verossimilhança β̂ coincide com log(razão de chances).

22. (Everitt, 1994). Os dados do arquivo leuce.txt referem-se a um es-

tudo com 51 pacientes adultos, previamente diagnosticados com um
tipo agudo de leucemia, que receberam um tipo de tratamento e foi
verificado após um certo perı́odo a eficiência ou não do tratamento.
Algumas variáveis explicativas pré-tratamento foram também observa-
das. As variáveis em estudo são as seguintes: (i) idade do paciente
na época do diagnóstico (em anos), (ii) mancha diferencial da doença
(em %), (iii) infiltração na medula (em %), (iv) células com leucemia
na medula (em %), (v) malignidade da doença (×103 ), (vi) tempera-
tura máxima antes do tratamento (×10o F ), (vii) tratamento (1: sa-
tisfatório, 0: não satisfatório), (viii) tempo de sobrevivência após o
diagnóstico (em meses) e (ix) situação (1: sobrevivente, 0: não sobre-
vivente). Considere um modelo logı́stico linear para explicar a probabi-
lidade de eficiência do tratamento dadas as seis variáveis explicativas.
Selecionar as variáveis explicativas bem como as interações de primeira
ordem através do método stepwise. Usar PE = PS = 0, 20. Fazer uma
análise de diagnóstico com o modelo selecionado e interpretar algumas
razões de chances.

23. No arquivo heart.txt (Hosmer et al., 2013, Cap.1) são descritos os

288
dados de n = 100 pacientes com ausência (HD=0) e evidência (HD=1)
de doença arterial coronariana, além da idade (Age) do paciente e a
faixa etária (FE). Para ler os dados use o comando

heart = read.table(‘‘heart.txt’’, header=TRUE)

Fazer uma análise descritiva dos dados, por exemplo boxplots robustos
da idade para cada um dos grupos, comente. Construa uma tabela de
contigência com as frequências relativas de pacientes com evidência e
ausência da doença segundo as faixas etárias, comente. Ajustar um
modelo logı́stico para explicar a probabilidade Pr(HD=1) dado Age.
Comente as estimativas. Fazer uma análise de diagnóstico como gráfico
de resı́duos e distância de Cook. Avalie o impacto das observações
destacadas como possivelmente influentes. Construa uma banda de
confiança de 95% para Pr(HD=1) dado Age. Encontre uma estimativa
intervalar de 95% para a razão de chances entre um paciente com Age+1
e um paciente com Age ter presença da doença. Construa a curva ROC
e estabeleça um critério para classificar pacientes como suspeitos de
terem presença da doença. Para esse critério obter as taxas de positivo
positivo e de falso positivo. Ajustar o modelo pelo GAMLSS através
dos comandos

y.heart = cbind(HD, 1-HD)

ajuste = gamlss(y.heart ∼ Age, family=BI)

plot(ajuste)

rqres.plot(ajuste, howmany=8, ylim.all=1)

rqres.plot(ajuste, howmany=40, plot="all")

Comente os gráficos de resı́duos.

289
24. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivı́duos consi-
derados idosos são submetidos a um exame psiquiátrico para avaliar a
ocorrência ou não de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicológico feito previamente esteja associado com
a ocorrência ou não do sintoma. Os dados são apresentados abaixo
(score: escala no exame psicológico e resp: ocorrência (resp=1) ou
não ocorrência (resp=0) do sintoma). Esses dados estão descritos no
arquivo caduquice.txt.

Score Resp Score Resp Score Resp Score Resp Score Resp
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0

Ajustar um modelo logı́stico para explicar a probabilidade de ocorrência

do sintoma em função do escore. Interpretar os resultados. Calcule a
estatı́stica de Hosmer-Lemeshow. Faça uma análise de diagnóstico com
o modelo ajustado.

25. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.txt

estão os dados referentes à distribuição de duas espécies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perı́odo do dia (manhã,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)

290
largura da madeira (estreita, larga) e (iv) local de ocupação (claro, es-
curo). Supor que o número de lagartos encontrados da espécie grahani
tenha distribuição binomial. Responda às seguintes questões: (i) pro-
ponha um modelo logı́stico (sem interação) para explicar a proporção
de lagartos da espécie grahani. Ajuste o modelo e verifique através do
teste da razão de verossimilhanças quais efeitos são significativos ao
nı́vel de 10%. (ii) Verifique separadamente se cada interação de pri-
meira ordem pode ser incluı́da no modelo ao nı́vel de 5%. Construa o
ANODEV.(iii) Interprete os resultados tentando falar de uma forma não
técnica sobre as preferências dos dois tipos de lagarto.

26. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a

incidência de dengue numa determinada cidade da costa mexicana, um
total de 196 indivı́duos, escolhidos aleatoriamente em dois setores da
cidade, respondeu às seguintes perguntas: (i) idade, idade do entre-
vistado (em anos), (ii) nivel, nı́vel sócio-econômico (nivel=1, nı́vel
alto; nivel=2, nı́vel médio; nivel=3, nı́vel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou não (caso=0)
a doença recentemente. Um dos objetivos do estudo é tentar prever
ou explicar a probabilidade de um indivı́duo contrair a doença dadas
as variáveis explicativas idade, nivel e setor. Os dados estão des-
critos no arquivo dengue.txt. Tente selecionar um modelo através da
aplicação do método AIC considerendo interações de 1a ordem. Faça
uma interpretação do modelo selecionado (através de razões de chances)
e faça uma análise de diagnóstico do modelo selecionado.

27. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.txt são apre-

sentados dados referentes a 78 famı́lias com pelo menos seis filhos cada

291
uma. Na primeira coluna tem-se a classificação dos olhos dos pais se-
gundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificação dos olhos dos avós segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: três claros e um castanho, 5:
três claros e um escuro, 6: um claro e três castanhos, 7: um escuro
e três castanhos, 8: um claro e três escuros, 9: um castanho e três
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o número de filhos
na famı́lia e na última coluna o número de filhos com olhos claros. Seja
Yi o número de filhos com olhos claros pertencentes à i-ésima famı́lia.
Assuma inicialmente que Yi ∼ B(ni , πi ), i = 1, . . . , 78. Responda às
seguintes questões:

(i) Ajustar inicialmente um modelo logı́stico linear apenas com o fator

‘cor dos olhos dos pais’. Construir gráficos de resı́duos. Identificar
os pontos aberrantes. Quais as mudanças nos resultados com a
eliminação desses pontos. Há indı́cios de sobredispersão? Ajustar
um modelo de quase-verossimilhança com e sem os pontos aber-
rantes. Comente.

(ii) Incluir agora o fator cor dos olhos dos avós. Refazer todos os
passos acima. Comente os resultados.

28. No arquivo pulso.txt são descritas as variáveis pulsação em repouso

(1: normal, 2: alta), hábito de fumar (1: sim, 2: não) e peso (em kg) de
92 adultos do sexo masculino. Ajustar um modelo logı́stico linear para

292
explicar a probabilidade de pulsação alta dadas as demais variáveis.
Faça uma análise de diagnóstico. Apresente as curvas ajustadas para
cada grupo de hábito de fumar com as respectivas bandas de confiança
de 95%.

29. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um

experimento em que a toxicidade de três concentrações (R-rotenine,
D-deguelin e M-mistura, essa última como uma mistura das duas pri-
meiras) é investigada. As concentrações foram testadas em insetos e
observado para cada dose o número de insetos mortos. Os dados estão
descritos no arquivo morgan.txt.

Concentração Dose Expostos Mortos

R 0,41 50 6
R 0,58 48 16
R 0,71 46 24
R 0,89 49 42
R 1,01 50 44

D 0,71 49 16
D 1,00 48 18
D 1,31 48 34
D 1,48 49 47
D 1,61 50 47
D 1,70 48 48

M 0,40 47 7
M 0,71 46 22
M 1,00 46 27
M 1,18 48 38
M 1,31 46 43
M 1,40 50 48

Supor inicialmente o modelo log{πi (x)/(1 − πi (x))} = αi + βi x, i =

293
1, 2, 3, em que πi (x) é a proporção esperada de insetos mortos sob a
concentração i e dose x. Faça uma análise de diagnóstico e verifique
se há indı́cios de sobredispersão aplicando um teste apropriado. Teste
a hipótese de paralelismo com todos os pontos e sem as observações
discrepantes. Comente.

30. Considere o arquivo credit da biblioteca Fahrmeir do R, em que são

descritas as seguintes variáveis referentes a empréstimos concedidos a
n = 1000 clientes de um banco alemão:

• Y: classificação do cliente com relação ao empréstimo (bom paga-

dor, mal pagador)

• Cuenta: qualidade da conta do cliente (sem classificação, boa,

ruim)

• Mes: duração do empréstimo em meses

• Ppag: informação prévia do cliente (bom pagador, mal pagador)

• Uso: finalidade do empréstimo (privado, profissional)

• DM: valor do empréstimo em DM

• Sexo: gênero do cliente (masculino, feminino)

• Estc: estado civil do cliente (vive sozinho, não vive sozinho).

Para disponibilizar e visualizar um resumo dos dados use na sequência

os seguintes comandos do R:

require(Fahrmeir)

attach(credit)

summary(credit).

294
Fazer inicialmente uma análise descritiva procurando relacionar a variável
resposta com as demais variáveis explicativas. Use tabelas de con-
tingência e boxplots. Comente. Transforme a variável resposta em
variável numérica binária. Por exemplo, usando os comandos

resp = as.numeric(Y)

resp = abs(resp-2).

Ajustar um modelo logı́stico binomial no GAMLSS para explicar a

probabilidade do cliente ser um bom pagador dadas as demais variáveis
explicativaas. Por exemplo, através do comando

fit1.credit = gamlss(resp ∼ Cuenta + Mes + Ppag + Uso + DM

+ Sexo + Estc, family=BI).

Use o comando stepGAIC para selecionar um submodelo

fit2.credit = stepGAIC(fit1.credit).

Fazer uma análise de resı́duos através dos comandos

plot(fit2.credit)

rqres.plot(fit2.credit, howmany=8, type="wp")

para o submodelo selecionado. Construir o gráfico da distância de

Cook. Comente. Apresentar estimativas intervalares de 95% para as
razões de chances. Contruir curva ROC. Comente.

295
Capı́tulo 4

Modelos para Dados de

Contagem

4.1 Introdução
Neste capı́tulo serão apresentados alguns métodos para a análise de dados
de contagem. Inicialmente são apresentados os principais métodos tradici-
onais e em seguida a modelagem através de regressão. Duas situações de
interesse são consideradas. Na primeira delas, muito comum em estudos de
seguimento, as unidades amostrais são classificadas segundo os nı́veis de cate-
gorias, tais como sexo, faixa etária e tipo de tratamento e são acompanhadas
por um perı́odo fixo pré-estabelecido ou até a ocorrência de um determinado
evento. Tem-se, portanto, um tempo particular de observação para cada
unidade amostral, o qual deverá ser incorporado nas análises. Na segunda
situação, o interesse é estudar o número de ocorrências de um evento particu-
lar segundo os nı́veis de categorias, de modo que seja possı́vel construir uma
tabela tı́pica de contingência. Aqui, a suposição de distribuição de Poisson
para o número de ocorrências do evento em cada configuração de nı́veis das
categorias leva a resultados equivalentes à suposição de distribuição multi-
nomial para as caselas da tabela de contingência formada. Assim, muitas

296
tabelas de contingência que seriam originalmente analisadas através de um
modelo log-linear multinomial podem ser analisadas, alternativamente, por
um modelo log-linear de Poisson. A vantagem disso é o fato do modelo log-
linear de Poisson ser ajustado mais facilmente do que o modelo log-linear
multinomial, além da possibilidade de todos os procedimentos desenvolvidos
para os MLGs serem diretamente estendidos para o modelo log-linear de Pois-
son. Não é discutido, contudo, aspectos particulares na análise de tabelas de
contingência, tais como testes ou modelos multinomiais mais especı́ficos.
Discute-se também neste capı́tulo o fenômeno de sobredispersão que pode
ocorrer com dados de contagem quando a variância da variável resposta é
maior do que a média. Nesses casos, a suposição de distribuição de Poisson
para a resposta é inadequada sendo necessário o uso de modelos alternati-
vos. O modelo de quase-verossimilhança com parâmetro de dispersão leva
às mesmas estimativas do modelo de Poisson, porém corrige a variabilidade
das estimativas. Em especial será dada atenção aos modelos com resposta
binomial negativa, os quais permitem uma análise mais completa dos dados
do que os modelos de quase-verossimilhança. Finalmente, será abordado de
forma mais sucinta os modelos de Poisson e binomial negativo com excesso
de zeros.

4.2 Métodos clássicos: uma única tabela 2 × 2

Considere inicialmente a tabela abaixo resultante de um estudo de segui-
mento, em que indivı́duos expostos e não expostos são acompanhados ao
longo do tempo por um perı́odo fixo ou até a ocorrência de um evento.

E Ē
Casos y1 y2
Pessoas-Tempo t1 t2

297
Assumir que Y1 e Y2 seguem, respectivamente, distribuição de Poisson com
parâmetros λ1 e λ2 , em que λ1 é a taxa média de casos (por unidade de
tempo) no grupo exposto e λ2 é a taxa média de casos no grupo não exposto.
O parâmetro de interesse nesse tipo de estudo é a razão entre as taxas,
λ1
denotada por ψ = λ2
. O objetivo principal é fazer inferências a respeito do
parâmetro ψ.

4.2.1 Modelo probabilı́stico não condicional

A função de probabilidade conjunta de (Y1 , Y2 ) fica então dada por
e−λ1 t1 (λ1 t1 )y1 e−λ2 t2 (λ2 t2 )y2
f (y1 , y2 ; λ1 , λ2 ) =
y1 ! y2 !
= exp{−ψλ2 t1 − λ2 t2 + y1 log(ψ) + (y1 + y2 ) log(λ2 ) +
y1 log(t1 ) + y2 log(t2 ) − log(y1 !) − log(y2 !)},

e consequentemente o logaritmo da função de verossimilhança pode ser ex-

presso na forma

L(ψ, λ2 ) = −ψλ2 t1 − λ2 t2 + y1 log(ψ) + (y1 + y2 ) log(λ2 ) +

y1 log(t1 ) + y2 log(t2 ) − log(y1 !) − log(y2 !).

Pode-se mostrar que a maximização de L(ψ, λ2 ) leva às estimativas de máxima

y2 y1 t2
verossimilhança λ̃2 = t2
e ψ̃ = y2 t1
. Para obter a variância assintótica
VarA (ψ̃) pode-se aplicar o método delta
>
∂ψ ∂ψ
VarA (ψ̃) = VarA (λ̃) ,
∂λ ∂λ
n o
> λ1 λ2
em que [∂ψ/∂λ] = [1/λ2 , −ψ/λ2 ] e VarA (λ̃) = diag ,
t1 t2
com λ =
>
(λ1 , λ2 ) . Daı́ obtém-se facilmente

ψ 1 ψ
VarA (ψ̃) = + .
λ2 t1 t2

298
4.2.2 Modelo probabilı́stico condicional
Pelo teorema da fatorização tem-se que as estatı́sticas (Y1 , Y1 + Y2 ) são sufici-
entes minimais para (ψ, λ2 ). Logo, condicionando em Y1 + Y2 = m, obtém-se

f (a|m; ψ) = P r{Y1 = a | Y1 + Y2 = m}
P r{Y1 = a, Y2 = m − a}
=
P r{Y1 + Y2 = m}
P r{Y1 = a}P r{Y2 = m − a}
=
P r{Y1 + Y2 = m}
e−λ1 t1 (λ1 t1 )a e−λ2 t2 (λ2 t2 )(m−a)
= a!e−λ1 t1 −λ2 t2 (λ t +λ t )m (m−a)!
1 1 2 2
m!
m (λ1 t1 )a (λ2 t2 )(m−a)

=
a (λ1 t1 + λ2 t2 )m
a (m−a)
m λ1 t1 λ2 t2
=
a λ1 t1 + λ2 t2 λ1 t1 + λ2 t2

m a
= π (1 − π)(m−a) ,
a
em que π = ψt1 /{t2 + ψt1 } = ψ/{t2 /t1 + ψ}, sendo π a probabilidade de um
caso ter sido exposto. Equivalentemente, tem-se que
πt2
ψ= .
(1 − π)t1
a y1 at2
Mostra-se facilmente que π̂ = m
= y1 +y2
e consequentemente que ψ̂ = bt1
=
y1 t2
y2 t1
, que coincide com a estimativa ψ̃ (não condicional). Além disso, segue a
π(1−π)
variância assintótica VarA (π̂) = m
e portanto aplicando o método delta
obtém-se a variância assintótica
2 2
dψ t2 π
VarA (ψ̂) = VarA (π̂) = ,
dπ t1 m(1 − π)3
t1
em que dψ/dπ = t2
(1−π)−2 .
Após algumas manipulações algébricas mostra-
h i2
se que ṼarA (ψ̃) = V̂arA (ψ̂) = tt21 y1 (yy13+y2 ) . Assim, as inferências para ψ são
2

299
equivalentes sob os modelos não condicional e condicional, diferentemente das
inferências para a razão de chances descritas no Capı́tulo 3. A justificativa é
que no caso do produto de duas binomiais independentes a estatı́stica Y1 + Y2
é suficiente para o parâmetro π2 , porém não é ancilar para ψ. Logo, há
perda de informação para ψ com a distribuição condicional (hipergeométrica
não central). Mesmo assim muitas inferências para a razão de chances são
desenvolvidas sob o modelo condicional, em particular o teste exato de Fisher.
No caso do produto de duas Poissons independentes a estatı́stica Y1 + Y2 é
suficiente para λ2 e ancilar para a razão de taxas ψ. Assim, as inferências
para os modelos não condicional e condicional são equivalentes. Fica-se então
com o modelo condicional que é mais siomples.

Inferência exata
Aqui o interesse é testar H0 : ψ = 1 contra H1 : ψ 6= 1, que é equivalente a
testar H0 : π = π0 contra H1 : π 6= π0 , em que π0 = t1 /(t1 + t2 ).
O nı́vel descritivo exato para testar a hipótese H0 contra H1 é dado por
P = 2min{PI , PS }, em que
a
X m x
PI = π0 (1 − π0 )(m−x)
x=0
x

e m
X m x
PS = π0 (1 − π0 )(m−x) .
x=a
x
Pode-se usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressar a distribuição binomial em função de uma distribuição Fu,v , ou
seja uma distribuição F com u e v graus de liberdade. Supondo Y ∼ B(n, p),
tem-se que

P r(Y ≥ y) = P r{F2y,2(n−y+1) < (n − y + 1)p/y(1 − p)}, (4.1)

300
com 0 < p < 1. Daı́ tem-se, sob H0 : π = π0 , que
m
X m x
PI = 1 − π0 (1 − π0 )(m−x)
x=a+1
x

(m − a − 1 + 1)π0
= 1 − P r Fu,v <
(a + 1)(1 − π0 )
= 1 − P r {Fu,v < bt1 /(a + 1)t2 } ,

com b = m−a, u = 2(a+1) e v = 2b. Similarmente, obtém-se sob H0 : π = π0 ,

que
PS = P r{Fu,v < (b + 1)t1 /at2 },

com u = 2a e v = 2(b + 1). De (4.1) tem-se que que os limites exatos de

confiança para p, para um coeficiente de confiança (1 − α), são tais que
α X
= P r(Y = t; p̂I ) = P r(Y ≥ y; p̂I )
2 t≥y

e
α X
= P r(Y = t; p̂S ) = 1 − P r(Y ≥ y + 1; p̂S ).
2 t≤y

Logo, usando (4.1) obtém-se

1
p̂I = n−y+1
1+ yF2y,2(n−y+1) (α/2)

e
1
p̂S = n−y ,
1+ (y+1)F2(y+1),2(n−y) (1−α/2)

em que Fu,v (α/2) denota o quantil α/2 de uma distribuição F com u e v

graus de liberdade. Portanto, tem-se para π, fazendo y = a e m = a + b, o
limite inferior exato de confiança
1
π̂I = b+1
1+ aFu,v (α/2)
= aFu,v (α/2)/{b + 1 + aFu,v (α/2)},

301
em que u = 2a e v = 2(b + 1). De forma análoga obtém-se o limite superior
exato
1
π̂S = b
1+ aFu,v (1−α/2)
= aFu,v (1 − α/2)/{b + aFu,v (1 − α/2)},

em que u = 2(a + 1) e v = 2b. A estimativa de máxima verossimilhança para

ψ considerando a distribuição condicional fica dada por
π̂t2 y1 t2
ψ̂ = = .
(1 − π̂)t1 y2 t1
Portanto, a estimativa intervalar exata de coeficiente de confiança (1 − α)
para ψ fica denotada por [ψ̂I , ψ̂S ], em que
π̂I t2 π̂S t2
ψ̂I = e ψ̂S = .
(1 − π̂I )t1 (1 − π̂S )t1

Inferência assintótica
Embora a inferência exata para a razão de taxas tenha um custo computa-
cional bem menor do que para a razão de chances, tem-se também a opção
da inferência assintótica para a razão de taxas quando λ1 e λ2 são grandes
no modelo não condicional ou quando m é grande no modelo condicional.
Similarmente ao caso da razão de chances a aproximação para a distribuição
normal é mais rápida para log(ψ̃) do que para ψ̃. Assim, aplicando o método
delta tem-se que
2
d log(ψ)
VarA {log(ψ̃)} = VarA (ψ̃)
dψ
1 1
= + ,
λ1 t1 λ2 t2
d log(ψ) 1
em que dψ
= ψ
. Daı́ segue que uma estimativa intervalar assintótica de
coeficiente de confiança (1 − α) para ψ fica dada por
q
exp[log(ψ̃) ± z(1−α/2) Ṽar{log(ψ̃)}],

302
1 1
em que Ṽar{log(ψ̃)} = y1
+ y2
. O teste de Wald para testar H0 : ψ = 1
contra H1 : ψ 6= 1 fica dado por

{log(ψ̃)}2
ξW =
Ṽar{log(ψ̃)}

que segue assintoticamente sob H0 distribuição qui-quadrado com 1 grau de

liberdade.

Aplicação
Considere, como aplicação, os dados apresentados em Boice e Monson (1977)
referentes a um estudo de seguimento com dois grupos de mulheres com
tuberculose, um grupo exposto a radiação e o outro grupo não exposto,
sendo observado ao longo do tempo o desenvolvimento ou não de câncer de
mama. Os resultados desse estudo são resumidos na Tabela 4.1.

Tabela 4.1
Casos de câncer de mama em mulheres
com tuberculose.
Radiação
Exposto Não Exposto
Casos 41 15
Pessoas-anos 28010 19017

Tem-se, portanto, que a = 41, b = 15, t1 = 28010 e t2 = 19017. Os nı́veis

descritivos correspondentes ao teste exato para testar H0 : ψ = 1 contra
H1 : ψ 6= 1 ficam dados por

PI = 1 − P r{F84,30 < 0, 526} = 0, 988

e
PS = P r{F82,32 < 0, 575} = 0, 026,

303
e obtém-se o nı́vel descritivo P= 0, 052 que indica pela rejeição de H0 . Isso
quer dizer que há indı́cios de que mulheres com tuberculose e expostas a
radiação têm uma chance maior de desenvolvimento de câncer de mama do
que mulheres não expostas com a mesma doença. Uma estimativa pontual
0,732×19017
de máxima verossimilhança para ψ fica dada por ψ̂ = 0,268×28010
= 1, 86, que
corresponde à estimativa da razão de médias (por ano) de casos de câncer de
mama entre mulheres com tuberculose que foram expostas à radiação e mu-
lheres com tuberculose não expostas à radiação. Uma estimativa intervalar
exata de de 95% para π tem os limites

π̂I = 41 × F84,30 (0, 025)/{16 + 41 × F84,30 (0, 025)}

= 0, 595 e
π̂S = 41 × F82,32 (0, 975)/{15 + 41 × F82,32 (0, 975)}
= 0, 836,

em que F84,30 (0, 025) = 0, 574 e F82,32 (0, 975) = 1, 866. Desses limites obtém-
se os limites exatos de confiança para a razão de tazas ψ
π̂I t2 0, 595 × 19017
ψ̂I = =
(1 − π̂I )t1 (1 − 0, 595) × 28010
= 0, 997 e
π̂S t2 0, 836 × 19017
ψ̂S = =
(1 − π̂S )t1 (1 − 0, 836) × 28010
= 3, 461.

Esse intervalo [0, 997; 3, 461] cobre ligeiramente o valor 1 uma vez que o nı́vel
descritivo do teste H0 : ψ = 1 contra H1 : ψ 6= 1 foi P= 0, 052.

4.2.3 Estratificação: k tabelas 2 × 2

Se o dados são estratificados segundo um fator com k nı́veis, cada tabela
resultante pode ser expressa na forma abaixo.

304
E Ē
Casos y1i y2i
Pessoas-Tempo t1i t2i

Tem-se aqui as suposições Y1i ∼ P(λ1i t1i ) e Y2i ∼ P(λ2i t2i ), i = 1, . . . , k.

Consequentemente, a distribuição condicional de Y1i dado Y1i + Y2i = mi é
uma B(mi , πi ), em que πi = ψi /{t2i /t1i + ψi }, ou equivalentemente
πi t2i
ψi = .
(1 − πi )t1i
Se há interesse em testar a homogeneidade das razões de taxas H0 : ψ1 =
. . . = ψk contra a alternativa de pelo menos duas diferentes, a estimativa
comum ψ̂, sob H0 , sai do sistema de equações
k
X k
X
y1i = ψ̂ mi /{ψ̂ + t2i /t1i },
i=1 i=1

que tem no máximo uma raiz positiva. Alternativamente, de forma análoga

aos estudos de caso e controle, pode-se construir uma versão da estimativa
de Mantel-Haenszel dada por
Pk
y1i t2i /ti
ψ̂M H = Pi=1
k
,
i=1 y2i t1i /ti

em que ti = t1i + t2i . Segundo Breslow e Day (1987), ψ̂M H é consistente e

assintoticamente normal com variância assintótica estimada por

ψ̂M H ki=1 t1i t2i mi /t2i

P
V̂arA (ψ̂M H ) = nP o2 .
k t1i t2i mi
i=1 ti (t1i +ψ̂M H t2i )

A estatı́stica sugerida para testar H0 é definida por

k
(y1i − ŷ1i )2 (y2i − ŷ2i )2
X
2
X = + ,
i=1
ŷ1i ŷ2i

305
em que ŷ1i = mi π̂i , ŷ2i = mi (1 − π̂i ) e

ψ̂M H
π̂i = .
t2i /t1i + ψ̂M H
A distribuição nula assintótica de X 2 é uma qui-quadrado com k − 1 graus de
liberdade. Quando a hipótese de homogeneidade das razões de chances não
é rejeitada, pode-se testar a hipótese de associação entre o fator e a doença
levando em conta o efeito de estrato. Isso equivale a testar H0 : ψ = 1 contra
H1 : ψ 6= 1. O teste qui-quadrado apropriado, com correção de continuidade,
é dado por
Pk
y1i − ki=1 E(Y1i |mi , ψ = 1)| − 0, 5}2
P
2 {| i=1
X = Pk
i=1 Var(Y1i |mi , ψ = 1)
{| i=1 y1i − ki=1 mi t1i /(t1i + t2i )| − 0, 5}2
Pk P
= Pk . (4.2)
2
i=1 mi t1i t2i /(t1i + t2i )

Para ni grandes a distribuição nula assintótica da estatı́stica X 2 é uma qui-

quadrado com (k − 1) graus de liberdade.
A distribuição assintótica de log(ψ̂) converge mais rapidamente para a
distribuição normal do que a distriuição assintótica de ψ̂. Assim, quando a
hipótese de homogeneidade de razão de taxas não é rejeitada é mais conveni-
ente, similarmente à razão de chances, obter uma estimativa intervalar para
log(ψ) comum e daı́ extrair a estimativa intervalar de ψ comum nos estratos.
Aplicando-se o método delta, tem-se que a variância assintótica de log(ψ̂M H )
é estimada por

−2
V̂arA {log(ψ̂M H )} = ψ̂M H V̂arA (ψ̂M H ).

Assim, um intervalo assintótico de confiança com coeficiente (1 − α) para

log(ψ) fica dado por
1
−1
log(ψ̂M H ) ± z(1−α/2) ψ̂M H {V̂arA (ψ̂M H )}
2

306
levando aos limites de confiança superior e inferior dados abaixo
q
−1
ψ̂I = exp{log(ψ̂M H ) − z(1−α/2) ψ̂M H V̂arA (ψ̂M H )} e
q
−1
ψ̂S = exp{log(ψ̂M H ) + z(1−α/2) ψ̂M H V̂arA (ψ̂M H )}.

Esse intervalo deve ser construı́do quando a aplicação da estatı́stica (4.2)

levar à rejeição da hipótese H0 : ψ = 1.

Aplicação
Como ilustração, na Tabela 4.2 tem-se um resumo do número de avarias
causadas por ondas em navios de carga e os respectivos tempos de exposição
(em navios-meses) para dois tipos de navios e dois perı́odos de operação.

Tabela 4.2
Número de avarias por ondas em navios
de carga segundo dois tipos de navios
e dois perı́odos de operação.
Perı́odo de Tipo de navio
operação Tipo E Tipo A
P1 avarias 12 9
n-meses 1991 2734

P2 avarias 20 33
n-meses 3140 6755

As estimativas pontuais para a razão de taxas entre os tipos E e A são,

respectivamente, dadas por
12 × 2734 20 × 6755
ψ̂1 = = 1, 83 e ψ̂2 = = 1, 30.
9 × 1991 33 × 3140
Para obter a estimativa intervalar de 95% para a razão de taxas entre os
tipos E e A para o perı́odo 1 de operação é preciso que calcular inicialmente

307
as probabilidades

π̂1I = 12F24,20 (0, 025)/{10 + 12F24,20 (0, 025)}

= 0, 340 e
π̂1S = 12F26,18 90, 975)/{9 + 12F26,18 (0, 975)}
= 0, 768.

Logo, obtém-se a estimativa intervalar de 95%

π̂1I t12 0, 340 × 2734
ψ̂1I = = = 0, 707 e
(1 − π̂1I )t11 0, 660 × 1991
π̂1S t12 0, 768 × 2734
ψ̂1S = = = 4, 546.
(1 − π̂1S )t11 0, 232 × 1991
De forma similar, para o perı́odo 2 de operação, obtém-se

π̂2I = 20F40,68 (0, 025)/{34 + 20F40,68 (0, 025)}

= 0, 248 e
π̂2S = 20F42,66 90, 975)/{33 + 20F42,66 (0, 975)}
= 0, 509.

A estimativa intervalar de 95% fica dada por

π̂2I t22 0, 248 × 6755
ψ̂2I = = = 0, 709 e
(1 − π̂2I )t21 0, 752 × 3140
π̂2S t22 0, 509 × 6755
ψ̂2S = = = 2, 230.
(1 − π̂2S )t21 0, 491 × 3140
Nota-se que ambas as estimativas intervalares cobrem o valor 1, indicando
pela não rejeição da mesma taxa de avarias entre os dois tipos de navios em
cada perı́odo de operação.
Paa aplicar o teste de homogeniedade de razão de taxas entre os dois tipos
de navios, deve-se inicialmente obter a estimativa de razão de taxas comum

308
de Mantel-Haenszel

12 × 2734 20 × 6755 9 × 1991 33 × 3140
ψ̂M H = + / + = 1, 44.
1991 + 2734 3140 + 6755 1991 + 2734 3140 + 6755
As estimativas da probabilidade da avaria ter sido de navio do tipo E ficam,
respectivamente, sob a hipótese de zpsi constante dadas por

π̂1 = ψ̂M H t11 /(t12 + ψ̂M H t11 )

= 1, 44 × 1991/(2734 + 1, 44 × 1991) = 0, 512 e
π̂2 = ψ̂M H t21 /(t22 + ψ̂M H t21 )
= 1, 44 × 3140/(6755 + 1, 44 × 3140) = 0, 401.

Assim, tem-se os valores esperados de avarias para os dois tipos de navios e

dois perı́odos de operação sob a hipótese de homogeneidade razão de taxas:
ŷ11 = m1 π̂1 = 21 × 0, 512 = 10, 752, ŷ12 = m1 (1 − π̂1 ) = 21 × 0, 488 = 10, 248
ŷ21 = m2 π̂2 = 53 × 0, 401 = 21, 253 e ŷ22 = m(1 − π̂2 ) = 53 × 0, 599 = 31, 747.
A estatı́stica para testar as hipóteses H0 : ψ1 = ψ2 contra H1 : ψ1 6= ψ2 fica
dada por
(12 − 10, 752)2 (9 − 10, 248)2
X2 = +
10, 752 10, 248
2
(20 − 21, 253) (33 − 31, 747)2
+ +
21, 253 31, 747
= 0, 420,

que comparado com os quantis da distribuição qui-quadrado com 1 grau de

liberdade leva ao nı́vel descritivo P = 0, 52, indicando pela não rejeição da
hipótese nula.
Finalmente, deve-se testar as hipóteses H0 : ψ = 1 contra H1 : ψ 6= 1,
em que ψ denota a razão de taxas comum. A estatı́stica do teste de Mantel-

309
Hanszel com correção de continuidade fica dada por
{|y11 + y12 − {m1 t11 /(t11 + t21 ) + m2 t12 /(t12 + t22 )}| − 0, 5}2
X2 =
m1 t11 t21 /(t11 + t21 )2 + m2 t12 t22 /(t12 + t22 )2
(|12 + 20 − (8, 85 + 16, 82)| − 0, 5)2
= = 2, 05,
5, 12 + 11, 48
cujo nı́vel descritivo, quando comparado com os quantis da distribuição qui-
quadrado com 1 grau de liberdade é dado por P = 0, 15, não rejeitando-se a
hipótese nula.

4.3 Modelos de Poisson

4.3.1 Propriedades da Poisson
Supor que Y ∼ P(λ) cuja função de probabilidade é dada por
e−λ λy
P r(Y = y) = , y = 0, 1, 2, . . . .
y!
Pode-se mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando λ → ∞
√
(Y − λ)/ λ →d N(0, 1).

Em outras palavras, para λ grande tem-se que Y segue aproximadamente dis-

√
tribuição normal de média λ e desvio padrão λ. Se, no entanto, o interesse
é aplicar um modelo normal linear para explicar λ, tem-se o incoveniente do
desvio padrão depender da média, inviabilizando o uso de um modelo normal
linear homocedástico. Uma maneira de contornar esse problema é através da
aplicação de uma transformação na resposta Y de modo a alcançar a nor-
malidade e a constância de variância, mesmo que aproximadamente. Nesse
sentido, tem-se que se Y é Poisson, segue quando λ → ∞ o seguinte resul-
tado:
√ √
{ Y − E( Y )} →d N(0, 1/4).

310
√ √
Portanto, quando λ é grande, a variável aleatória 2{ Y − E( Y )} segue
aproximadamente distribuição N(0, 1). Assim, para uma amostra aleatória
Y1 , . . . , Yn tal que Yi ∼ P(λi ) se o interesse é explicar λi através de variáveis
explicativas, pode-se propor para λi grande, ∀i, o modelo normal linear
p
Yi = x>i β + i ,

em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Isso foi feito na Seção 1.12.3 no exemplo

sobre sobrevivência de bactérias.

4.3.2 Modelos log-lineares: k tabelas 2 × 2

Como visto no Capı́tulo 1, os modelos log-lineares são recomendados para
a análise de dados de contagem, mesmo quando o tempo de observação não
é o mesmo para cada unidade amostral. Em particular, para um conjunto
de k tabelas 2 × 2, uma modelagem possı́vel para a taxa média por unidade
de tempo em cada casela é supor que Y1i ∼ P(λ1i t1i ) e Y2i ∼ P(λ2i t2i ),
i = 1, . . . , k, mutuamente independentes e com a seguinte parte sistemática:

log(λ11 ) = α,
log(λ21 ) = α + β,
log(λ1i ) = α + γi e
log(λ2i ) = α + β + γi + δi ,

para i = 2, . . . , k. Portanto, tem-se a reparametrização (λ11 , λ21 , . . . , λ1k , λ2k )

→ (α, β, γ2 , δ2 , . . . , γk , δk ). A razão de taxas na i-ésima tabela fica definida
por ψi = λ2i /λ1i = exp(β + δi ), com δ1 = 0. Assim, testar H0 : ψ1 = · · · = ψk
contra H1 : pelo menos dois ψ’s diferentes é o mesmo que testar na nova
parametrização H0 : δ2 = · · · = δk = 0 contra H1 : pelo menos dois δi ’s
diferentes, que é equivalente a ausência de interação entre as tabelas. Deve-
se lembrar que γi é o efeito da i-ésima tabela com relação à primeira tabela.

311
Logo, testar H0 : γ2 = · · · = γk , dado que δi = 0, significa testar a ausência
de efeito de estrato.
Aqui tij denota o total de unidades de tempo na casela (i, j), i = 1, 2
e j = 1, . . . , k. Assim, tem-se que log(µij ) = log(tij ) + log(λij ), em que
log(tij ) desempenha o papel de um offset. Pela propriedade de que os totais
marginais Y1i + Y2i são estatı́sticas suficientes para os parâmetros λ21 , . . . , λ2k
e ancilares para ψ1 , . . . , ψk , deve-se esperar que as estimativas de máxima
verossimilhança não condicionais ψ̂i = exp(β̂ + δ̂i ), i = 1, . . . , k, coincidam
com as estimativas condicionais.
Uma maneira de verificar se é razoável a suposição de distribuição de
Poisson nas unidades de tempo é tratar log(Tij ) como sendo uma variável ex-
plicativa, isto é, ajustar o modelo com parte sistemática dada por log(µij ) =
θ log(tij ) + log(λij ). Assim, ao testar H0 : θ = 1 contra H1 : θ 6= 1, a não
rejeição de H0 indica que a suposição de distribuição de Poisson nas unidades
de tempo não é inadequada. Como será mostrado a seguir isso significa que
os tempos têm distribuição exponencial.

Relação com a exponencial

O logaritmo da função de verossimilhança do modelo de Poisson para a
análise de k tabelas 2 × 2 é dado por
2 X
X k
L(λ) ∝ (yij log(λij ) − λij tij ), (4.3)
i=1 j=1

em que λ = (λ11 , λ21 , . . . , λk1 , λk2 )> . Tem-se, portanto, para cada casela (i, j)
um estudo de seguimento em que as unidades amostrais foram observadas um
total de tij unidades de tempo. Sem perda de generalidade, supor que tij =
N e que nesse subestrato foram acompanhadas I unidades amostrais cujos
tempos de observação foram, respectivamente, N1 , N2 , . . . , NI . Considerar

312
u` = 1 se o evento sob estudo ocorrer para a `-ésima unidade amostral antes
de um tempo pré-fixado T . Quando o evento não ocorrer para a `-ésima
unidade amostral durante o perı́odo de estudo (u` = 0) não há censura,
sendo aqui o tempo de observação dado por N` = T . Supor ainda que a taxa
de ocorrência do evento, que é definida por
P r{o evento ocorrer em (t, t + ∆t)}
ξ = lim ,
∆t→0 ∆t
dado que o evento não ocorreu até o tempo t, permanece constante durante
o perı́odo de observação. Finalmente, assumir que as ocorrências são inde-
pendentes entre as unidades amostrais. Sob essas condições, mostra-se que
a distribuição conjunta das variáveis (N` , u` ), ` = 1, . . . , I, é um produto
de I exponenciais independentes de parâmetro ξ. Se o evento ocorrer antes
do tempo T para a `-ésima unidade amostral (N` < T, u` = 1) a mesma
contribui com o fator ξe−ξN` na função de verossimilhança. Caso contrário
(N` = T, u` = 0), o fator é dado por e−ξT . O logaritmo da função de veros-
similhança conjunta fica então dado por
I
X
L(ξ) = {u` log(ξ) − N` ξ}
`=1
I
X I
X
= log(ξ) u` − ξ N` . (4.4)
`=1 `=1

Se considerar que para a casela (i, j) o evento ocorreu yij vezes, as unidades
amostrais foram observadas um total de tij unidades de tempo e a taxa de
ocorrência do evento é λij , então (4.4) fica reexpressa na forma

L(λij ) = yij log(λij ) − λij tij ,

que coincide com o termo geral da expressão (4.3). Portanto, a suposição

de modelo de regressão log-linear de Poisson com offset log(tij ) equivale à

313
suposição de tempos exponenciais para as unidades amostrais. No entanto, é
importante ressaltar que as inferências exatas para ξ no modelo exponencial
são bastante complexas em virtude da ocorrência de censura (ver discussão,
por exemplo, em Breslow e Day, 1987, p. 132). Já os resultados assintóticos
são equivalentes àqueles obtidos para o modelo de Poisson.

Aplicação
A Tabela 4.3 resume os resultados de um estudo de seguimento em que dou-
tores Britânicos foram acompanhados durante a década de 1950 e observado,
em particular, a ocorrência de mortes por câncer de pulmão segundo o con-
sumo médio diário de cigarros e a faixa etária. Esses dados estão disponı́veis
no arquivo breslow.txt.

Tabela 4.3
Número de casos de morte por câncer de pulmão e pessoas-anos
de observação em doutores Britânicos segundo a faixa etária
e o consumo médio diário de cigarros.
Consumo médio diário Faixa Etária
de cigarros 40-49 50-59 60-69 70-80
0 mortes 0 3 0 3
p-anos 33679 21131,5 10599 4495,5

1-9 mortes 0 1 3 3
p-anos 6002,5 4396 2813,5 1664,5

10-30 mortes 7 29 41 45
p-anos 34414,5 25429 13271 4765,5

+ 30 mortes 3 16 36 11
p-anos 5881 6493,5 3466,5 769
Denotar por Yij o número de mortes para o i-ésimo nı́vel de consumo e
j-ésima faixa etária, i, j = 1, . . . , 4. Supor que Yij ∼ P(λij tij ), em que λij é a

314
taxa média de mortes por unidade de tempo para o consumo i e faixa etária
j. O modelo saturado nesse caso é dado por

log(λij ) = α + βi + γj + δij ,

em que β1 = 0, βi é o efeito da i-ésima classe de consumo de cigarros com

relação à classe de não fumantes, i = 2, 3, 4, γ1 = 0, γj é o efeito da j-
ésima faixa etária com relação à faixa etária de 40 − 49 anos e δij denota
a interação entre faixa etária e consumo de cigarros, em que δi1 = δ1j = 0,
para i, j = 1, . . . , 4.
O teste de ausência de interação, H0 : δij = 0, ∀ij, contra a alternativa de
pelo menos um parâmetro diferente de zero forneceu ξRV = 11, 91 (9 graus de
liberdade) que equivale a um nı́vel descritivo P= 0, 218. Adota-se, portanto,
um modelo sem interação entre faixa etária e consumo de cigarros.

Tabela 4.4
Estimativas dos parâmetros do modelo log-linear
de Poisson para explicar a taxa média de morte
de doutores Britânicos com câncer de pulmão.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α -11,424 -22,44
C(1-9) β2 1,409 2,53
C(10-20) β3 2,866 6,86
C(+30) β4 3,758 8,80
F(50-59) γ2 1,769 5,10
F(60-69) γ3 2,897 8,62
F(70-80) γ4 3,791 11,12

As estimativas são apresentadas na Tabela 4.4. Nota-se claramente que as

estimativas são significativamente diferentes de zero e que há fortes indı́cios
de um aumento (exponencial) da taxa média de mortes com o aumento da
faixa etária e/ou com o aumento do consumo médio diário de cigarros. O

315
ajuste do modelo com log(Tij ) como variável explicativa forneceu a estimativa
de máxima verossimilhança θ̂ = 1, 839(0, 610). O teste de Wald para testar
H0 : θ = 1 contra H1 : θ 6= 1 forneceu o valor
(1, 839 − 1)2
ξW = = 1, 89,
0, 6102
cujo nı́vel descritivo é dado por P= 0, 17, indicando que o modelo pode ser
ajustado com log(tij ) como sendo offset. O gráfico normal de probabilidades
descrito na Figura 4.1 indica que o modelo está bem ajustado.
3
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 4.1: Gráfico normal de probabilidades referente ao modelo log-linear

de Poisson ajustado aos dados sobre morte por câncer de pulmão de doutores
Britânicos.

4.3.3 Modelos gerais de Poisson

Supor agora que Yi ’s são variáveis aleatórias independentes distribuı́das tais
que Yi ∼ P(µi ), com parte sistemática dada por g(µi ) = ηi , em que ηi =
x>
i β, xi = (xi1 , . . . , xip )
>
contém valores de variáveis explicativas, para

316
i = 1, . . . , n, e β = (β1 , . . . , βp )> é um vetor de parâmetros desconhecidos.
As ligações mais utilizados são logarı́tmica (g(µi ) = log(µi )), raiz quadrada
√
(g(µi ) = µi ) e identidade (g(µi ) = µi ).
O processo iterativo para a estimação de β, como foi visto na Seção 1.6.1,
é dado por
β (m+1) = (X> W(m) X)−1 X> W(m) z(m) ,
1 1
m = 0, 1, . . ., com variável dependente modificada z = η + W− 2 V− 2 (y − µ),
η = (η1 , . . . , ηn )> , y = (y1 , . . . , yn )> , µ = (µ1 , . . . , µn )> , V = diag{µ1 , . . . , µn }
e W = diag{ω1 , . . . , ωn } com ωi = (dµi /dηi )2 /µi . Em particular tem-se
ωi = µi para ligação logarı́tmica, ωi = 4 para ligação raiz quadrada e ωi = µ−1
i

para ligação identidade.

No caso das unidades experimentais serem observadas em tempos distin-
ind
tos ti ’s e for assumido que Yi ∼ P(λi ti ), i = 1, . . . , n, a parte sistemática do
modelo para ligação logarı́tmica fica dada por

log(µi ) = log(ti ) + x>

i β,

em que log(ti ) desempenha o papel de offset e isso deve ser informado ao

sistema. Outra possibilidade é incluir os tempos ti ’s como valores da variável
explicativa log(Ti ). Nesse caso, a parte sistemática assume a forma

log(µi ) = θ log(ti ) + x>

i β.

O teste de H0 : θ = 1 contra H1 : θ 6= 1 verifica se log(ti ) deve ser incluı́do

no modelo como offset. A não rejeição da hipótese nula significa a suposição
de tempos exponenciais nas unidades experimentais.
O estimador de máxima verossimilhança β̂ é consistente, eficiente e tem
distribuição assintótica dada por

β̂ − β ∼ Np (0, (X> WX)−1 ),

portanto, assintoticamente, Var(β̂) = (X> WX)−1 .

317
4.3.4 Qualidade do ajuste
A função desvio de um modelo de Poisson supondo yi > 0, ∀i, é definida por
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1

Porém, se yi = 0, o i-ésimo termo de D(y; µ̂) fica dado por 2µ̂i .

Em particular, para ligação logarı́tmica e se o modelo inclui uma cons-
Pn
tante na parte sistemática, mostra-se facilmente que i=1 (yi − µ̂i ) = 0,
Pn
ficando a função desvio reexpressa na forma D(y; µ̂) = i=1 yi log(yi /µ̂i ).

Logo, particionando o vetor de parâmetros tal que β = (β > > >

1 , β 2 ) , em que

β 1 e β 2 são subvetores de dimensão p−q e q, respectivamente, a estatı́stica do

teste da razão de verossimilhanças para testar H0 : β 2 = 0 contra H1 : β 2 6= 0
em modelos log-lineares fica dada por

ξRV = D(y; µ̂0 ) − D(y; µ̂)

n
X
= 2 yi log(µ̂0i /µ̂i ).
i=1

Sob H0 e para grandes amostras ξRV ∼ χ2q . Os resultados assintóticos para

os modelos de Poisson valem tanto para p fixo e n → ∞ como para n fixo e
µi → ∞, ∀i.

4.3.5 Técnicas de diagnóstico

Um dos resı́duos mais recomendados para modelos com resposta de Poisson
é o componente do desvio padronizado, que para yi > 0, fica dado por
s
2 1
tDi = ± {yi log(yi /µ̂i ) − (yi − µ̂i )} 2 ,
1 − ĥii
em que hii é o i-ésimo elemento da diagonal principal da matriz de projeção
1 1
H = W 2 X(X> WX)−1 X> W 2 . Quando yi = 0 o resı́duo componente do
√ p
desvio padronizado assume a forma tDi = ± 2µ̂i / 1 − ĥii .

318
Estudos de simulação (ver Williams, 1984) mostram que em geral a dis-
tribuição de tDi não se afasta muito da distribuição normal padrão, podendo
ser usadas nas análises de diagnóstico as mesmas interpretações da regressão
normal linear. Em particular, a construção de envelopes é fortemente reco-
mendada para tDi .
Conforme descrito na Seção 3.6.8, uma outra opção é o resı́duo quantı́lico
(Dunn e Smyth, 1996) definido para variáveis discretas por

rqi = Φ−1 (ui ),

em que Φ(·) denota a função de distribuição acumulada da N (0, 1) e ui é um

valor gerado no intervalo (0, 1) com base em F (yi ; β̂) (função de distribuição
acumulada da distribuição discreta ajustada). Tem-se para n grande que
os resı́duos rq1 , . . . , rqn são independentes e igualmente distribuı́dos N (0, 1).
Logo, o gráfico entre os quantis amostrais rq(1) ≤ · · · ≤ rq(n) contra os quan-
tis teóricos da normal padrão é recomendado para avaliar afastamentos da
distribuição postulada para a resposta. Esse resı́duo é disponibilizado na
biblioteca GAMLSS do R (ver, por exemplo, Stasinopoulos et al., 2017) e como
é aleatorizado para variáveis discretas, uma sugestão é gerar m gráficos do
worm plot (gráfico entre rq(i) − E(Z(i) ) contra E(Z(i) )) para avaliar com mais
segurança a adequação do ajuste.
Por exemplo, se o ajuste é armazenado no arquivo fit, a geração do
resı́duo quantı́lico e de m gráficos do worm plot podem ser obtidos por meio
dos comandos
plot(fit)
rqres.plot(fit, howmany=8, type=‘‘wp’’).
A Figura 4.1 apresenta o gráfico normal de probabilidades para o resı́duo
tDi correspondente ao modelo ajustado aos dados da Tabela 4.2. Como pode-
se notar, todos os resı́duos cairam dentro do envelope gerado sem apresen-

319
tarem nenhuma tendência sistemática, indicando que a suposição de distri-
buição de Poisson parece ser bastante razoável. O programa utilizado para
gerarmos o gráfico de envelopes é apresentado no Apêndice B.

4.3.6 Aplicação
Como ilustração considere os dados apresentados em Neter et al. (1996, p.
613) sobre o perfil dos clientes de uma determinada loja oriundos de 110
áreas de uma cidade. O objetivo do estudo é relacionar o número esperado
de clientes em cada área com as seguintes variáveis explicativas em cada área:
número de domicı́lios (em mil), renda média anual (em mil USD), idade média
dos domicı́lios (em anos), distância ao concorrente mais próximo (em milhas)
e distância à loja (em milhas). Portanto, a área é a unidade experimental.
Esses dados estão também descritos no arquivo store.txt.
Na Figura 4.2 são apresentados os diagramas de dispersão entre o número
de clientes (variável resposta) e as variáveis explicativas renda e idade média,
distância ao concorrente mais próximo (dist1) e distância à loja (dist2).
Indı́cios mais evidentes de relação linear podem ser observados entre a res-
posta e as distâncias dist1 e dist2. Ou seja, há indı́cios de que o número
de clientes aumenta à medida que a distância ao concorrente mais próximo
aumenta e a distância à loja diminui.
Denote por Yi o número de clientes da i-ésima área que foram à loja no
ind
perı́odo determinado. Supor que Yi ∼ P(µi ) com parte sistemática dada por

log(µi ) = α + β1 domici + β2 rendai + β3 idadei + β4 dist1i + β5 dist2i .

Tem-se que a variável número de domicı́lios (domic) deve ser incluı́da no

modelo uma vez que as áreas não têm o mesmo número de domicı́lios. As
estimativas dos parâmetros são apresentadas na Tabela 4.5 e como pode-se

320
notar todas as estimativas são altamente significativas. O desvio do modelo
foi de D(y; µ̂) = 114, 98 (104 graus de liberdade) que equivale a um nı́vel
descritivo P= 0, 35 indicando um ajuste adequado. Nota-se pela tabela que
o número esperado de clientes na loja cresce com o aumento do número de
domicı́lios na área e da distância ao concorrente mais próximo, porém diminui
com o aumento da renda média e da idade média dos domicı́lios bem como da
distância da área à loja. Isso sugere que deve ser uma loja de conveniência.
30

30
20

20
Clientes

Clientes
10

10
5

5
0

20000 60000 100000 0 10 20 30 40 50 60

Renda Idade
30

30
20

20
Clientes

Clientes
10

10
5

5
0

1 2 3 4 5 6 2 4 6 8 10

Dist1 Dist2

Figura 4.2: Diagramas de dispersão entre o número de clientes que visitaram

a loja e algumas variáveis explicativas.

321
Tabela 4.5
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado aos dados sobre perfil
de clientes.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,942 14,21
Domicı́lio β1 0,606 4,27
Renda β2 -0,012 -5,54
Idade β3 -0,004 -2,09
Dist1 β4 0,168 6,54
Dist2 β5 -0,129 -7,95
0.7

43
2

0.6

20
1

0.5
Componente do Desvio

Distância de Cook
0.4
0

0.3
−1

0.2
−2

0.1
0.0
−3

5 10 15 20 25 30 35 0 20 40 60 80 100
Valor Ajustado Índice

Figura 4.3: Gráficos de diagnóstico referentes ao modelo log-linear de Poisson

ajustado aos dados sobre perfil de clientes.

Pode-se fazer algumas interpretações. Por exemplo, aumentando-se em 1

322
2
Componente do Desvio
0
−2
−4

−2 −1 0 1 2
Quantil da N(0,1)

Figura 4.4: Gráfico normal de probabilidades referente ao modelo log-linear

de Poisson ajustado aos dados sobre perfil de clientes.

mil USD a renda média dos domicı́lios de uma determinada área espera-se au-
mento relativo no número de clientes que irão à loja de exp(−0, 012) = 0, 988.
Ou seja, decrescimento de 1,2%, com estimativa intervalar de 95% dada por
[0,8%,1,2%]. Por outro lado, se a distância ao concorrente mais próximo au-
mentar em uma milha espera-se aumento relativo no número de clientes de
exp(0, 168) = 1, 183. Ou seja, aumento de 18,3% com estimativa intervalar
de 95% de [15%, 20%]. Pela Figura 4.3 nota-se que os resı́duos estão bem
comportados com o valor ajustado, sugerindo que a variabilidade foi con-
trolada. A distância de Cook destaca as áreas #20 e #43, que apresentam
algumas variações desproporcionais nas estimativas dos parâmetros, porém
sem ocorrência de mudança inferencial. O gráfico normal de probabilida-
des (Figura 4.4) não apresenta indicações de afastamentos da suposição de
distribuição de Poisson para o número de clientes que visitaram a loja no
perı́odo.

323
4.4 Modelos com resposta binomial negativa
4.4.1 Distribuição binomial negativa
O fenômeno de sobredispersão, similarmente ao caso de dados com resposta
binária discutido na Seção 3.6.14, ocorre quando é esperada uma distribuição
de Poisson para a resposta, porém a variância é maior do que a resposta
média. Uma causa provável desse fenômeno é a heterogeneidade das unidades
amostrais que pode ser devido à variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto fixo x =
(x1 , . . . , xp )> de valores de variáveis explicativas, Y |z tem média z e variância
z, no entanto Z, que é não observável, varia nas unidades amostrais com x
fixo, de modo que E(Z) = µ. Então,

E(Y ) = E[E(Y |Z)] = E[Z] = µ e

Var(Y ) = E[Var(Y |Z)] + Var[E(Y |Z)]

= µ + Var(Z).

Pode-se, adicionalmente, supor que Y |z tem distribuição de Poisson com

média z e função de probabilidade denotada por f (y|z) e que Z segue uma
distribuição gama de média µ e parâmetro de dispersão k = φµ cuja função
de densidade será denotada por g(z; µ, k).
Tem-se E(Z) = µ e Var(Z) = µ2 /k de modo que E(Y ) = µ e Var(Y ) =
µ + µ2 /k = µ(1 + φ)/φ. Assim, as funções densidades f (y|z) e g(z; µ, k)
assumem as seguintes formas:
k
e−z z y

1 zk kz 1
f (y|z) = e g(z; µ, k) = e− µ .
y! Γ(k) µ z

324
Logo, Y tem função de probabilidade dada por
Z ∞
P r{Y = y} = f (y|z)g(z; µ, k)dz
0
k Z ∞
1 k
= e−z(1+k/µ) z k+y−1 dz.
y!Γ(k) µ 0

Fazendo a transformação de variável t = z(1 + µk ) tem-se que dz

dt
= (1 + µk )−1 .
Então,
k −(k+y) Z ∞
1 k k
P r{Y = y} = 1+ e−t tk+y−1 dt
y!Γ(k) µ µ 0
Γ(y + k)φk
=
Γ(y + 1)Γ(k)(1 + φ)y+k
k y
Γ(y + k) φ 1
=
Γ(y + 1)Γ(k) 1 + φ 1+φ
Γ(y + k)
= (1 − π)k π y , y = 0, 1, 2, . . . ,
Γ(y + 1)Γ(k)

em que π = 1/(1 + φ). Portanto, Y tem distribuição binomial negativa de

média µ e parâmetro de forma k.
Pode-se, similarmente, supor que Y |z ∼ P(z) e que Z ∼ G(µ, φ), em que
φ não depende de µ. Nesse caso E(Z) = µ e Var(Z) = µ2 /φ de onde segue
que E(Y ) = µ e Var(Y ) = µ + µ2 /φ. Tem-se então que
φ
e−z z y

1 zφ φz 1
f (y|z) = e g(z; µ, φ) = e− µ .
y! Γ(φ) µ z
A função de probabilidade de Y fica dada por
Z ∞
P r{Y = y} = f (y|z)g(z; µ, φ)dz
0
φ Z ∞
1 φ
= e−z(1+φ/µ) z φ+y−1 dz.
y!φ µ 0

325
Fazendo a transformação de variável t = z(1 + µφ ) tem-se que dz
dt
= (1 + µφ )−1 .
Daı́ segue que
φ −(φ+y) Z ∞
1 φ φ
P r{Y = y} = 1+ e−t tφ+y−1 dt
y!Γ(φ) µ µ 0
y φ
Γ(φ + y)µ φ
=
Γ(φ)Γ(y + 1)(µ + φ)φ+y
y φ
Γ(φ + y) µ φ
=
Γ(y + 1)Γ(φ) µ + φ µ+φ
Γ(φ + y)
= (1 − π)φ π y , y = 0, 1, 2, . . . ,
Γ(y + 1)Γ(φ)
com π = µ/(µ + φ). Portanto, neste caso Y também segue distribuição
binomial negativa de média µ e parâmetro de forma φ. Será denotado Y ∼
BN(µ, φ). Pode-se mostrar (ver, por exemplo, Jørgensen,1996, p. 96) que
1
√ (Y − µ) →d N(0, π/(1 − π)2 ), quando φ → ∞.
φ
Pode-se obter também aproximações da binomial negativa para a Poisson e
gama.

4.4.2 Modelos de regressão com resposta binomial ne-

gativa
Supor então que Y1 , . . . , Yn são variáveis aleatórias independentes tais que
Yi ∼ BN(µi , φ). A função de probabilidade de Yi fica dada por
yi φ
Γ(φ + yi ) µi φ
f (yi ; µi , φ) = , yi = 0, 1, 2, . . . .
Γ(yi + 1)Γ(φ) µi + φ µi + φ

Tem-se que E(Yi ) = µi e Var(Yi ) = µi +µ2i /φ. Similarmente aos MLGs a parte
sistemática será denotada por g(µi ) = ηi = x>
i β, em que xi = (xi1 , . . . , xip )
>

contém valores de variáveis explicativas, β = (β1 , . . . , βp )> é um vetor de

parâmetros desconhecidos e g(·) é a função de ligação. Como nos modelos

326
de Poisson as ligações mais utilizados são logarı́tmica (g(µi ) = log(µi ), raiz
√
quadrada (g(µi ) = µi ) e identidade (g(µi ) = µi ).
Definindo θ = (β > , φ)> o logaritmo da função de verossimilhança fica
dado por
n
X Γ(φ + yi )
L(θ) = log + φ log(φ) + yi log(µi ) − (φ + yi ) log(µi + φ) ,
i=1
Γ(yi + 1)Γ(φ)

em que µi = g −1 (x>
i β). A fim de obter-se a função escore para β obtém-se

inicialmente as derivadas
n
X yi dµi ∂ηi (φ + yi ) dµi ∂ηi
∂L(θ)/∂βj = −
i=1
µi dηi ∂βj (φ + µi ) dηi ∂βj
n
X yi dµi (φ + yi ) dµi
= xij − xij
i=1
µi dηi (φ + µi ) dηi
n
X φ(dµi /dηi )
= (yi − µi )xij
i=1
µ i (φ + µ i )
n
X
= ωi fi−1 (yi − µi )xij ,
i=1

em que ωi = (dµi /dηi )2 /(µ2i φ−1 + µi ) e fi = dµi /dηi . Logo, pode-se espressar
a função escore na forma matricial

Uβ (θ) = X> WF−1 (y − µ), (4.5)

em que X é a matriz modelo com linhas x>

i , i = 1, . . . , n, W = diag{ω1 , . . . , ωn },

F = diag{f1 , . . . , fn }, y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> . De forma simi-

lar a função escore para φ fica dada por
n
X
Uφ (θ) = [ψ(φ + yi ) − ψ(φ) − (yi + φ)/(φ + µi )+ log{φ/(φ + µi )} +1], (4.6)
i=1

em que ψ(·) é a função digama.

327
Para obter-se a matriz de informação de Fisher calcula-se as derivadas
n 2
2
X (φ + yi ) yi dµi
∂ L(θ)/∂βj ∂β` = − 2
− 2 xij xi`
i=1
(φ + µ i ) µ i dη i
n
(φ + yi ) d2 µi

X yi
+ − xij xi` ,
i=1
µi (φ + µi ) dηi2

cujos valores esperados ficam dados por

n
2
X φ(dµi /dηi )2
E{∂ L(θ)/∂βj ∂β` } = − xij xi`
i=1
(φ + µi )
Xn
= − ωi xij xi` .
i=1

Logo, pode-se expressar a informação de Fisher para β em forma matricial

∂ 2 L(θ)

Kββ (θ) = E − = X> WX.
∂β∂β >
Lawless (1987) mostra que a informação de Fisher para φ pode ser expressa
na forma
n
X ∞
X
Kφφ (θ) = { (φ + j)−2 P r(Yi ≥ j) − φ−1 µi /(µi + φ)},
i=1 j=0

e que β e φ são parâmetros ortogonais. Assim , a matriz de informação de

Fisher para θ assume a forma bloco diagonal

Kββ 0
Kθθ = .
0 Kφφ
As estimativas de máxima verossimilhaça para β e φ podem ser obtidas
através de um algoritmo de mı́nimos quadrados reponderados, aplicando o
método escore de Fisher, a partir de (4.5) e do método de Newton-Raphson
para obter φ̂ desenvolvido a partir de (4.6), os quais são descritos abaixo

β (m+1) = (X> W(m) X)−1 X> W(m) y∗(m)

328
e
(m) (m)
φ(m+1) = φ(m) − {Uφ /L̈φφ },

para m = 0, 1, 2, . . ., em que

y∗ = Xβ + F−1 (y − µ)

é uma variável dependente modificada e

n
X
L̈φφ = {ψ 0 (φ + yi ) + (yi − 2µi − φ)/(φ + µi )2 } + nφ−1 {1 − φψ 0 (φ)}.
i=1

Tabela 4.5
Quantidades ωi e fi para algumas ligações.
Ligação ωi fi
log(µi ) = ηi µi /(µi φ−1 + 1) µi
µ = ηi (µ2i φ−1 + µi )−1 1
√i √
µi = η i 4/(µi φ−1 + 1) 2 µi

Os dois procedimentos são aplicados simultaneamente até a convergência.

>
Pode-se encontrar as estimativas de máxima verossimilhança (β̂ , φ̂)> pela
aplicação do comando library(MASS) do R. Como ilustração, supor um mo-
delo log-linear com resposta binomial negativa resp e covariáveis cov1 e
cov2. Deve-se acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp ∼ cov1 + cov2).
No objeto fit.bn estarão os resultados do ajuste. Outras ligações, além
da ligação logarı́tmica, podem ser usadas com a distribuição binomial ne-
gativa. Por exemplo, para o ajuste de um modelo com resposta binomial
negativa e ligação identidade se resp é considerada resposta e cov1 e cov2
são consideradas variáveis explicativas, deve-se fazer o seguinte:
library(MASS)

329
fit.bn = glm.nb( resp ∼ cov1 + cov2, link=identity).
A Tabela 4.5 apresenta as expressões para ωi e fi para algumas ligações
usuais em modelos com resposta binomial negativa.
Usando os mesmos argumentos da Seção 1.6 tem-se que para n grande
β̂ segue distribuição aproximadamente normal p-variada de média β e ma-
triz de variância-covariância K−1 −1
ββ , ou seja , para n grande β̂ ∼ Np (β, Kββ ).

Similarmente para n grande φ̂ ∼ N(φ, K−1

φφ ). Além disso, β̂ e φ̂ são assintoti-

camente independentes.

4.4.3 Qualidade do ajuste

A função desvio assumindo φ fixo fica dada por
n
∗
X µ̂i + φ yi (µ̂i + φ)
D (y; µ̂) = 2 φ log + yi log ,
i=1
yi + φ µ̂i (yi + φ)

em que µ̂i = g −1 (x>

i β). Quando yi = 0 o i-ésimo componente da função

desvio D∗ (y; µ̂) fica dado por

d∗2 (yi , µ̂i ) = 2[log{f (0; yi , φ)} − log{f (0; µ̂i , φ)}]
= 2φ log{φ/(yi + φ)} − 2φ log{φ/(µ̂i + φ)}
= 2φ log{(µi + φ)/(ŷi + φ)}
= 2φ log{(µ̂i + φ)/φ}.

Portanto, os componentes do desvio no caso binomial negativo assumem as

seguintes formas:
 h n o n oi
 2 φ log (µ̂i +φ) + yi log yi (µ̂i +φ) se yi > 0;
d∗2 (yi ; µ̂i ) = n (yi +φ) o µ̂i (yi +φ)
 2φ log (µ̂i +φ) se yi = 0.
φ

Sob a hipótese de que o modelo adotado está correto D∗ (y; µ̂) segue para
φ grande e µi grande, ∀i, distribuição qui-quadrado com (n − p) graus de
liberdade.

330
Supor agora a partição β = (β > > >
1 , β 2 ) em que β 1 é um vetor q-dimensional

enquanto β 2 tem dimensão p − q e que φ é fixo ou conhecido. O teste da

razão de verossimilhanças para testar H0 : β 1 = 0 contra H1 : β 1 6= 0 reduz,
neste caso, à diferença entre dois desvios

ξRV = D∗ (y; µ̂0 ) − D∗ (y; µ̂),

em que µ̂0 e µ̂ são, respectivamente, as estimativas de µ sob H0 e H1 . Para φ

desconhecido o teste da razão de verossimilhanças fica expresso na seguinte
forma:
n
X
ξRV = 2 [log{Γ(φ̂ + yi )Γ(φ̂0 )/Γ(φ̂0 + yi )Γ(φ̂)} + φ̂log{φ̂/(φ̂ + µ̂i )}
i=1

−φ̂ log{φ̂0 /(φ̂0 + µ̂0i )} + yi log{µ̂i (φ̂0 + µ̂0i )/µ̂0i (φ̂ + µ̂i )}],
0

em que φ̂0 e φ̂ são as estimativas de máxima verossimilhança de φ sob H0 e

H1 , respectivamente. Para n grande e sob H0 tem-se que ξRV ∼ χ2q .

4.4.4 Técnicas de diagnóstico

Fazendo uma analogia com os MLGs a matriz de projeção H assume aqui a
seguinte forma:
1 1
H = W 2 X(X> WX)−1 X> W 2 .

O i-ésimo elemento da diagonal principal de H fica dado por

(dµi /dηi )2 > >
hii = −1
xi (X WX)−1 xi .
(µi φ + µi )
Em particular, para os modelos log-lineares hii fica dado por
φµi
hii = x> (X> WX)−1 xi ,
(φ + µi ) i
em que ωi = φµi /(φ + µi ). Como ĥii deverá depender de µ̂i , gráficos de ĥii
contra os valores ajustados são mais informativos do que os gráficos de ĥii
contra a ordem das observações.

331
Estudos de Monte Carlo desenvolvidos por Svetliza (2002) indicam boa
concordância entre o resı́duo componente do desvio
d∗ (yi ; µ̂i )
tDi = p
1 − ĥii
com a distribuição normal padrão, em que
 √ h n o n oi 1
 ± 2 φ log µ̂i +φ + y log yi (µ̂i +φ) 2 se y > 0;
i i
d∗ (yi ; µ̂i ) = √ h n yi +φ oi µ̂i (yi +φ)
 ± 2 φ log (µ̂i +φ) se yi = 0.
φ

Para extrair a quantidade d∗i (yi ; µ̂i ) do objeto fit.bn deve-se fazer o
seguinte:
d = resid(fit.bn, type= ‘‘deviance").
Uma versão da distância de Cook aproximada é dada por

ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

p
em que rPi = (yi − µi )/ Var(Yi ) e Var(Yi ) = µi + µ2i /φ. A quantidade rPi é
obtida no R através do comando
rp = resid(fit.bn, type=‘‘pearson").
O gráfico de LDi contra as observações ou valores ajustados pode reve-
lar pontos influentes nas estimativas β̂ e φ̂. Svetliza (2002) desenvolveu as
expressões matriciais para a obtenção de `max para β̂ e φ̂.

4.4.5 Seleção de modelos

Similarmente aos modelos lineares generalizados, pelo critério de Akaike deve-
se encontrar um submodelo para o qual a quantidade abaixo seja minimizada

AIC = D∗ (y; µ̂) + 2p.

Deve-se acionar no R os seguintes comandos:

332
library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajus-
tado.

4.4.6 Aplicações
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um es-
tudo sociológico desenvolvido na Austrália com 146 estudantes de 8a série e
ensino médio com o objetivo de comparar a ausência na escola segundo os
seguintes fatores: ano que o estudante está cursando (1: 8a série, 2: 1o ano
do ensino médio, 3: 2o ano do ensino médio, 4: 3o ano do ensino médio),
etnia (0: aborı́gine, 1: não aborı́gine), desempenho escolar (0: insuficiente,
1: suficiente) e sexo (0: masculino, 1: feminino). Para obter esses dados no R
deve-se acionar o comando library(MASS) e em seguida quine. Uma cópia
desses dados está disponı́vel no arquivo quine.txt.
Denota-se por Yijk`m o número de faltas num determinado perı́odo refe-
rentes ao m-ésimo aluno, cursando o i-ésimo ano, de etnia j, com desempenho
escolar k e pertencente ao `-ésimo sexo, em que i = 1, 2, 3, 4, j, k, ` = 1, 2 e
ind
m = 1, . . . , 144. Supor que Yijk`m ∼ BN(µijk` , φ), em que

log(µijk` ) = α + βi + γj + δk + θ` ,

com β1 = 0, γ1 = 0, δ1 = 0 e θ1 = 0. Assim, tem-se um modelo casela de

referência com β2 , β3 e β4 denotando os incrementos do primeiro, segundo
e terceiro anos do ensino médio, respectivamente, em relação à 8a série, γ2
é a diferença entre os efeitos do grupo não aborı́gine com relação ao grupo
aborı́gine, δ2 denota a diferença entre os efeitos dos grupos com desempenho

333
suficiente e insuficiente e θ é a diferença entre os efeitos do sexo feminino e
masculino.

Tabela 4.6
Estimativas de máxima verossimilhança referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausência
escolar de estudantes australianos.
Efeito Modelo 1 E/E.Padrão Modelo 2 E/E.Padrão
Intercepto 2,895 12,70 2,628 10,55
Etnia -0,569 -3,72 0,131 0,38
Sexo 0,082 0,51
Ano2 -0,448 -1,87 0,178 0,56
Ano3 0,088 0,37 0,827 2,61
Ano4 0,357 1,44 0,371 1,11
Desemp 0,292 1,57
Etn*Ano2 -0,991 -2,26
Etn*Ano3 -1,239 -2,78
Etn*Ano4 -0,176 -0,38
φ 1,275 7,92 1,357 7,80

Na Tabela 4.6 tem-se as estimativas de máxima verossimilhança com os

respectivos erros padrão aproximados. O desvio do modelo ajustado (modelo
1) foi de D∗ (y; µ̂) = 167, 95 (139 graus de liberdade). Nota-se que os fatores
sexo e desempenho escolar não são significativos marginalmente ao nı́vel de
10%. Após testar a ausência de efeito conjunto desses fatores, tem-se que
ambos são conjuntamente não significativos sendo portanto retirados do mo-
delo. Contudo, nota-se a necessidade de inclusão da interação entre etnia e
ano no modelo. O valor da estatı́stica do teste da razão de verossimilhanças
nesse caso é de ξRV = 11, 16 (P= 0, 0109). As novas estimativas são também
apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2) foi de
D∗ (y; µ̂) = 167, 84 (138 graus de liberdade).

334
30
Abor
Nabo
25
Valore Ajustado

20
15
10

8a.Serie Ano1 Ano2 Ano3

Ano

Figura 4.5: Valores médios estimados pelo modelo log-linear binomial nega-
tivo ajustado aos dados sobre ausência escolar de estudantes australianos.

A Figura 4.5 apresenta as médias ajustadas do modelo final com resposta

binomial negativa. Pode-se notar que o grupo não aborı́gine tem em geral um
no médio menor de dias ausentes. A maior média é observada para estudantes
do grupo aborı́gine cursando o 2o ano do ensino médio e o menor valor médio
é observado para estudantes do grupo não aborı́gine cursando o 1o ano do
ensino médio. Embora a interação entre etnia e ano seja significativa, não
implica que para cada ano a diferença entre o número médio de faltas nos
grupos aborı́gene e não aborı́gene seja significativa. Isso poderia ser avaliado
através de testes de contrastes. A presença de interação significa que pelo
menos uma das diferenças médias entre os dois grupos é significativa.

335
10

3
2
5
Componente do Desvio

Componente do Desvio
1
0
0

−1
−2
−5

−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.6: Gráficos normais de probabilidade referentes ao modelo log-linear

de Poisson (esquerda) e ao modelo log-linear binomial negativo (direita) ajus-
tados aos dados sobre ausência escolar de estudantes australianos.

Verifica-se também, neste estudo, como fica o ajuste através de um modelo

log-linear de Poisson. Tem-se nas Figura 4.6 os gráficos normais de proba-
bilidade para os dois ajustes e nota-se uma clara superioridade do modelo
log-linear com resposta binomial negativa. O modelo log-linear de Poisson
apresenta fortes indı́cios de sobredispersão com os resı́duos cruzando o enve-
lope gerado. Isso é justificado pelo valor do desvio D∗ (y; µ̂) = 1597, 11 (138
graus de liberdade).
Na Figura 4.7 são apresentados gráficos de diagnóstico referentes ao ajuste
do modelo log-linear binomial negative. Nota-se que o resı́duo componente
do desvio se comporta de forma aleatória com o valor ajustado, indicando que
a variabilidade foi controlada. Pelo gráfico da distância de Cook nota-se três
pontos com mais destaque como possivelmente influentes em β̂, são os alunos
#72, #104 e #36. Os três alunos têm vários dias ausentes, respectivamente,

336
2
72

1.0
1

0.8
Componente do Desvio

Distância de Cook
36 104

0.6
0

0.4
−1

0.2
−2

0.0
−3

10 15 20 25 30 0 50 100 150
Valor Ajustado Índice

Figura 4.7: Gráficos de diagnóstico referentes ao modelo binomial negativo

ajustado aos dados sobre ausência escolar de estudantes australianos.

67, 69 e 45. O aluno #72 é não aborı́gine e estava cursando a 8a série.

O aluno #104 é também não aborı́gine, porém estava cursando o 3o ano,
enquanto o aluno #36 é aborı́gine e estava também cursando a 8a série. A
retirada desses pontos causa aumentos desproporcionais nas estimativas, mas
não altera os resultados inferenciais.

Demanda de TV a cabo
Na Tabela 4.7 é apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 áreas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados estão também disponı́veis no arquivo tvcabo.txt. Foram observadas,
para cada área, o número de assinantes (em milhares) de TV a cabo (nass),
o número de domicı́lios (em milhares) na área (domic), a porcentagem de
domicı́lios com TV a cabo (perc), a renda per capita (em mil USD) por
domicı́lio com TV a cabo (percap), a taxa de instalação de TV a cabo (taxa)
em USD, o custo médio mensal de manutenção de TV a cabo (custo) em

337
Tabela 4.7
Demanda de TV a cabo em 40 áreas metropolitanas dos EUA.
Nass Domic Perc Percap Taxa Custo Ncabo Ntv
105 350 30,000 9,839 14,95 10 16 13
90 255,631 35,207 10,606 15 7,5 15 11
14 31 45,161 10,455 15 7 11 9
11,7 34,840 33,582 8,958 10 7 22 10
46 153,434 29,980 11,741 25 10 20 12
11,217 26,621 42,136 9,378 15 7,66 18 8
12 18 66,667 10,433 15 7,5 12 8
6,428 9,324 68,940 10,167 15 7 17 7
20,1 32 62,813 9,218 10 5,6 10 8
8,5 28 30,357 10,519 15 6,5 6 6
1,6 8 20,000 10,025 17,5 7,5 8 6
1,1 5 22,000 9,714 15 8,95 9 9
4,355 15,204 28,644 9,294 10 7 7 7
78,910 97,889 80,612 9,784 24,95 9,49 12 7
19,6 93 21,075 8,173 20 7,5 9 7
1 3 33,333 8,967 9,95 10 13 6
1,65 2,6 63,462 10,133 25 7,55 6 5
13,4 18,284 73,288 9,361 15,5 6,3 11 5
18,708 55 34,015 9,085 15 7 16 6
1,352 1,7 79,529 10,067 20 5,6 6 6
170 270 62,963 8,908 15 8,75 15 5
15,388 46,540 33,064 9,632 15 8,73 9 6
6,555 20,417 32,106 8,995 5,95 5,95 10 6
40 120 33,333 7,787 25 6,5 10 5
19,9 46,39 42,897 8,890 15 7,5 9 7
2,45 14,5 16,897 8,041 9,95 6,25 6 4
3,762 9,5 39,600 8,605 20 6,5 6 5
24,882 81,98 30,351 8,639 18 7,5 8 4
21,187 39,7 53,368 8,781 20 6 9 4
3,487 4,113 84,780 8,551 10 6,85 11 4
3 8 37,500 9,306 10 7,95 9 6
42,1 99,750 42,206 8,346 9,95 5,73 8 5
20,350 33,379 60,966 8,803 15 7,5 8 4
23,15 35,5 65,211 8,942 17,5 6,5 8 5
9,866 34,775 28,371 8,591 15 8,25 11 4
42,608 64,840 65,713 9,163 10 6 11 6
10,371 30,556 33,941 7,683
338 20 7,5 8 6
5,164 16,5 31,297 7,924 14,95 6,95 8 5
31,150 70,515 44,175 8,454 9,95 7 10 4
18,350 42,040 43,649 8,429 20 7 6 4
USD, o número de canais a cabo disponı́veis na área (ncabo) e o número de
canais não pagos com sinal de boa qualidade disponı́veis na área (ntv). Como
são dados de contagem pode-se pensar inicialmente num modelo de Poisson
ind
em que nassi denota o número de assinantes na i-ésima região, nassi ∼ P(µi ),
e componente sistemático dado por log(µi ) = α + β1 domici + β2 percapi +
β3 taxai + β4 custoi + β5 ncaboi + β6 ntvi , para i = 1, . . . , 40. No entanto, o
ajuste do modelo forneceu desvio D(y; µ̂) = 225 para 33 graus de liberdade
indicando fortes indı́cios de sobredispersão, que é confirmado pelo gráfico
normal de probabilidades da Figura 4.8. Então um modelo log-linear com
ind
resposta binomial negativa foi ajustado, em que nassi ∼ BN(µi , φ). 3
8

2
6

1
Componente do Desvio

Componente do Desvio
4

0
2

−1
0

−2
−2

−3
−4

−4

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.8: Gráficos normais de probabilidade referentes aos modelos log-

linear de Poisson (esquerda) e log-linear binomial negativo (direita) ajustados
aos dados sobre demanda de TV a cabo.

O gráfico normal de probabilidades (Figura 4.8) bem como o desvio

339
4
14

3
Distância de Cook
1

2
1
0

0 10 20 30 40
Índice

Figura 4.9: Gráfico de diagnóstico referente ao modelo log-linear binomial

negativo ajustado aos dados sobre demanda de TV a cabo.

D∗ (y; µ̂) = 42, 35 fornecem indı́cios de ajuste adequado do modelo log-linear

com resposta binomial negativa. No entanto, pela Figura 4.9, nota-se uma
área suspeita de ser altamente influente (observação #14) nas estimativas dos
coeficientes e outra área com suspeita de moderada influência (observação
#1). A área #14 apresenta custos altos de instalação e manutenção de TV a
cabo, porém um alto ı́ndice de assinantes. A área #1 tem um baixo ı́ndice de
assinantes com grande oferta de canais a cabo e canais não pagos de boa qua-
lidade. As estimativas dos coeficientes com todos os pontos e eliminando as
observações mais discrepantes (1 e 14) são apresentadas na Tabela 4.8. Como
pode-se observar há indı́cios de que quatro coeficientes (percap, taxa, ncabo
e ntv) são marginalmente não significativos a 10%. Aplica-se então o teste
da razão de verossimilhanças para testar H0 : β2 = β3 = β5 = β6 = 0 contra
pelo menos um parâmetro diferente de zero que forneceu o valor ξRV = 2, 50
para 4 graus de liberdade (P=0,64), indicando pela não rejeição da hipótese
nula. Isso significa que as duas observações discrepantes são responsáveis

340
pela significância de três desses coeficientes que aparecem significativos mar-
ginalmente com todos os pontos, bem como pelo aumento da sobredispersão
uma vez que a estimativa de φ cresce com a eliminação das duas áreas. Uma
maneira de reduzir a influência dessas duas áreas seria através da atribuição
de pesos para as mesmas, por exemplo aplicando-se procedimentos robustos
em que os pesos são obtidos de forma iterativa. Modelos alternativos também
poderiam ser aplicados no sentido de reduzir a inflêncua dessas observações,
tais como modelos de quase-verossimilhança ou modelos com resposta beta,
em que a resposta seria a porcentagem de domicı́lios com TV a cabo.

Tabela 4.8
Estimativas de máxima verossimilhança referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito Todos pontos E/E.Padrão Sem 1 e 14 E/E.Padrão
Intercepto 2,437 1,99 3,608 3,34
Domic 0,013 8,24 0,014 9,69
Percap 0,065 0,42 -0,002 -0,02
Taxa 0,041 1,84 0,010 0,50
Custo -0,207 1,95 -0,266 -2,69
Ncabo 0,067 2,01 0,050 1,63
Ntv -0,135 1,84 -0,071 -1,02
φ 3,311 3,49 5,060 2,89

4.4.7 Sobredispersão e quase-verossimilhança

De uma forma geral o fenômeno de sobredispersão sugere que a variância de
Y seja dada por Var(Y ) = σ 2 µ, em que σ 2 > 1. Uma maneira mais simples
de resolver o problema é ajustar um modelo log-linear de Poisson aos dados e
estimar σ 2 separadamente (método de quase-verossimilhança), por exemplo,
usando a estimativa proposta por Wedderburn (1974), dada por
n
2
X (yi − µ̂i )2
σ̂ = /(n − p), (4.7)
i=1
µ̂i

341
em que µ̂i = exp(x>
i β̂). Algumas quantidades, tais como a matriz de
variância-covariância assintótica de β̂, o desvio, resı́duos etc, deverão ser
corrigidos de maneira similar ao caso tratado na Seção 3.6.14. Finalmente,
pode-se pensar na aplicação de modelos mais gerais de quase-verossimilhança
que serão discutidos no Capı́tulo 5.

Aplicação
Como ilustração, considere os dados descritos na Tabela 4.9 (McCullagh e
Nelder, 1989, Seção 6.3.2) e também no arquivo navios.txt em que avarias
causadas por ondas em navios de carga são classificadas segundo o tipo do
navio (A-E), ano da fabricação (1:1960-64, 2:1965-69, 3:1970-74 e 4:1975-79)
e perı́odo de operação (1:1960-74 e 2:1975-79).
Foi também considerado o tempo em que cada navio ficou em operação
(em meses). Inicialmente, um modelo log-linear de Poisson com offset, dado
por log(meses), e efeitos principais é ajustado aos dados. Assim, denotando
por Yijk o número de avarias observadas para o navio do tipo i, construı́do
ind
no ano j que operou no perı́odo k e supondo que Yijk ∼ P(λijk tijk ), em que
tijk é o total de meses de operação e λijk o número médio esperado de avarias
por unidade de tempo. A parte sistemática do modelo é dada por

log(λijk ) = α + β1(i) + β2(j) + β3(k) ,

com as restrições β1(1) = β2(1) = β3(1) = 0, para i = 1, . . . , 5; j = 1, . . . , 4 e

k = 1, 2, com β1 , β2 e β3 denotando, respectivamente, o efeito de tipo, de
ano de construção e perı́odo de operação.
O desvio do modelo foi de D(y; µ̂) = 38, 69 (25 graus de liberdade) que
corresponde a um nı́vel descritivo P= 0, 040, indicando que o ajuste não está
satisfatório. Pelo gráfico normal de probabilidades, descrito na Figura 4.10,

342
Tabela 4.9
Distribuição de avarias em navios de
carga segundo o tipo do navio, ano de
fabricação perı́odo de operação
e total de meses em operação.
Tipo Ano Perı́odo Meses Avarias
A 1 1 127 0
A 1 2 63 0
A 2 1 1095 3
A 2 2 1095 4
A 3 1 1512 6
A 3 2 3353 18
A 4 2 2244 11
B 1 1 44882 39
B 1 2 17176 29
B 2 1 28609 58
B 2 2 20370 53
B 3 1 7064 12
B 3 2 13099 44
B 4 2 7117 18
C 1 1 1179 1
C 1 2 552 1
C 2 1 781 0
C 2 2 676 1
C 3 1 783 6
C 3 2 1948 2
C 4 2 274 1
D 1 1 251 0
D 1 2 105 0
D 2 1 288 0
D 2 2 192 0
D 3 1 349 2
D 3 2 1208 11
D 4 2 2051 4
E 1 1 45 0
E 2 1 789 7
E 2 2 437 7
E 3 1 1157 5
E 3 2343 2161 12
E 4 2 542 1
3

2
2
1

1
Componente do Desvio

Componente do Desvio
0

0
−1

−1
−2

−2
−3

−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.10: Gráficos normais de probabilidades referentes ao modelo log-

linear de Poisson (esquerda) e log-linear de quase-verossimilhança (direita)
ajustados aos dados sobre avarias em navios de carga.

nota-se a maioria dos resı́duos próximos dos limites superior e inferior do

envelope gerado, sugerindo sobredispersão que neste caso deve ser devido ao
fato de um mesmo navio ter sido observado mais de uma vez. Usando (4.7)
obtém-se σ̂ 2 = 1, 69, e corrigindo o componente do desvio padronizado de
modo que q
t∗Di = ±di /σ̂ 1 − ĥii ,

obtém-se um novo gráfico normal de probabilidades descrito na Figura 4.10,

em que os resı́duos estão melhor distribuı́dos dentro do envelope gerado.
O desvio corrigido fica dado por D∗ (y; µ̂) = D(y; µ̂)/σ̂ 2 = 38,69/1,69
= 22,89 (25 graus de liberdade), indicando um ajuste adequado. Deve-se
observar que tanto o resı́duo t∗Di como o desvio D∗ (y; µ̂) devem ser olha-
dos de maneira meramente descritiva uma vez que em modelos de quase-
verossimilhança a distribuição da resposta é em geral desconhecida. As esti-

344
mativas de máxima verossimilhança e os valores padronizados pelos respecti-
vos erros padrão aproximados, já multiplicados pelo fator σ̂, são apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredispersão
neste exemplo é causado particularmente por duas observações discrepantes
e sugere a inclusão da interação tipo*ano com pelo menos uma dessas ob-
servações excluı́das. Pela Tabela 4.10 nota-se que os navios de tipos B e C
são aqueles com uma incidência menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como também aqueles que ope-
raram de 75 a 79 apresentam uma inicidência maior de avarias por unidade
de tempo do que os demais.

Tabela 4.10
Estimativas dos parâmetros referentes ao modelo
log-linear de quase-verossimilhança ajustado
aos dados sobre avarias em navios de carga.
Efeito Estimativa E/E.Padrão
Constante -6,406 -22,69
Tipo
A 0,000 -
B -0,543 -2,36
C -0,687 -1,61
D -0,076 0,20
E 0,326 1,06
Ano
60-64 0,000 -
65-69 0,697 3,59
70-74 0,818 3,71
75-79 0,453 1,50
Perı́odo
60-74 0,000 -
75-79 0,384 2,50

345
4.5 Relação entre a multinomial e a Poisson
Supor agora que todas as unidades amostrais são acompanhadas durante
o mesmo perı́odo e que são classificadas segundo s nı́veis de exposição e r
grupos, conforme descrito abaixo.

Exposição
Grupo E1 E2 E3 · · · Es
G1 y11 y12 y13 · · · y1s
G2 y21 y22 y23 · · · y2s
···
Gr yr1 yr2 yr3 · · · yrs
ind
Supondo que Yij ∼ P(µij ), i = 1, . . . , r e j = 1, . . . , s, tem-se que
X n! a
P r{Y = a| Yij = n} = Πi,j πijij ,
i,j
Πi,j aij !

µij , Y = (Y11 , . . . , Yrs )> e a = (a11 , . . . , ars )> .

P
em que πij = µij /µ++ , µ++ = i,j

Considere o modelo log-linear de Poisson com parte sistemática dada por

log(µij ) = α + β1(i) + β2(j) + β12(ij) e restrições β1(1) = β2(1) = β12(1j) =
β12(i1) = 0, para i = 1, . . . , r e j = 1, . . . , s. Segue que
r X
X s
τ = µ++ = exp{α + β1(i) + β2(j) + β12(ij) }
i=1 j=1
Xr X s
α
= e exp{β1(i) + β2(j) + β12(ij) },
i=1 j=1

e pode-se definir as probabilidades

exp{β + β2(j) + β12(ij) }
πij = Pr Ps 1(i) ,
i=1 j=1 exp{β1(i) + β2(j) + β12(ij) }

em que o total do denominador é invariante com a parametrização utilizada

no modelo. Tem-se que as probabilidades πij0 s não dependem do parâmetro

346
α. Como será mostrado a seguir, a estimativa de máxima verossimilhança
do vetor β correspondente ao modelo multinomial coincide com a estimativa
de máxima verossimilhança para β = (β > > > >
1 , β 2 , β 12 ) referente ao modelo
log-linear de Poisson.
Por outro lado, se for ajustado um modelo multinomial do tipo log-linear
aos dados tal que

log(πij ) = α∗ + β1(i) + β2(j) + β12(ij) ,

πij = 1, que exp(α∗ ) = 1/

P P P
tem-se, devido à imposição i,j i j exp{β1(i) +
β2(j) + β12(ij) }, ou seja, α∗ = α − log(τ ). O que muda é a estimativa do
intercepto, embora na prática sempre seja possı́vel obter α∗ através de α e
vice-versa. Para mostrar a equivalência das estimativas considere a relação
abaixo
P r{Y = a; Y++ = n}
P r{Y = a|n} = ,
P r{Y++ = n}
P
em que Y++ = i,j Yij . Denotando Ly|n (β) = log{P r(Y = a|n)}, Ly (τ, β) =
log{P r(Y = a; Y++ = n)} e Ly++ (τ ) = log{P r(Y++ = n)} tem-se que

Ly (τ, β) = Ly++ (τ ) + Ly|n (β), (4.8)

em que
Ly++ (τ ) = −τ + y++ log(τ ) − log(y++ !)

e
X X
Ly|n (β) = log(n!) + aij log(πij ) − log(aij !).
i,j i,j

Portanto, maximizar Ly (τ, β) com relação a β é equivalente a maximizar

Ly|n (β) com relação a β. Isso quer dizer que as estimativas de máxima
verossimilhança para o vetor β são as mesmas sob o modelo log-linear multi-
nomial com probabilidades π11 , . . . , πrs e sob o modelo log-linear de Poisson

347
de médias µ11 , . . . , µrs . As matrizes de segundas derivadas com relação a β,
para os dois modelos, são tais que

∂ 2 Ly (τ, β) ∂ 2 Ly|n (β)

= .
∂β∂β > ∂β∂β >

Devido à linearidade em (4.8) segue que a matriz de informação observada

para (τ, β > )> é bloco-diagonal com elementos dados por −∂ 2 Ly (τ, β)/∂τ 2
e −∂ 2 Ly (τ, β)/∂β∂β > , respectivamente. Segue, portanto, que a matriz de
informação de Fisher será também bloco-diagonal com os valores esperados
das quantidades acima,
 n 2 o 
Ey − ∂ L∂τ
y (τ,β)
2 0
Kτ β =  n 2 o .
0 Ey − ∂ ∂β∂β
Ly (τ,β)
>

A variância assintótica de β̂ fica então dada por

Vary (β̂) = [Ey {−∂ 2 Ly (τ, β)/∂β∂β > }]−1 .

Palmgren (1981) mostra que Kτ β coincide com a matriz de informação ob-

servada sob a restrição τ = n.
Esses resultados podem ser generalizados para quaisquer dimensões de
tabelas bem como sob a presença de variáveis explicativas contı́nuas. A
variância assintótica de β̂ fica no modelo multinomial dada por
2 −1
∂ Ly|n (β)
Vary|n (β̂) = Ey|n − ,
∂β∂β >
coincidindo com a variância assintótica do modelo não condicional sob a
restrição τ = n. Contudo, do ponto de vista prático, as variâncias assintóticas
de β̂ devem coincidir uma vez que a estimativa de máxima verossimilhança
de τ é dada por τ̂ = n.

348
4.5.1 Modelos log-lineares hierárquicos
Um modelo log-linear é dito hierárquico se dado que uma interação está
no modelo, todas as interações de ordem menor como também os efeitos
principais correspondentes deverão estar também no modelo. A utilização de
tais modelos tem a vantagem de permitir uma interpretação das interações
nulas como probabilidades condicionais. Em muitos casos estimativas dos
valores médios podem ser expressas em forma fechada, evitando assim a
utilização de processos iterativos.
Como ilustração, supor o modelo log-linear apresentado na seção anterior.
Pode-se mostrar que a hipótese H0 : β12(ij) = 0, ∀ij, é equivalente à hipótese
de independência na tabela, isto é H0 : πij = πi+ π+j , ∀ij. Dado que não há
interação, testar a ausência de efeito de exposição, isto é testar H0 : β1(i) = 0,
i = 1, . . . , r, é equivalente a testar H0 : π1+ = · · · = πr+ = 1/r. Finalmente,
dado que não há interação, testar a ausência de efeito de grupo, isto é testar
H0 : β2(j) = 0, j = 1, . . . , s, é equivalente a testar H0 : π+1 = · · · = π+s = 1/s.
Supor agora um modelo log-linear de Poisson com três fatores de r, s e t
nı́veis, respectivamente. Pode-se representar a parte sistemática do modelo
saturado da seguinte forma:

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) + β23(jk) + β123(ijk) , (4.9)

com as restrições β1(1) = β2(1) = β3(1) = 0, β12(1j) = β12(i1) = 0, β13(1k) =

β13(i1) = 0, β23(1k) = β23(j1) = 0, β123(1jk) = β123(i1k) = β123(ij1) = 0, para
i = 1, . . . , r; j = 1, . . . , s e k = 1, . . . , t. Há várias classes de modelos
hierárquicos que correspondem a situações de interesse na tabela de con-
tingência formada. Uma primeira classe corresponde à hipótese de ausência
de interação de segunda ordem, representada por H0 : β123(ijk) = 0, ∀ijk,
sendo equivalente à hipótese de associação entre dois fatores quaisquer ser

349
constante nos nı́veis do terceiro fator. Isso quer dizer, em outras palavras,
que a razão de produtos cruzados πijk πi0 j 0 k /πij 0 k πi0 jk , representando a asso-
ciação entre os nı́veis (i, j) e (i0 , j 0 ) dos dois primeiros fatores, é constante
nos nı́veis do terceiro fator. Se for omitido no modelo (4.9) a interação de
segunda ordem mais uma interação de primeira ordem, os dois fatores omi-
tidos correspondentes à interação de primeira ordem são independentes do
terceiro fator. Por exemplo, se for omitido β123(ijk) e β23(jk) , ∀ijk, ficando o
modelo com a parte sistemática

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) ,

os fatores 2 e 3 são independentes nos nı́veis do primeiro fator, ou equivalen-

temente, tem-se que

πijk = πij+ πi+k /πi++ , ∀ijk.

Se agora for omitido além de β123(ijk) e β23(jk) também β13(ik) , ∀ijk, ficando
a parte sistemática dada por

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) ,

o terceiro fator é independente dos dois primeiros, ou equivalentemente, tem-

se que
πijk = πij+ π++k , ∀ijk.

O modelo apenas com os efeitos principais, cuja parte sistemática é dada por

log(µijk ) = α + β1(i) + β2(j) + β3(k) ,

equivale à hipótese de independência entre os três fatores, isto é, tem-se que

πijk = πi++ π+j+ π++k , ∀ijk.

A Tabela 4.11 resume as três situações de independência para o modelo (4.9).

350
Tabela 4.11
Algumas interações em modelos log-lineares de Poisson.
Forma para πijk Interação Interpretação
πi++ π+j+ π++k nenhuma fatores mutuamente
independentes
πij+ π++k β12(ij) fatores 1 e 2 independentes
do fator 3
πij+ πi+k /πi++ β12(ij) + β13(ik) fatores 2 e 3 independentes
nos nı́veis do fator 1

Em muitos desses casos é possı́vel expressar as estimativas das probabilidades

πijk ’s em forma fechada. Uma análise mais completa de modelos hierárquicos
pode ser encontrada, por exemplo, Agresti (2013).

4.5.2 Aplicações
Associação entre renda e satisfação no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivı́duos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
satisfação no emprego. Denote por Yij o número de indivı́duos pertencentes
à classe de renda i com grau de satisfação j. Esses dados estão disponı́veis
no arquivo emprego.txt.

Tabela 4.12
Classificação de indivı́duos segundo a renda
e o grau de satisfação no emprego.
Grau de Satisfação
Renda (US$) Alto Bom Médio Baixo
<6000 20 24 80 82
6000-15000 22 38 104 125
15000-25000 13 28 81 113
>25000 7 18 54 92

351
2
Componente do Desvio

1
0
-1
-2
-3

-2 -1 0 1 2

Percentil da N(0,1)

Figura 4.11: Gráfico normal de probabilidades referente ao modelo log-linear

de Poisson ajustado aos dados sobre renda e satisfação no emprego.

Tabela 4.13
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado ao dados sobre renda e
satisfação no emprego.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,651 18,80
Renda 2 β1(2) 0,338 3,71
Renda 3 β1(3) 0,132 1,389
Renda 4 β1(4) -0,186 -1,81
Grau 2 β2(2) 0,555 3,49
Grau 3 β2(3) 1,638 11,87
Grau 4 β2(4) 1,894 13,93

Supor que Yij ∼ P(µij ) com parte sistemática inicialmente dada por (mo-
delo saturado)
log(µij ) = α + β1(i) + β2(j) + β12(ij) ,

352
em que µij denota o número esperado de indivı́duos pertencentes à classe
de renda i com grau de satisfação j, β1(i) denota o efeito renda, β2(j) de-
nota o efeito satisfação e β12(ij) denota a interação. Tem-se as restrições
β1(1) = β2(1) = 0. O teste da razão de verossimilhanças para testar H0 :
β12(ij) = 0, ∀ij (ausência de interação) fornece o valor ξRV = 12, 04 com nı́vel
descritivo P= 0, 21, indicando pela ausência de interação ou independência
entre os dois fatores. Denotando por πij a proporção de indivı́duos na classe
de renda i e grau de satisfação j, não rejeitar H0 é equivalente a escrever
πij = πi+ π+j , ∀ij, em que πi+ denota a proporção de indivı́duos na classe
de renda i e π+j denota a proporção de indivı́duos com grau de satisfação
j. Ou seja, tem-se independência entre renda e satisfação no emprego. Isso
significa que a distribuição do grau de satisfação no emprego é mesma em
todos as faixas de renda.
A Tabela 4.13 apresenta as estimativas dos parâmetros do modelo com
efeitos principais. Os fatores renda e grau de satisfação são altamente signi-
ficativos. Nota-se pelas estimativas dos parâmetros que há uma proporção
maior de indivı́duos na classe de renda 2 (6000-15000) e uma proporção me-
nor na classe de renda 4 (>25000). Por outro lado, nota-se que a proporção
de indivı́duos cresce com o aumento do grau de satisfação. O desvio do mo-
delo foi de D(y; µ̂) = 12, 04 (9 graus de liberdade) com nı́vel descritivo de
P= 0, 21, indicando um ajuste adequado.
Pelo gráfico normal de probabilidades com o resı́duo componente do des-
vio tDi , descrito na Figura 4.11, não há indı́cios fortes de que o modelo
adotado seja incorreto, embora o fato dos resı́duos negativos estarem abaixo
da reta mediana e os resı́duos positivos ligeiramente acima seja uma indı́cio
de sobredispersão nos dados. Assim, um modelo log-linear com resposta
binimoail negativa poderia levar a um ajuste mais adequado;

353
3
2

2
Componente do Desvio

Componente do Desvio

1
1

0
0

-1
-1

-2
-2

-3
-3

-2 -1 0 1 2 -2 -1 0 1 2

Percentil da N(0,1) Percentil da N(0,1)

(a) (b)

Figura 4.12: Gráficos normais de probabilidades referentes ao modelo log-

linear de Poisson (a) e log-linear de quase-verossimilhança (b) ajustados aos
dados sobre doença das coronárias.

Doença das coronárias

Considere agora os dados da Tabela 4.14 (Everitt, 1977) referente à classi-
ficação de 1330 pacientes segundo três fatores: doença das coronárias (sim
ou não), nı́vel de colesterol (1: menor do que 200 mg/100 cc, 2: 200-219,
3: 220-259 e 4: 260 ou +) e pressão arterial (1: menor do que 127 mm Hg,
2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados estão também descritos
no arquivo heart.txt. Denote por Yijk o número de pacientes nos nı́veis
(i, j, k) dos três fatores: doença das coronárias, nı́vel de colesterol e pressão
arterial, respectivamente. Supor que Yijk ∼ P(µijk ) com parte sistemática
inicialmente dada por (modelo saturado)

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) + β23(jk) + β123(ijk) ,

354
Tabela 4.14
Distribuição de 1330 pacientes segundo
ocorrência de doença das coronárias,
nı́vel de colesterol e pressão arterial.
Doença das Nı́vel de Pressão arterial
coronárias colesterol 1 2 3 4
1 2 3 3 4
Sim 2 3 2 1 3
3 8 11 6 6
4 7 12 11 11

1 117 121 47 22
Não 2 85 98 43 20
3 119 209 68 43
4 67 99 46 33

em que µijk denota o número esperado de indivı́duos pertencentes aos

nı́veis (i, j, k), respectivamente, β1(i) denota o efeito doença das coronárias,
β2(j) denota o efeito nı́vel de colesterol, β3(k) denota o efeito pressão arte-
rial e β12(ij) , β13(ik) , β23(jk) e β123(ijk) são as interações de 1a e 2a ordens,
respectivamente, com as restrições dadas na Seção 4.4.1.

Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doença das coronárias.
(D:doença, C:colesterol e P:pressão)
Efeito Desvio g.l. Diferença g.l.
D+C+P 78,96 24 - -
+ D.C 48,51 21 30,45 3
+ D.P 24,40 18 24,10 3
+ C.P 4,77 9 19,63 9

Pela Tabela 4.15 nota-se que, segundo o princı́pio hierárquico, apenas

a interação de segunda ordem pode ser eliminada. A inclusão dos efeitos

355
principais é altamente significativa. Dado que os efeitos principais estão no
modelo, a inclusão da interação doença*colesterol (β12(ij) ) leva a ξRV = 30, 45
(3 graus de liberdade) com P= 0, 00. Dado que essa interação está no modelo,
a inclusão da interação doença*pressão (β13(ik) ) fornece ξRV = 24, 10 (3 graus
de liberdade) com P= 0, 00. Finalmente, dadas as duas interações de primeira
ordem, a inclusão da interação remanescente, colesterol*pressão, leva a ξRV =
19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do modelo (4.9) sem a
interação de segunda ordem é de D(y; µ̂) = 4, 77 (9 graus de liberdade) para
um nı́vel descritivo de P= 0, 853, indicando um ajuste adequado.
A ausência de interação de segunda ordem neste exemplo significa que as
razões de chances (entre os nı́veis de colesterol ou entre os nı́veis de pressão
arterial) são as mesmas nos grupos de doentes e não doentes. Contudo,
o gráfico normal de probabilidades descrito na Figura 4.12a indica que os
resı́duos negativos estão acima da média esperada, ocorrendo o contrário
com os resı́duos positivos, embora todos sejam em geral pequenos. Isso é
um indı́cio modesto de subdispersão, fenômeno que também pode ocorrer
em modelos de Poisson. Um modelo de quase-verossimilhança similar ao que
foi usado no exemplo da Seção 4.2.6 leva à estimativa σ̂ 2 = 0, 53. Na Figura
4.12b tem-se o gráfico normal de probabilidades com o resı́duo componente
do desvio corrigido pela estimativa de dispersão. Nota-se que os resı́duos
estão melhor distribuı́dos dentro do envelope gerado.

4.6 Modelos com excesso de zeros

4.6.1 Modelos ajustados em zero
Os modelos de contagem ajustados em zero são também conhecidos como
modelos de barreira (ver, por exemplo, Mullaby, 1986). Para formalizá-los

356
vamos supor que Z é uma variável aleatória com função de probabilidades
dada por
(
π se z = 0,
P {Z = z} = fY (z)
(1 − π) {1−fY (0)} se z = 1, 2, . . . ,

em que 0 < π < 1 e fY (z) denota a função de probabilidades de uma variável

aleatória Y de contagem, por exemplo, Poisson ou binomial negativa. Por-
tanto, desde que ∞
P
z=1 fY (z) = 1 − fY (0), segue que
∞
X
P {Z ≥ 1} = (1 − π) fY (z)/{1 − fY (0)}
z=1
= (1 − π){1 − fY (0)}/{1 − fY (0)}
= 1 − π.
P∞
Logo, y=0 P {Z = z} = π + (1 − π) = 1. Um exemplo poderia ser Z
denotando o número de dias que pacientes dependendes de álcool que estão
fazendo tratamento consumiram a bebida. O zero representa os pacientes que
ficaram em abstinência no perı́odo mas que poderiam ter consumido alcool.
Um outro exemplo poderia ser estudar o número de vezes que um idoso visita
um médico no perı́odo de 1 ano. Os zeros são aqueles idosos que naquele ano
não precisaram ir ao médico. Os fatores que explicam a probabilidade de zero
podem ser diferentes daqueles que explicam a probabilidade de ocorrência do
evento.
Os dois primeiros momentos de Z ficam dados por
∞
X fY (z)
E(Z) = z(1 − π)
z=1
{1 − fY (0)}
∞
(1 − π) X
= zfY (z)
{1 − fY (0)} z=1
E(Y )(1 − π)
=
{1 − fY (0)}

357
e
∞
2
X fY (z)
E(Z ) = z 2 (1 − π)
z=1
{1 − fY (0)}
∞
(1 − π) X 2
= z fY (z)
{1 − fY (0)} z=1
E(Y 2 )(1 − π)
= .
{1 − fY (0)}
Daı́ segue que
E2 (Y )(1 − π)

(1 − π) 2
Var(Z) = E(Y ) − .
{1 − fY (0)} {1 − fY (0)}

Iremos denotar Z ∼ ZAP(λ, π) para o modelo de Poisson ajustado em

zero e Z ∼ ZANB(λ, φ, π) para o modelo binomial negativo ajustado em zero.
Logo, se Y ∼ P(λ) então fY (y) = e−λ λy /y! e em particular fY (0) = e−λ . Para
Y ∼ BN(λ, φ) temos que
y φ
Γ(φ + y) λ φ
fY (y) = ,
Γ(y + 1)Γ(φ) λ+φ λ+φ

em particular fY (0) = φφ /(λ + φ)φ .

4.6.2 Modelos de regressão ajustados em zero

Vamos supor agora que Z1 , . . . , Zn são variáveis aleatórias independentes com
distribuição de Poisson ou binomial negativa ajustadas em zero. Então,
(
πi se zi = 0,
P {Zi = zi } = fYi (zi )
(1 − πi ) {1−fY (0)} se zi = 1, 2, . . . ,
i

para i = 1, . . . , n. O logaritmo da função de verossimilhança fica dado por

L= ni=1 logfZi (zi ), em que logfZi (0) = logπi e logfZi (zi ) = log(1 − πi ) +
P

logfYi (zi ) − log{1 − fYi (0)} para zi = 1, 2, . . . .

358
Por exemplo, se assumimos que Zi ∼ ZAP(λi , π) em que λi = exi β e
>

µi = E(Zi ), então segue que

E(Yi )(1 − π)
µi =
{1 − fY (0)}
λi (1 − π)
=
{1 − e−λi }
exi β (1 − π)
>

= .
[1 − exp{−exp(x> i β)}]

Portanto,

logµi = x> >

i β + log(1 − π) − log[1 − exp{−exp(xi β)}].

4.6.3 Modelos inflacionados de zeros

Os modelos de contagem inflacionados de zeros (ver, por exemplo, Lambert,
1992) são caracterizados pela ocorrência de zeros em duas situações: (i) ze-
ros que ocorrem segundo uma distribuição de contagem ou (ii) zeros inflados
que podem ser zeros estruturais. Por exemplo, podemos estar interessados
em estudar o número de dias num perı́odo que um indivı́duo consumiu um
determinado produto. Aqueles indivı́duos que não consomem o produto por
alguma razão, por exemplo intolerância ao produto, serão tratadas como
zeros estruturais e aqueles indivı́duos que não consumiram o produto no
perı́odo, mas podem vir a consumı́-lo, como zeros eventuais que serão asso-
ciados a alguma distribuição de contagem Y . Um outro exemplo poderia ser
o estudo do número de vezes que um indı́viduo contraiu um tipo de infecção
num determinado perı́odo. Aqueles indivı́duos imunes à infecção seriam tra-
tados como zeros inflados. Nesses casos, a variável aleatória Z tem função
de probabilidades expressa na seguinte forma:

π + (1 − π)fY (0) se z = 0,
P {Z = z} =
(1 − π)fY (z) se z = 1, 2, . . . ,

359
em que 0 < π < 1 e fY (z) denota a função de probabilidades de uma
variável aleatória Y , por exemplo, Poisson ou binomial negativa. Desde que
P∞ P∞
z=1 fY (z) = 1 − fY (0) obtemos z=0 P {Z = z} = π + (1 − π)fY (0)} + (1 −

π){1 − fY (0)} = π + (1 − π) = 1.
Os dois primeiros momentos de Y ficam dados por
∞
X
E(Z) = z(1 − π)fY (z)
z=1
∞
X
= (1 − π) zfY (z)
z=1
= (1 − π)E(Y )

e
∞
X
2
E(Z ) = z 2 (1 − π)fY (z)
z=1
∞
X
= (1 − π) z 2 fY (z)
z=1
= (1 − π)E(Y 2 ).

Assim,

Var(Z) = E(Z 2 ) − E2 (Z)

= (1 − π)E(Y 2 ) − (1 − π)2 E2 (Y )
= (1 − π){E(Y 2 ) − (1 − π)E2 (Y )}.

Iremos denotar Z ∼ ZIP(λ, π) para a distribuição de Poisson inflacio-

nada de zeros e por Z ∼ ZINB(λ, φ, π) para a distribuição binomial negativa
inflacionada de zeros.

360
4.6.4 Modelos de regressão inflacionados de zeros
Vamos supor agora que Z1 , . . . , Zn são variáveis aleatórias independentes com
distribuição de Poisson ou binomial negativa inflacionadas de zeros. Então,

πi + (1 − πi )fY (0) se zi = 0,
P {Zi = zi } =
(1 − πi )fY (zi ) se zi = 1, 2, . . . ,

para i = 1, . . . , n. O logaritmo da função de verossimilhança fica dado por

L= ni=1 logfZi (zi ), em que logfZi (0) = log{πi +(1−πi )fYi (0)} e logfZi (zi ) =
P

log(1 − πi ) + logfYi (zi ) para zi = 1, 2, . . ..

Por exemplo, podemos supor que Yi ∼ P(λi ) com λi = exi β e log{πi /(1−
>

πi )} = u>
i γ. Dessa forma segue que µi = E(Zi ) fica expresso como

µi = (1 − πi )E(Yi )
= (1 − πi )λi
( )
eui γ
>

= 1− e i β
x>
1+e u >
i γ

exi β
>

= .
{1 + eui γ }
>

Isto é,
logµi = x> i γ }.
u>
i β − log{1 + e

Os modelos de contagem ajustados em zero e inflacionados de zeros podem

ajustados, por exemplo, pela bibilioteca pscl (Zeileis et al. 2008) do R.

4.7 Exercı́cios
1. Seja Y uma variável aleatória com distribuição binomial negativa, isto
é, Y é o número de ensaios até a ocorrência do r-ésimo sucesso, em que
π é a probabilidade de sucesso em cada ensaio. Mostre que a função de

361
probabilidades de Y pode ser expressa na forma exponencial. Calcule
µ e V (µ). Use a forma abaixo para a função de probabilidades de Y

y−1 r
f (y; π, r) = π (1 − π)(y−r) ,
r−1
em que y = r, r+1, . . .. Obtenha a função desvio supondo uma amostra
de n variáveis aleatórias independentes de probabilidades de sucesso πi .

2. Seja Y variável aleatória com distribuição binomial negativa biparamétrica

de média µ e parâmetro de forma ν, cuja função de probabilidades é
dada por
y ν
Γ(ν + y) µ ν
f (y; µ, ν) = ,
Γ(y + 1)Γ(ν) µ+ν µ+ν
em que µ > 0, ν > 0 e y = 0, 1, 2, . . . . Mostre que para ν conhecido
a distribuição de Y pertence à famı́lia exponencial de distribuições.
Encontrar a função de variância. Obtenha a função desvio supondo
uma amostra de n variáveis aleatórias independentes de médias µi e
parâmetro de dispersão ν.

3. Sejam Y1 e Y2 variáveis aleatórias independentes tais que Yi ∼ P(λi ),

i = 1, 2. Considere a razão de taxas ψ = λ1 /λ2 . Encontre a variância
assintótica de ψ̃, VarA (ψ̃).

4. (Breslow e Day, 1987). A tabela abaixo apresenta o número de mortes

por câncer respiratório e o número de pessoas-anos de observação entre
trabalhadores de indústrias siderúrgicas do estado de Montana (EUA)
segundo o nı́vel de exposição ao arsênico.

Nı́vel de Exposição
Alto Baixo
Casos 68 47
Pessoas-Anos 9018 13783

362
Sejam Y1 e Y2 o número de casos observados para o nı́vel alto e baixo de
arsênico, respectivamente. Suponha que Yi ∼ P(λi ti ), em que ti denota
o número de pessoas-anos, i = 1, 2. Considere a razão de taxas ψ =
λ1 /λ2 . Encontre ψ̃ e um intervalo de confiança exato de 95% para ψ.
Com base neste intervalo qual sua conclusão sobre a hipótese H0 : ψ =
1? Informações úteis: F136,96 (0, 025) = 0, 694 e F138,94 (0, 975) = 1, 461.

5. (Neter et al., 1996, p. 623). No arquivo geriatra.txt estão descritos

os dados de um estudo prospectivo com 100 indivı́duos de pelo menos
65 anos de idade em boas condições fı́sicas. O objetivo do estudo é
tentar relacionar o número médio de quedas num perı́odo de seis me-
ses com algumas variáveis explicativas. Os dados estão descritos na
seguinte ordem: quedas (número de quedas no perı́odo), intervenç~
ao
(=0 educação somente, =1 educação e exercı́cios fı́sicos), sexo (=0 fe-
minino, =1 masculino), balanço (escore) e força (escore). Para as
variáveis balanço e força quanto maior o valor maior o balanço e a
força do indivı́duo, respectivamente. Tente selecionar um modelo apro-
priado apenas com os efeitos principais. Interprete os resultados e faça
uma análise de diagnóstico.

6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.txt

são provenientes de um estudo de seguimento para estudar a associação
entre a taxa anual de câncer nasal em trabalhadores de uma refinaria de
nı́quel no Paı́s de Gales e algumas variáveis explicativas: idade no pri-
meiro emprego (4 nı́veis), ano do primeiro emprego (4 nı́veis) e tempo
decorrido desde o primeiro emprego (5 nı́veis). São também apresenta-
dos o número de casos de câncer nasal e o total de pessoas-anos para
cada combinação desses três fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o número de casos de câncer nasal com

363
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos três fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Veri-
fique se é possı́vel incluir alguma interação de primeira ordem. Faça
uma análise de diagnóstico com o modelo final e interprete os resul-
tados, por exemplo, fazendo uma comparação das taxas estimadas de
câncer nasal entre os nı́veis de um mesmo fator.

7. (Hinde, 1982). No arquivo rolos.txt são apresentados os dados refe-

rentes à produção de peças de tecido numa determinada fábrica. Na
primeira coluna tem-se o comprimento da peça (em metros) e na se-
gunda coluna o número de falhas. Faça inicialmente um gráfico do
número de falhas contra o comprimento da peça. Ajuste um modelo
log-linear de Poisson apropriado. Faça uma análise de resı́duos e ve-
rifique se há indı́cios de sobredispersão. Em caso afirmativo ajuste
um modelo de quase-verossimilhança e um modelo log-linear com dis-
tribuição binomial negativa. Interprete os resultados pelas razões de
médias µ(x + 1)/µ(x), em que x denota o comprimento da peça.

8. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ P(µi )

e parte sistemática dada por ηi = pj=1 xij βj tal que ni=1 xij xi` = 0,
P P

para j 6= `. Ou seja, as colunas da matriz modelo X são ortogonais.

Encontre a ligação que faz com que Corr(β̂j , β̂` ) = 0, para j 6= `.
Comente sobre as vantagens desse resultado.

9. Considere um experimento em que duas máquinas, M1 e M2, são ob-

servadas durante o mesmo perı́odo sendo computados para cada uma
o número de peças defeituosas produzidas, conforme descrito pelo es-
quema abaixo.

364
M1 M2
P. Defeituosas y1 y2

Suponha que Y1 ∼ P(λ1 ) e Y2 ∼ P(λ2 ) e considere o modelo log-linear

logλ1 = α e logλ2 = α + β. Obtenha a variância assintótica de β̂,
Vary (β̂), expressando-a em função de α e β. Proponha agora um mo-
delo binomial condicional, dado Y1 + Y2 = m. Expresse a probabilidade
de sucesso π em função de β. Interprete π e encontre a variância as-
sintótica de β̂, Vary|m (β̂). Mostre que as duas variâncias assintóticas
estimadas coincidem e são dadas por

(1 + eβ̂ )2
V̂ar(β̂) = ,
meβ̂
em que β̂ é o estimador de máxima verossimilhança de β. Comente.

10. Supor Y1 , . . . , Yn variáveis aleatórias independents tais que Yi ∼ P(µi )

√
e seja µi = α + β(xi − x̄), em que x̄ é a média amostral de x1 , . . . , xn .
(i) Obtenha a matriz modelo X. (ii) Calcule as variâncias assintóticas
Var(α̂) e Var(β̂). (iii) Mostre também que Cov(α̂, β̂) = 0 e comente.
(iv) Como fica o teste de escore para testar H0 : β = 0 contra H1 : β 6=
0? Qual a distribuição nula assintótica da estatı́stica do teste?

11. Sejam Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
BN(µi , ν) para i = 1, 2 e j = 1, . . . , m com parte sistemática dada por
µ1 = α −β e µ2 = α +β. (i) Como fica a matriz modelo X? (ii) Calcule
Var(β̂) e (iii) mostre que a estatı́stica de escore para testar H0 : β = 0
contra H1 : β 6= 0 pode ser expressa na forma
mν̂ 0 (ȳ2 − ȳ1 )2
ξSR = ,
2ȳ (ȳ + ν̂ 0 )
em que ȳ = (ȳ1 + ȳ2 )/2 e ν̂ 0 denota a estimativa de ν sob H0 .

365
12. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ BN(µi , ν)
P
xi
com parte sistemática dada por logµi = α + β(xi − x̄) em que x̄ = n
.
(i) Como fica a matriz modelo X? (ii) Obtenha Var(β̂). (iii) Como fica
o teste de escore para testar H0 : β = 0 contra H1 : β 6= 0? Qual a
distribuição nula assintótica da estatı́stica do teste?

13. Sejam Y1 , . . . , Yn variáveis i.i.d. tais que Yi ∼ BN(µ, φ), i = 1, . . . , n.

Como fica o teste da razão de verossimilhanças para testar H0 : φ = 1
contra H1 : φ 6= 1? Qual a distribuição nula assintótica da estatı́stica
do teste? Como fica a estimativa de µ sob as duas hipóteses?

14. Na tabela abaixo uma amostra de 174 alunos de Estatı́stica Básica no

IME-USP foi classificada segundo o curso e o desempenho na disciplina.

Resultado da Avaliação
Curso Aprovado Reprovado Reavaliação
Pedagogia 32 16 3
Geografia 32 18 10
Fı́sica 35 14 14

Ajustar um modelo log-linear de Poisson para explicar πij , a proporção

de alunos do curso i com resultado j, em que i, j = 1, 2, 3. Interprete
os resultados e faça uma análise de diagnóstico.

15. (Hand et al., 1994). No arquivo recrutas.txt são descritos os resul-

tados de um estudo desenvolvido em 1990 com recrutas americanos
referente a associação entre o número de infeções de ouvido e alguns
fatores. Os dados são apresentados na seguinte ordem: hábito de nadar
(ocasional ou frequente), local onde costuma nadar (piscina ou praia),
faixa etária (15-19, 20-25 ou 25-29), sexo (masculino ou feminino) e

366
número de infecções de ouvido diagnosticadas pelo próprio recruta. Ve-
rifique qual dos modelos, log-linear de Poisson, quase-verossimilhança
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
métodos de diagnóstico como critério.

16. Supor, por um lado, o modelo log-linear de Poisson em que Yi ∼ P(µi ),

i = 1, 2, 3, em que logµ1 = α, logµ2 = α + β2 e logµ3 = α + β3 . Fazendo
τ = µ1 +µ2 +µ3 expresse o logaritmo da função de verossimilhança desse
modelo em função de (τ, β2 , β3 ). Mostre que a matriz de informação de
Fisher é bloco diagonal Kτ β = diag{Kτ , Kβ }, em que β = (β2 , β3 )> .
Por outro lado, sabe-se que a distribuição condicional Y = a|Y1 + Y2 +
Y3 = n, em que Y = (Y1 , Y2 , Y3 )> e a = (a1 , a2 , a3 )> , é multinomial
M (a1 , a2 , a3 ; π1 , π2 , π3 ). Supor o modelo log-linear logπ1 = α∗ , logπ2 =
α∗ + β2 e logπ3 = α∗ + β3 , em que α∗ = −log(1 + eβ2 + eβ3 ) devido
à restrição π1 + π2 + π3 = 1. Encontre a matriz de informação de
Fisher K∗β para β = (β2 , β3 )> no modelo multinomial. Mostre que
as estimativas de máxima verossimilhança para β coincidem nos dois
modelos log-lineares. Mostre também que Kβ = K∗β quando τ = n,
comente.

17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apre-

senta o resultado de uma pesquisa em que 1008 pessoas receberam
duas marcas de detergente, X e M, e posteriormente responderam às
seguintes perguntas: maciez da água (leve, média ou forte); uso an-
terior do detergente M (sim ou não); temperatura da água (alta ou
baixa); preferência (marca X ou marca M). Esses dados estão descritos
no arquivo detergente.txt.

367
Maciez
Temperatura Uso de M Preferência Leve Média Forte
Alta Sim X 19 23 24
M 29 47 43
Não X 29 33 42
M 27 23 30
Baixa Sim X 57 47 37
M 49 55 52
Não X 63 66 68
M 53 50 42

Ajustar um modelo log-linear de Poisson para explicar πijk` , a pro-

porção de indivı́duos que responderam, respectivamente, nı́vel de tem-
peratura (i=1 alta, i=2 baixa), uso prévio de M (j=1 sim, j=2 não),
preferência (k=1 X, k=2 M) e nı́vel de maciez (` = 1 leve, ` = 2
médio, ` = 3 forte). Selecionar através do método AIC os efeitos prin-
cipais significativos. Depois incluir apenas as interações significativas
de primeira ordem. Interpretar os resultados e fazer uma análise de
diagnóstico.

18. Supor que Yij ∼ P(µij ), para i = 1, . . . , r e j = 1, . . . , c, com parte

sistemática dada por

logµij = α + βi + γj ,

em que β1 = γ1 = 0. Supor ainda que os βi ’s referem-se aos efeitos

do fator A e os γj ’s aos efeitos do fator B. Defina um modelo multi-
nomial equivalente e mostre que a representação acima corresponde à
independência (no sentido probabilı́stico) entre os fatores A e B.

19. Seja o modelo trinomial em que π0 = P r(Y = 0), π1 = P r(Y = 1) e

π2 = P r(Y = 2) com a restrição π0 + π1 + π2 = 1. Suponha que Y = 0

368
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2
se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
função de probabilidades de (Z0 , Z1 , Z2 ) fica dada por

g(z0 , z1 , z2 ; π0 , π1 , π2 ) = π0z0 π1z1 π2z2 .

Logo, para uma amostra aleatória de tamanho n a função de probabi-

lidades de Y = (Y1 , . . . , Yn )> pode ser expressa na forma

z0i z1i z2i

g(y; π 0 , π 1 , π 2 ) = Πni=1 π0i π1i π2i .

É usual considerar a parte sistemática

π1i > π2i
log = η1i = xi β 1 e log = η2i = x>
i β2
π0i π0i
sendo que xi = (xi1 , . . . , xip )> , β 1 = (β11 , . . . , β1p )> e β 2 = (β21 , . . . , β2p )> .
Responda aos itens abaixo:

(a) Verifique que π0i = {1 + eη1i + eη2i }−1 , π1i = eη1i /{1 + eη1i + eη2i }
e π2i = eη2i /{1 + eη1i + eη2i }.

(b) Encontre as funções escore Uβ1 e Uβ2 de β 1 e β 2 , respectivamente.

(c) Encontre a matriz de informação de Fisher para β = (β > > >

1 , β2 ) .

(d) Desenvolva um processo iterativo para obter a estimativa de máxima

verossimilhança de β. Deixe o processo iterativo em forma matri-
cial. Como iniciá-lo?

(e) Como fica o desvio do modelo? E o resı́duo componente do desvio?

iid
20. Supor que Zi ∼ ZAP(µ, π), para i = 1, . . . , n. Obtenha as estimativas
de máxima verossimilhança µ̂ e π̂ e a matriz de informação de Fisher
para (µ, π). Sugestão: supor que o total de zeros na amostra segue
uma B(n, π).

369
iid
21. Supor que Zi ∼ ZANBI(µ, ν, π), para i = 1, . . . , n, em que a função de
probabilidades de zi fica dada por
(
π se zi = 0
fz (zi ; µ, ν, π) = fy (zi ;µ,ν)
(1 − π) 1−fy (0;µ,ν) se zi = 1, 2, . . . ,

em que fy (yi ; µ, ν) denota a função de probabilidades de uma BN(µ, ν).

Supondo ν = 1 obter a estatı́stica da razão de verossimilhanças para
testar H: µ = 1 contra A: µ 6= 1?

22. (Lang et al., 1994). No arquivo nitrofen.txt estão descritos os dados

de um experimento com uma amostra de 50 C.dubia (pequeno animal
invertebrado aquático de água doce), que foram submetidos a dosagens
diferentes do herbicida Nitrofen: 0, 80, 160, 235 e 310 mg/`. Para
cada nı́vel de Nitrofen 10 animais ficaram expostos e foi observado o
total de ovos eclodidos após 3 ninhadas. Faça inicialmente uma análise
descritiva dos dados, por exemplo um diagrama de dispersão entre o
número de ovos eclodidos (tovos) contra o nı́vel de exposição do her-
bicida (dose). Compare os ajustes de alguns modelos com resposta
de Poisson para explicar o total de ovos eclodidos dado o nı́vel de ex-
posição. Escolha o melhor ajuste através de métodos de diagnóstico.
Para o modelo selecionado faça uma interpretação dos coeficientes es-
timados.
iid
23. Supor que Zi ∼ ZAP(µ, π), em que π = eα /(1 + eα ), para i = 1, . . . , n.
Obtenha a estimativa de máxima verossimilhança α̂ bem como Var(α̂).
Como fica a estatı́stica do teste da razão de verossimilhanças para testar
H0 : α = 0 contra H1 : α 6= 0?

24. Supor que Yi são variáveis aleatórias iid Poisson truncada em zero com

370
função de probabilidades dada por

e−λ λyi
f (yi ; λ) = ,
yi !(1 − e−λ )
para yi = 1, 2, . . ., em que λ > 0 e i = 1, . . . , n. Mostre que Uλ =
n
λ
{ȳ − λeλ /(eλ − 1)}, obtenha Kλλ e apresente o procedimento iterativo
escore de Fisher para obter µ̂.

371
Capı́tulo 5

Modelos de
Quase-Verossimilhança

5.1 Introdução
Wedderburn (1974) propôs uma função biparamétrica, denominada função de
quase-verossimilhança, que engloba algumas funções de verossimilhança da
famı́lia exponencial. Todavia, na maioria das situações não é possı́vel através
da função de quase-verossimilhança recuperar a verdadeira distribuição da
variável resposta. Se Y é a variável aleatória de interesse o logaritmo da
função de quase-verossimilhnaça é definido por
Z µ
1 y−t
Q(µ; y) = 2 dt,
σ y V (t)
em que V (t) é uma função positiva e conhecida, −∞ < y, µ < ∞ e σ 2 > 0 é
um parâmetro de dispersão. Como temos acima uma integral definida, segue
que
∂Q(µ; y) y−t µ
= |
∂µ σ 2 V (t) y
y−µ
= .
σ 2 V (µ)
Aplicando as condições abaixo de regularidade

372
n o
∂Q(µ;Y )
(i) E ∂µ
=0 e
n o2 n o
∂Q(µ;Y ) ∂ 2 Q(µ;Y )
(ii) E ∂µ
= −E ∂µ2
,

mostra-se facilmente que E(Y ) = µ e Var(Y ) = σ 2 V (µ). Ou seja, µ é a

média da variável resposta e a variância de Y é proporcional a V (µ), como
nos MLGs, embora nem sempre V (µ) seja uma função de variância. Uma
terceira propriedade mostrada por Wedderburn (1974) é a seguinte:
n 2 o n 2 o
∂ Q(µ;Y ) ∂ L(µ;Y )
(iii) −E ∂µ2
≤ −E ∂µ2
.

Essa relação mostra que a informação a respeito de µ quando se conhece

apenas a relação entre a variância e a média é menor do que a informação
a respeito de µ quando se conhece a distribuição da resposta (informação de
Fisher). Assim, a quantidade E{∂ 2 (Q − L)/∂µ2 } pode ser interpretada como
o ganho quando acrescenta-se ao conhecimento da relação média-variância
também o conhecimento da distribuição da resposta.
Dependendo das especificações de σ 2 e V (µ) poderemos recuperar a dis-
tribuição de Y . Abaixo são apresentados alguns exemplos.

Exemplos
Normal
Vamos supor V (t) = 1 e −∞ < t, y < ∞. Logo, o logaritmo da função de
quase-verossimilhança fica dado por
Z µ
y−t (y − t)2 µ (y − µ)2
Q(µ; y) = dt = − |y = − ,
y σ2 2σ 2 2σ 2

que é proporcional ao logaritmo da função de verossimilhança de uma N (µ, σ 2 )

para σ 2 conhecido.

373
Poisson
Vamos supor V (t) = t e y ≥ 0, t > 0. Logo, obtemos
Z µ
y−t
Q(µ; y) = dt
y σ2t
1
= (ylogt − t)|µy
σ2
1
= {ylogµ − µ − ylogy + y}.
σ2
Se assumirmos σ 2 = 1 e y > 0 temos que Q(µ; y) é proporcional ao logaritmo
da função de verossimilhança de uma P(µ).
Para y = 0 obtemos
µ
−t −t
Z
µ
Q(µ; y) = 2
dt = 2 |µ0 = − 2 ,
0 σ t σ σ

que coincide quando σ 2 = 1 com logP (Y = 0), em que Y ∼ P(µ).

Binomial
Supor a função V (t) = t(1 − t), 0 ≤ y ≤ 1 e 0 < t < 1. O logaritmo da
função de quase-verossimilhança fica nesse caso dado por

µ
y−t
Z
Q(µ; y) = dt
y σ 2 t(1
− t)
Z µ Z µ
y 1 1 1
= 2
dt − 2 dt
σ y t(1 − t) σ y (1 − t)

y t 1
= 2
log |µy + 2 log(1 − t)|µy
σ 1−t σ
y 1
= 2
[log{µ(1 − µ) − log{y/(1 − y)}] + 2 {log(1 − µ) − log(1 − y)},
σ σ
para 0 < y, µ < 1.

374
Para y = 0 temos que
µ
−t
Z
Q(µ; y) = 2
dt
0 σ t(1 − t)
Z µ
1 t
= − 2 dt
σ 0 t(1 − t)
1
= log(1 − t)|µ0
σ2
1
= log(1 − µ),
σ2
que para σ 2 = 1 coincide com logP (Y = 0), em que Y ∼ Be(µ).
Quando y = 1 segue que
µ
(1 − t)
Z
Q(µ; y) = dt
1 σ 2 t(1
− t)
Z µ
1 1
= 2
σ 1 t
1
= 2
logt|µ1
σ
1
= logµ,
σ2
que para σ 2 = 1 coincide com logP (Y = 1), em que Y ∼ Be(µ).

Gama
Supor a função V (t) = t2 e y, t > 0. O logaritmo da função de quase-
verossimilhança fica nesse caso dado por
Z µ
y−t
Q(µ; y) = dt
y σ 2 t2
1
= (−y/t − logt)|µy
σ2
1
= {−y/µ − logµ + 1 + logy}.
σ2
Para σ 2 conhecido temos que Q(y; µ) é proporcional ao logaritmo da função
de verossimilhança de uma G(µ, φ), em que φ = 1/σ 2

375
Função V (t) = t2 (1 − t)2
Suponha 0 < t < 1 e 0 ≤ y ≤ 1. Nesse caso o logaritmo da função de
quase-verossimilhança fica dada por
Z µ
1 y−t
Q(µ; y) = dt
σ y t (1 − t)2
2 2

1
∝ [(2y − 1)log{µ/(1 − µ)} − y/µ − (1 − y)/(1 − µ)].
σ2
A função Q(µ; y) obtida acima não corresponde a nenhuma função com ve-
rossimilhança conhecida. Portanto, apenas para algumas funções de quase-
verossimilhança tem-se uma função de verossimilhança correspondente.
Em particular, para as funções V (t) = t3 , t > 0, V (t) = t(1 + t), t > 0 e
V (t) = e−t , t ∈ IR, é possı́vel recuperar distribuições da famı́lia exponencial
uniparamétrica, bem como definir novos modelos de quae-verossimilhança.

5.2 Respostas independentes

Vamos supor que Y1 , . . . , Yn são variáveis aleatórias independentes com loga-
ritmo da função de quase-verossimilhança Q(µi ; yi ), i = 1, . . . , n. O logaritmo
da função de quase-verossimilhança correspondente à distribuição conjunta
fica dado por
n
X
Q(µ; y) = Q(µi ; yi ). (5.1)
i=1

Vamos supor ainda que

g(µi ) = ηi = xTi β, (5.2)

em que xi = (xi1 , . . . , xip )T contém valores de variáveis explicativas, β =

(β1 , . . . , βp )T e g(·) é uma função de ligação. Note que os MLGs são um caso
particular de (5.1)-(5.2).

376
5.2.1 Estimação
Denotando Q(β) = Q(µ(β); y), podemos mostrar que a função quase-escore
para β fica expressa na forma
∂Q(β) 1
Uβ = = 2 DT V−1 (y − µ),
∂β σ
em que D = ∂µ/∂β = W1/2 V1/2 X, µ = (µ1 , . . . , µn )T , y = (y1 , . . . , yn )T ,
V = diag{V1 , . . . , Vn }, W = diag{ω1 , . . . , ωn } com ωi = (dµ/dη)2i /Vi e X é
uma matriz n × p de linhas xTi , i = 1, . . . , n. A matriz de quase-informação
para β fica dada por
∂ 2 Q(β)

1 T −1
Kββ = −E = D V D.
∂β∂β T σ2
A estimativa de quase-verossimilhança para β sai da solução da equação
Uβ = 0 que pode ser resolvida pelo método escore de Fisher resultando no
seguinte processo iterativo:

β (m+1) = β (m) + {D(m)T V−(m) D(m) }−1 D(m)T V−(m) {y − µ(m) }, (5.3)

m = 0, 1, 2, . . . . Note que o processo iterativo (5.3) não depende de σ 2 , no

entanto, precisa ser iniciado numa quantidade β (0) . Mostra-se, sob certas
condições de regularidade (vide, por exemplo, McCullagh e Nelder, 1989, p.
333), que β̂ é consistente e assintoticamente normal com matriz de variância-
covariância dada por Var(β̂) = σ 2 (DT V−1 D)−1 . O parâmetro de dispersão
σ 2 deve ser estimado separadamente.

5.2.2 Estimador de momentos

Podemos verificar facilmente que
( )
(Yi − µi )
Var p = 1,
σ V (µi )

377
e daı́ segue ( )
(Yi − µi )
Var p = σ2,
V (µi )
e, portanto, um estimador de momentos para σ 2 fica dado por
n
X (yi − µ̂i )2
2 1
σ̂ = .
(n − p) i=1 V (µ̂i )

5.2.3 Função quase-desvio

É possı́vel definir uma função tipo desvio para os modelos de quase-verossimilhança
de forma similar aos MLGs. Sejam Q(y; y) e Q(µ̂; y), respectivamente, as
funções de quase-verossimilhança do modelo saturado e do modelo sob inves-
tigação. A função quase-desvio não escalonada é definida por

D(y; µ̂) = 2σ 2 {Q(y; y) − Q(µ̂; y)}

n
X
2 2
= −2σ Q(µ̂; y) = −2σ Q(µ̂i ; yi )
i=1
n Z yi
X yi − t
= 2 dt,
i=1 µ̂i V (t)

que não depende de σ 2 . É natural que se compare a função quase-desvio

escalonada D∗ (y; µ̂) = σ −2 D(y; µ̂) com os percentis da distribuição χ2(n−p) ,
embora não seja em geral conhecida a distribuição nula de σ −2 D(y; µ̂). Apre-
sentamos abaixo a função quase-desvio não escalonada para alguns casos
particulares supondo uma única observação.

V (µ) Componente de D(y; µ)

µ −2{ylogµ − µ − ylogy + y}, y, µ > 0
µ(1 − µ) −2[ylog{µ/(1 − µ)} + log(1 − µ) − logy], 0 < y, µ < 1
µ2 −2{1 − y/µ − logµ + logy}, y, µ > 0

378
5.2.4 Teste de hipóteses
Seja o vetor paramétrico β particionado tal que β = (β T1 , β T2 )T , β 1 e β 2
são subvetores de dimensão q e p − q, respectivamente. Suponha que temos
interesse em testar H0 : β 1 = 0 contra H1 : β 1 6= 0. McCullagh (1983)
mostra que também no caso de quase-verossimilhança a diferença entre duas
funções quase-desvio funciona como um teste da razão de verossimilhanças.
Ou seja, se denotarmos por D(y; µ̂0 ) a função quase-desvio sob H0 e por
D(y; µ̂) a função quase-desvio sob H1 , para n grande e sob H0 , temos que
1
D(y; µ̂0 ) − D(y; µ̂) ∼ χ2q ,
σ2
para σ 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore são também possı́veis de serem desenvolvidos.
Usando resultados do Capı́tulo 1 podemos mostrar que

Var(β̂ 1 ) = {DT1 V1/2 M2 V1/2 D1 }−1 ,

em que M2 = I − H2 , H2 = V1/2 D2 (DT2 VD2 )−1 DT2 V1/2 , D1 = W1/2 V1/2 X1

e D2 = W1/2 V1/2 X2 . Assim, um teste tipo Wald fica dado por
T −1
ξW = β̂ 1 V̂ar (β̂ 1 )β̂ 1 ,

em que V̂ar(β̂ 1 ) denota que a variância está sendo avaliada em β̂. Já o teste
quase-escore para testar H0 : β 1 = 0 contra H1 : β 1 6= 0 fica dado por
0 0
ξSR = Uβ1 (β̂ )T V̂ar0 (β̂ 1 )Uβ1 (β̂ ),

em que
∂Q(β)
Uβ1 =
∂β 1
1 T −1
= D V (y − µ),
σ2 1
379
0 0T 0
com todas as quantidades sendo avaliadas em β̂ = (0T , β̂ 2 )T e β̂ 2 sendo
a estimativa de β 2 sob H0 . Sob H0 e sob condições usuais de regularidade
temos que, para n → ∞, ξW , ξSR ∼ χ2q .

5.2.5 Resı́duos
O não conhecimento da verdadeira função de verossimilhança de β dificulta
o desenvolvimento de alguns métodos de diagnóstico. Tanto o estudo de
resı́duos como de medidas de influência dependem em geral do conhecimento
de L(β). O que tem sido proposto em modelos de quase-verossimilhança
no sentido de avaliar a qualidade do ajuste são gráficos de resı́duos. Uma
sugestão (vide McCullagh e Nelder, 1989, Cap. 9) é o gráfico do resı́duo de
Pearson
yi − µ̂i
r̂Pi = p
σ̂ V (µ̂i )
contra alguma função dos valores ajustados, como por exemplo contra g(µ̂i ),
em que g(·) é a função de ligação. Espera-se uma distribuição aleatória dos
resı́duos em torno do eixo zero. Tendências diferentes, como por exemplo
aumento da variabilidade, podem indicar que a função V (µi ) não é adequada.
Um outro resı́duo que pode também ser utilizado, embora de forma descritiva,
é dado por
±d( yi ; µ̂i )
tDi = p ,
σ̂ 1 − ĥii
em que d(yi ; µ̂i ) é a raiz quadrada com sinal de yi − µ̂i do i-ésimo compo-
nente do quase-desvio D(y; µ̂), enquanto hii é o i-ésimo elemento da diagonal
principal da matriz

H = V−1/2 D(DT V−1 D)−1 DT V−1/2 .

380
5.2.6 Influência
Uma versão da distância de Cook para os modelos de quase-verossimilhança
fica dada por
ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

em que r̂Pi é o resı́duo de Pearson e ĥii denota o i-ésimo elemento da diagonal

principal da matriz Ĥ. Gráficos de LDi contra a ordem das observações ou
contra os valores ajustados podem revelar pontos possivelmente influentes
nos parâmetros do preditor linear.

5.2.7 Seleção de Modelos

Uma extensão natural do método de Akaike para os modelos de quase-
verossimilhança (ver, por exemplo, Pan, 2001) é considerar

AIC = −2Q(β̂) + 2p,

em que Q(β̂) á a função de quase-verossimilhança avalianda em β̂.

5.2.8 Aplicações
Mosca do chifre
No arquivo mosca.txt é apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuição do número de ácaros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas são depósitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuária brasileira. Os ácaros são inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.txt tem-se a distribuição do número de ácaros
de quatro espécies segundo algumas variáveis de interesse: (i) N, número de

381
partes da posição da placa onde foram coletados os ácaros, (ii) Posiç~
ao,
posição na placa onde foram coletados os ácaros (1: lateral, 0: central), (iii)
ao, região onde a placa foi coletada (1: São Roque, 2: Pindamonhan-
Regi~
gaba, 3: Nova Odessa e 4: Ribeirão Preto) e (iv) Temp, temperatura no local
da coleta (em o C).

Tabela 5.1
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (µ) = µ2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos Sem pontos aberrantes
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante -0,828 -0,74 -2,575 -2,13
Posição -0,288 -0,64 0.380 0,78
Pinda -0,424 -0,66 -0,910 -1,31
N. Odessa -1,224 -1,71 -1,836 -2,36
R. Preto -2,052 -2,98 -2,589 -3,46
Temp. 0,029 0,67 0,087 1,84
2
σ 5,129 5,913

Pensou-se inicialmente, como trata-se de dados de contagem, num modelo

log-linear de Poisson para explicar o número médio de ácaros segundo as
variáveis explicativas. Denotando por Yijk o número de ácaros coletados na
i-ésima posição da k-ésima placa e j-ésima região, vamos supor que Yijk ∼
P(µijk ), µijk = Nijk λijk , i = 1, 2 e j = 1, . . . , 6, com Nijk denotando o número
de partes na i-ésima posição da k-ésima placa coletada na j-ésima região. A
parte sistemática do modelo fica dada por

logµijk = logNijk + logλijk , (5.4)

em que
logλijk = α + βi + γj + δTempjk , (5.5)

382
logNijk desempenha papel de offset, βi denota o efeito da posição, γj o efeito
da região e Tempjk a temperatura na j-ésima região no momento da coleta
da k-ésima placa. Temos as restrições β1 = γ1 = 0. O desvio do modelo
ajustado para a espécie 6 foi de D(y; µ̂) = 318, 69 (96 graus de liberdade)
indicando fortes indı́cios de sobredispersão. Propomos então um modelo
de quase-verossimilhança com função dada por V (µijk ) = µijk . Esse modelo
parece também inadequado pelo gráfico de resı́duos de Pearson r̂Pijk = (yijk −
p
µ̂ijk )/σ̂ µ̂ijk contra logµ̂ijk (Figura 5.1).
5
4
Residuo de Pearson

3
2
1
0
-1

-2 -1 0 1

Log Valor Ajustado

Figura 5.1: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ aos dados sobre a mosca do chifre.

Nota-se um aumento da variabilidade com o aumento do logaritmo das

médias ajustadas, indı́cio de que a variabilidade não foi totalmente contro-
lada. Para ajustar o modelo no R, vamos supor que as variáveis Posiç~
ao,
ao e Temp sejam colocadas em posicao, regiao e temp, respectivamente,
Regi~

383
e que logN denota o logaritmo do número de partes da placa. O número de
ácaros será denotado por acaros. A sequência de comandos é dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).

84
28 61
3
Residuo de Pearson

2
1
0

-2 -1 0 1

Log Valores Ajustado

Figura 5.2: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ2 aos dados sobre a mosca do chifre.

Se colocarmos em phi a estimativa do parâmetro de dispersão, o resı́duo de

Pearson padronizado será obtido pelo comando
phi = summary(fit1.mosca)$dispersion
rp = resid(fit.mosca, type = "pearson")/sqrt(phi).
No objeto fit.mosca estão os principais resultados do ajuste. Propomos
agora, a fim de controlar a variabilidade, um modelo de quase-verossimilhança

384
com função quadrática V (µijk ) = µ2ijk e parte sistemática dada por (5.4)-
(5.5). O gráfico do resı́duo de Pearson contra o logaritmo das médias ajus-
tadas (Figura 5.2) parece bastante razoável, embora apareçam 9 placas com
valores para r̂Pijk acima de 2. Na Tabela 5.1 apresentamos as estimativas dos
parâmetros com todas as placas e também eliminando as placas com resı́duos
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos são dados abaixo
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2"), maxit=50)
fit2.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeirão Preto apresentam um número médio de ácaros bem menor do
que as outras duas regiões. Não há indı́cios de efeito de posição, porém a
eliminação das três placas com valores mais aberrantes faz com que o efeito de
temperatura fique mais acentuado, havendo indı́cios de que o número médio
de ácaros cresce com o aumento da temperatura.
As placas #28, #61 e #84 têm em comum o fato de apresentarem um
número médio de ácaros (por parte de placa) pelo menos duas vezes acima da
média em temperaturas relativamente baixas. Essas placas foram coletadas
nas regiões de Pindamonhangaba, Nova Odessa e Ribeirão Preto, respectiva-
mente. Assim, é esperado que a eliminação dessas placas reduza o valor das
estimativas dos efeitos dessas regiões como também aumente a estimativa
do coeficiente da temperatura. A fim de que as 9 placas com resı́duos mais
aberrantes possam ser melhor ajustadas pode-se tentar outras formas para
a função V (µ), como por exemplo V (µ) = µ2 (1 + µ)2 (vide Paula e Tavares,

385
1992).

Demanda de TV a cabo
Vamos reanalisar nesta seção o exemplo sobre demanda de TV a cabo discu-
tido no Capı́tulo 4 sob um enfoque de modelo log-linear com resposta bino-
mial negativa. Proporemos aqui um modelo um pouco diferente. Ao invés de
ser ajustado o número médio esperado de assinantes de TV a cabo será ajus-
tada a proporção esperada de assinantes de TV a cabo em cada área. A pro-
porção observada é dada por Razao = Nass/Domic. Como 0 ≤ Razao ≤ 1,
propomos o seguinte modelo de quase-verossimilhança:

E(Razaoi ) = πi e
Var(Razaoi ) = σ 2 πi (1 − πi ),

em que πi denota a proporção esperada de assinantes na i-ésima área, i =

1, . . . , 40. A parte sistemática do modelo será dada por

πi
log = α + β1 Percapi + β2 Taxai + β3 Custoi + β4 Ncaboi + β5 Ntvi .
1 − πi
Na Figura 5.3 é apresentado o gráfico da distância de Cook contra das
observações com destaque para as áreas #5 e #14. A observação #5 cor-
responde a uma área de renda alta porém com uma proporção pequena de
assinantes de TV a cabo, talvez devido aos altos custos de instalação e ma-
nutenção. Já a área #14 tem uma proporção alta de assinantes de TV a
cabo embora as taxas também sejam altas. Também na Figura 5.3 temos o
p
gráfico do resı́duo r̂Pi = (Razaoi − π̂i )/σ̂ π̂i (1 − π̂i ) contra o logito dos va-
lores ajustados e como pode-se notar há um ligeiro aumento da variabilidade
com o aumento da proporção de áreas com o TV a cabo.

386
14

3
0.5

2
0.4

1
Resíduo de Pearson
Distância de Cook

0.3

0
0.2

−1
0.1

−2
0.0

−3

0 10 20 30 40 −1.5 −1.0 −0.5 0.0 0.5

Índice Preditor Linear

Figura 5.3: Distância de Cook e gráfico do resı́duo de Pearson contra o logito

de π̂ para o modelo ajustado com função V (π) = π(1 − π) aos dados sobre
demanda de TV a cabo.

Tabela 5.2
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (π) = π(1 − π) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos Sem áreas 5 e 14
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Intercepto -2,407 -1,72 -2,440 -1,60
−4 −4
Percap 4 × 10 2,50 4 × 10 2,80
Taxa 0,023 0,93 0,016 0,64
Custo -0,203 -1,79 -0,252 -2,27
Ncabo 0,073 1,94 0,079 2,22
Ntv -0,216 -2,61 -0,201 -2,61
σ2 0,114 0,098
387
0.5
14

3
5
0.4

2
1
Resíduo de Pearson
0.3
Distância de Cook

0
0.2

−1
0.1

−2
0.0

−3

0 10 20 30 40 −1.5 −1.0 −0.5 0.0 0.5

Índice Preditor Linear

Figura 5.4: Distância de Cook e gráfico do resı́duo de Pearson contra o logito

de π̂ para o modelo ajustado com função V (π) = π 2 (1 − π)2 aos dados sobre
demanda de TV a cabo.
A eliminação dessas duas áreas, como pode ser observado pela Tabela
5.2, não altera os resultados inferenciais (ao nı́vel de 5%) com todas as ob-
servações, embora aumente a significância dos coeficientes. Nota-se que ape-
nas o coeficiente da variável Taxa parece não ser significativo marginalmente.
Uma tentativa no sentido de tentar reduzir a variabilidade observada na
Figura 5.3 é utilizando uma função do tipo V (π) = π 2 (1 − π)2 . Na Figura
5.4 temos o gráfico da distância de Cook e o gráfico do resı́duo de Pearson
contra o logito dos valores ajustados supondo V (π) = π 2 (1 − π)2 . Nota-se
comportamentos muito similares àqueles encontrados na Figura 5.3. Assim,
podemos assumir para esse exemplo o ajuste com a função V (π) = π(1 − π).

388
Nota-se, que sob esse ajuste, mais variáveis permanecem no modelo do que
sob o ajuste do número esperado de domicı́lios com TV a cabo com resposta
binomial negativa, como foi visto no Capı́tulo 4.
Para o ajuste do modelo de quase-verossimilhança com V (π) = π 2 (1−π)2
é preciso requerer a library gnm e usar a famı́lia wedderburn conforme os
comandos dados abaixo
require(gnm)
ajuste.tvcabo = glm(razao ∼ percap + taxa + custo + ncabo + ntv,
family=wedderburn).
Todavia, os resultados com a famı́lia wedderburn ficaram muito parecidos
com aqueles resultados apresentados com a função V (π) = π(1 − π).
0.8
Area Afetada

0.6
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 10

Variedade

Figura 5.5: Boxplots da proporção da área afetada segundo a variedade para

os dados sobre manchas na folha da cevada.

389
0.8
Area Afetada

0.6
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9

Local

Figura 5.6: Boxplots da proporção da área afetada segundo o local para os

dados sobre manchas na folha da cevada.

Manchas na folha da cevada

Esses dados estão descritos em McCullagh e Nelder (1982, Tabela 9.2) e no
arquivo cevada.txt, em que a incidência de um tipo de mancha é observada
na folha da cevada segundo 10 variedades em 9 locais diferentes. A amostra
consiste de 90 observações em que a resposta é a área afetada da folha (em
proporção) e os fatores são a variedade e o local.
Nas Figuras 5.5 e 5.6 são apresentados os boxplots da área afetada (em
proporção) segundo a variedade e local, respectivamente. Nota-se no primeiro
gráfico um aumento da mediana da proporção da área afetada e também
da dispersão com a variedade. Tendência similar pode ser observada no
segundo gráfico. Seja Yij a proporção da área afetada da folha da cevada
correspondente ao i-ésimo local e j-ésima variedade para i = 1, . . . , 9 e j =
1, . . . , 10. Conforme sugerido por McCullagh e Nelder (1989, Cap. 9) vamos

390
supor o seguinte modelo de quase-verossimilhança:

E(Yij ) = πij e
Var(Yij ) = σ 2 V (πij ),

com parte sistemática dada por

πij
log = α + βi + γj ,
1 − πij
em que πij denota a proporção esperada da área afetada para a j-ésima
variedade do i-ésimo local, β1 = 0 e γ1 = 0.
Nas Figuras 5.7 e 5.8 são apresentados gráficos de diagnóstico para ajus-
tes do modelo de quase-verossimilhança supondo V (πij ) = πij (1 − πij ) e
V (πij ) = πij2 (1 − πij )2 , respectivamente. Nota-se ao compararmos os gráficos
de resı́duos que o segundo ajuste é mais adequado embora algumas ob-
servações sejam destacadas como possivelmente influentes. As observações
#24, #65 e #76 apresentam proporções amostrais acima das proporções
médias amostrais das variedades e locais correspondentes, enquanto a ob-
servação #52 tem uma proporção amostral abaixo da proporção média do
local correspondente. A eliminação dessas observações não muda a inferência
com relação às proporções médias dos locais, porém muda a inferência com
relação às menores proporções médias das variedades. Em geral as estima-
tivas de quase-verossimilhança indicam um aumento da proporção esperada
da área afetada com o aumento da variedade e do local conforme descrito
nos boxplots apresentados nas Figuras 5.5 e 5.6.

5.3 Classe estendida

O logaritmo da função de quase-verosssimilhança Q(µ; y) assume que a função
V (µ) é conhecida, logo a mudança dessa função significa que um novo mo-
delo está sendo definido. No sentido de permitir comparações de diferentes

391
funções V (µ) para um mesmo modelo como também possibilitar a obtenção
de uma estimativa para o erro padrão assintótico de σ̂ 2 , Nelder e Pregibon
(1987) propuseram uma (log) quase-verossimilhança estendida, definida por
1 1
Q+ (µ; y) = − 2
D(y; µ) − log{2πσ 2 V (y)},
2σ 2
Ry 1
em que D(y; µ) = 2 µ
{(y −t)/V (t)}dt é o quase-desvio e φ = σ2
o parâmetro
de dispersão.

65
3
1.5

38
1
Resíduo de Pearson
1.0
Distância de Cook

0
−1
0.5

−2
0.0

−3

0 20 40 60 80 −8 −6 −4 −2 0 2

Índice Preditor Linear

Figura 5.7: Distância de Cook e gráfico do resı́duo de Pearson contra o logito

de π̂ para o modelo ajustado com função V (π) = π(1 − π) aos dados sobre
manchas na folha da cevada.

392
24

3
1.0

2
0.8

1
Resíduo de Pearson
Distância de Cook

0.6

0
0.4

−1
0.2

−2
0.0

−3

0 20 40 60 80 −8 −6 −4 −2 0 2

Índice Preditor Linear

Figura 5.8: Distância de Cook e gráfico do resı́duo de Pearson contra o logito

de π̂ para o modelo ajustado com função V (π) = π 2 (1 − π)2 aos dados sobre
manchas na folha da cevada.

Similarmente a Q, Q+ não pressupõe que a distribuição completa de Y

seja conhecida, mas somente os dois primeiros momentos. A estimativa de β
maximizando-se Q+ (y; µ), para uma amostra aleatória de tamanho n, coin-
cide com a estimativa de quase-verossimilhança para β, uma vez que Q+ é
uma função linear de Q. A estimativa de φ maximizando Q+ é dada por
φ̂ = D(y; µ̂)/n. Portanto, para os casos especiais em que Q+ corresponde às
distribuições normal e normal inversa, φ̂ corresponde à estimativa de máxima
verossimilhança de φ. Para a distribuição gama, Q+ difere do logaritmo da
função de verossimilhança por um fator dependendo somente de φ. Para as

393
distribuições de Poisson, binomial e binomial negativa, Q+ é obtida do lo-
garitmo da função de verossimilhança correspondente substituindo qualquer
fatorial k! pela aproximação de Stirling k! ∼
= (2πk)1/2 k k e−k . Discussões mais
interessantes e aplicações da classe estendida são dadas em Nelder e Pregibon
(1987).

5.4 Respostas correlacionadas

A fim de estabelecermos a notação a ser utilizada nesta seção, denotaremos
por Yi = (Yi1 , . . . , Yiri )T o vetor resposta multivariado para a i-ésima uni-
dade experimental, i = 1, . . . , n, e assumiremos em princı́pio que apenas é
conhecida a distribuição marginal de Yit , dada por

f (y; θit , φ) = exp[φ{yθit − b(θit )} + c(y, φ)], (5.6)

em que E(Yit ) = µit = b0 (θit ), Var(Yit ) = φ−1 Vit , Vit = dµit /dθit é a função
de variância e φ−1 > 0 é o parâmetro de dispersão, em geral desconhecido.
Podemos definir um modelo linear generalizado para cada instante t acres-
centando a (5.6) a parte sistemática

g(µit ) = ηit , (5.7)

em que ηit = xTit β é o preditor linear, β = (β1 , . . . , βp )T é um vetor de

parâmetros desconhecidos a serem estimados, xit = (xit1 , . . . , xitp )T repre-
senta os valores de variáveis explicativas observadas para a i-ésima unidade
experimental no tempo t e g(·) é a função de ligação.
A função escore e a matrix de informação para β, ignorando-se a estrutura
de correlação intraunidade experimental, ficam, respectivamente, dadas por
n
X
Uβ = φ DTi Vi−1 (yi − µi ) (5.8)
i=1

394
e n
X
Kββ = φ DTi Vi Di , (5.9)
i=1
1/2 1/2
em que Di = Wi Vi Xi , Xi é uma matriz ri × p de linhas xTit , Wi =
diag{ωi1 , . . . , ωiri } é a matriz de pesos com ωit = (dµit /dηit )2 /Vit , Vi =
diag{Vi1 , . . . , Viri }, yi = (yi1 , . . . , yiri )T e µi = (µi1 , . . . , µiri )T . Quando há
ligação canônica a função escore e a matriz de informação de Fisher ficam
dadas por Uβ = φ ni=1 XTi (yi − µi ) e Kββ = φ ni=1 XTi Vi Xi , respectiva-
P P

mente. O estimador de β, ignorando-se a estrutura de correlação intrauni-

dade experimental, sai da equação Uβ = 0. Esse estimador é consistente e
assintoticamente normal. Note que podemos supor que a distribuição mar-
ginal de Yit é desconhecida assumindo uma função V (µit ) diferente daquela
que caracteriza a distribuição de Yit . Nesse caso, teremos um modelo de
quase-verossimilhança em cada instante t com função escore e matriz de in-
formação, ignorando-se a estrutura de correlação, dadas por (5.8) e (5.9),
respectivamente.
Um tópico de pesquisa importante, que tem interessado a vários pesquisa-
dores, é o desenvolvimento de metodologias para a estimação dos parâmetros
de interesse quando os dados são correlacionados e a distribuição marginal
não é normal, como é o caso introduzido nesta seção. Uma maneira de
resolver o problema é ignorar a estrutura de correlação, como vimos acima,
produzindo estimadores consistentes e assintoticamente normais, porém mui-
tas vezes com perda de eficiência. Uma outra maneira, que descreveremos
a seguir, é introduzindo alguma estrutura de correlação na função escore,
produzindo um novo sistema de equações para estimar β. A fim de facili-
tarmos o entendimento dessa metodologia, vamos supor inicialmente que os
dados são não correlacionados e que a matriz de correlação correspondente
ao i-ésimo grupo é denotada por Ri . Logo, teremos Ri = Iri . A matriz de

395
variância-covariância para Yi , por definição, é dada por
1/2 1/2
Var(Yi ) = φ−1 Vi Ri Vi , (5.10)

que no caso de dados não correlacionados fica simplesmente dada por φ−1 Vi .
A ideia é introduzirmos em (5.10) uma matriz de correlação não diagonal,
por exemplo dada por Ri (β), com reflexos na função escore que passaria a
depender também de Ri (β). O incoveniente dessa proposta é o fato da cor-
relação, que é restrita ao intervalo [−1, 1], depender de β, o que aumentaria
a complexidade do processo de estimação. A solução encontrada para con-
tornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlação dada por Ri (ρ), em que ρ = (ρ1 , . . . , ρq )T é um vetor de
parâmetros de perturbação que não dependem de β. Ou seja, os parâmetros
da matriz de correlação não dependem dos parâmetros de posição.
Para entender melhor essa proposta definimos
1/2 1/2
Ωi = φ−1 Vi Ri (ρ)Vi ,

em que Ωi é a matriz de variância-covariância de Yi se a verdadeira correlação

entre os elementos de Yi for dada por Ri (ρ). Note que Ri (ρ) é uma matriz
ri × ri que depende de um número finito de parâmetros ρ = (ρ1 , . . . , ρq )T ,
sendo denominada matriz trabalho. Para estimarmos β devemos resolver o
seguinte sistema de equações:

Sβ (β̂ G ) = 0, (5.11)

denominado equações de estimação generalizadas (EEGs), em que

n
X
Sβ (β) = DTi Ω−1
i (yi − µi ).
i=1

Note que (5.11) reduz-se a Uβ = 0 quando Ri (ρ) = Iri , isto é, quando é igno-
rada a estrutura de correlação intraunidade experimental. Na verdade Sβ (β)

396
depende também de φ e ρ = (ρ1 , . . . , ρq )T que são estimados separadamente
de β.

5.4.1 Estimação
O processo iterativo para a estimação de β, que é uma modificação do método
escore de Fisher, é dado por
n
−(m)
(m+1) (m)
X (m)T (m)
βG = βG +{ Di Ωi Di }−1 ×
i=1
n
−(m)
X (m)T (m)
[ Di Ωi {yi − µi }], (5.12)
i=1

m = 0, 1, 2 . . . . As estimativas φ̂ e ρ̂ são dadas inicialmente e modificadas

separadamente a cada passo do processo iterativo.
Supondo que ρ̂ e φ̂ são estimadores consistentes de ρ e φ, respectivamente,
temos que
√
n(β̂ G − β) →d Np (0, Σ),

em que
n
X n
X n
X
Σ = lim [n( DTi Ω−1 −1
i Di ) { DTi Ω−1 −1
i Var(Yi )Ωi Di }( DTi Ω−1 −1
i Di ) ].
n→∞
i=1 i=1 i=1

Se a matriz de correlação Ri (ρ) é definida corretamente, então um estimador

consistente para Var(β̂ G ) é dado por H−1
1 (β̂ G ), em que

n
X −1
H1 (β̂ G ) = (D̂Ti Ω̂i D̂i ),
i=1

com D̂i sendo avaliado em β̂ G e Ω̂i avaliado em (φ̂, ρ̂, β̂ G ). Entretanto, se a

matriz trabalho Ri (ρ) é definida incorretamente H−1
1 (β̂ G ) pode ser inconsis-

tente. Um estimador robusto para Var(β̂ G ), sugerido por Liang and Zeger

397
(1986), é dado por

V̂G = H−1 −1
1 (β̂ G )H2 (β̂ G )H1 (β̂ G ),
−1 −1
em que H2 (β̂ G ) = ni=1 {D̂Ti Ω̂i (yi − µ̂i )(yi − µ̂i )T Ω̂i D̂i }. O estimador
P

V̂G é consistente mesmo se a matriz trabalho for definida incorretamente.

5.4.2 Estruturas de correlação

Não estruturada
Quando a matriz de correlação Ri é não estruturada teremos ri (ri − 1)/2
parâmetros para serem estimados. Denotando Ri = {Rijj 0 }, o (j, j 0 )-ésimo
elemento de Ri poderá ser estimado por
n
φ X (yij − µ̂ij ) (yij 0 − µ̂ij 0 )
R̂jj 0 = q q .
n i=1
V̂ij V̂ij 0

Simétrica ou permutável
Neste caso assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de Ri
fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ, para j 6= j 0 . Um estimador
consistente para ρ fica dado por
n ri ri
φX 1 X X (yij − µ̂ij ) (yij 0 − µ̂ij 0 )
ρ̂ = q q .
n i=1 ri (ri − 1) j=1 j 0 =1,j 0 6=j
V̂ij V̂ij 0

Autoregressiva AR(1)
Aqui também assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de
0
Ri fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ|j−j | , para j 6= j 0 . Um
estimador consistente para ρ fica dado por
n i r −1
φX 1 X (yij − µ̂ij ) (yi(j+1) − µ̂i(j+1) )
ρ̂ = q q .
n i=1 (ri − 1) j=1
V̂ij V̂i(j+1)

398
Parâmetro de dispersão
O parâmetro de dispersão φ−1 pode ser estimado consistentemente por
in r
−1 1 XX (yij − µ̂ij )2
φ̂ = ,
(N − p) i=1 j=1 V̂ij
Pn
em que N = i=1 ri . Assim, o processo iterativo (5.12) deve alternar com
as estimativas para ρ e φ até a convergência.
Testes de hipóteses para β ou para subconjuntos de β podem ser desenvol-
vidos através de estatı́sticas tipo Wald com a matriz de variância-covariância
estimada V̂G .

5.4.3 Métodos de diagnóstico

Técnicas de diagnóstico para EEGs podem ser encontradas, por exemplo,
em Hardin e Hilbe (2003) e Venezuela et al. (2007) e mais recentemente
em Venezuela et al. (2011). Os procedimentos apresentados a seguir foram
extraı́dos de Venezuela et al. (2007).

Resı́duos
Aplicando para as EEGs um procedimento similar àquele apresentado na
Seção 1.10.2 chega-se ao seguinte resı́duo de Pearson:
1/2
eTij Âi (V̂i Ŵi )−1 (yi − µ̂i )
r̂Pij = q ,
1 − ĥijj
1/2 1/2 1/2
para i = 1, . . . , n e j = 1, . . . , ri , em que Ai = φWi R−1
i Wi é uma
matriz de dimensão ri × ri , eTij é um vetor de dimensão 1 × ri de zeros com
1 na j-ésima posição e hijj é o j-ésimo elemento da diagonal principal da
matriz
1/2 1/2
Hi = Ai Xi (XT AX)−1 XTi Ai ,

399
em que X = (XT1 , . . . , XTn )T tem dimensão N × p e A = diag{A1 , . . . , An }
tem dimensão N × N com N = ni=1 ri .
P

Alavanca
Duas medidas de alavanca são usualmente aplicadas em EEGs. Medida de
alavanca referente ao j-ésimo indivı́duo do i-ésimo grupo, dada por ĥijj e
medida de alavanca referente ao i-ésimo grupo, definida por
ri
1X
ĥi = hijj .
ri j=1

Gráficos de ı́ndices para ĥijj e ĥi ou contra os valores ajustados são recomen-
dados.

Influência
Uma versão aproximada da distância de Cook para avaliar o impacto da
eliminar individual das observações na estimativa β̂ G é dada por

ĥijj
LDij = r̂P2 ij .
(1 − ĥijj )

Gráficos de ı́ndices para LDij são recomendados.

5.4.4 Seleção de modelos

Uma proposta de critério para seleção de modelos em EEGs (ver, por exem-
plo, Hardin e Hilbe, 2003) é dado por

QIC = −2Q(β̂ G ) + 2tr(V̂G Ĥ1I ),

em que β̂ G é a estimativa de quase-verossimilhança para uma matriz es-

pecı́fica de correlação Ri (ρ) e H1I é a matriz H1 avaliada sob a estrutura

400
de independência. Esse critério pode ser aplicado para selecionar submode-
los encaixados ou para selecionar a matriz de correlação para um modelo
especı́fico.

5.5 Exemplos
5.5.1 Ataques epilépticos
100

placebo
progabide
80
60
Ataques

40
20
0

8 10 12 14 16

Tempo

Figura 5.9: Gráfico de perfis com o número de ataques por perı́odo de 2

semanas.

No arquivo ataques.txt (Diggle, Liang e Zeger, 1994, Seção 8.4) são

resumidos os resultados de um ensaio clı́nico com 59 indivı́duos epilépticos
os quais foram aleatorizados de modo que cada um recebesse uma droga

401
antiepiléptica denominada progabide ou placebo. Os dados de cada indivı́duo
consistiram de um número inicial de ataques epilépticos num perı́odo de
oito semanas antes do tratamento, seguido do número de ataques em cada
perı́odo de duas semanas, num total de quatro perı́odos, após o tratamento.
O interesse da pesquisa é saber se a droga reduz a taxa de ataques epilépticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada através do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais através de outras subrotinas que facilitam, por exemplo,
a elaboração de gráficos de perfis. Nesses casos, será necessário informarmos
nos comandos de ajuste como as unidades experimentais estão dispostas e o
tipo de correlação intraunidade experimental a ser assumida.
No caso dos ataques epilépticos uma possı́vel distribuição marginal para
os dados é a distribuição de Poisson, uma vez que tem-se dados de contagem.
Contudo, observando-se a tabela abaixo, onde estão descritos os valores amos-
trais para a razão variância/média para os 10 grupos experimentais, nota-se
um forte indı́cio de sobredispersão sugerindo que o parâmetro de dispersão
φ não deve ser fixado como sendo igual a um.

Antes Per1 Per2 Per3 Per4

Placebo 22,13 10,98 8,04 24,50 7,24
Progradibe 24,76 38,77 16,70 23,75 18,79

Para compararmos o número de ataques epilépticos nos 10 perı́odos ex-

perimentais, devemos padronizar os valores referentes ao perı́odo anterior ao
tratamento em que os pacientes foram observados por 8 semanas. Assim,

402
será possı́vel uma comparação com os demais perı́odos de 2 semanas. Na Fi-
gura 5.9 temos o gráfico de perfis com os dois tratamentos. Nota-se que pelo
menos um paciente (#49), que foi tratado com a droga progabide, apresenta
um número alto de ataques antes e depois do tratamento.
20

(49,1)
(18,1)

(15,1)
15
Resíduo de Pearson Padronizado

(29,1)
(38,1)

(5,1) (25,4)
10
5
0

0 10 20 30 40 50 60

Unidade Experimental

Figura 5.10: Gráfico do resı́duo de Pearson referente ao modelo de Poisson

com estrutura de correlação permutável ajustado aos dados sobre ataques
epilépticos.

Vamos supor então que Yijk representa o número de ataques epilépticos

ocorridos com o k-ésimo indivı́duo do i-ésimo grupo no j-ésimo perı́odo. As-
sumimos que Yijk ∼ P(λij tj ), tj denota o número de semanas do j-ésimo
perı́odo, i = 1, 2; j = 0, 1, 2, 3, 4 e k = 1, . . . , rij , em que r1j = 28 (grupo
placebo), r2j = 31 (grupo tratado), t0 = 8 e t1 = t2 = t3 = t4 = 2. Assumi-

403
mos também uma estrutura de correlação permutável para cada indivı́duo,
isto é, Corr(Yijk , Yijk0 ) = ρ, para k 6= k 0 e (i, j) fixos. A parte sistemática do
modelo será dada por

logλ10 = α,
logλ1j = α + β,
logλ20 = α + γ e
logλ2j = α + γ + β + δ,
20
15
Resíduo de Pearson Padronizado

10
5
0
−5

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.11: Gráfico normal de probabilidades referente ao modelo de Poisson

com estrutura de correlação permutável ajustado aos dados sobre ataques
epilépticos.

para j = 1, 2, 3, 4, em que α denota o nı́vel base, β o efeito de tratamento, γ

404
o efeito de grupo e δ a interação entre tratamento e grupo. Note que, antes
do tratamento, o logaritmo da razão entre as taxas dos dois grupos é dado
por
log{λ20 /λ10 } = α + γ − α = γ. (5.13)

Após o tratamento, o logaritmo da razão entre as taxas fica dado por

log{λ2j /λ1j } = α + γ + β + δ − α − β = γ + δ. (5.14)

Portanto, se o tratamento não é eficaz espera-se que o logaritmo da razão não

mude após o tratamento. Logo, avaliar a eficiência do tratamento equivale a
testar H0 : δ = 0 contra H1 : δ 6= 0.

Tabela 5.3
Estimativas dos parâmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilépticos.
Com todos os pacientes Sem o paciente #49
Parâmetro Estimativa z-robusto Estimativa z-robusto
α 1,347 8,564 1,347 8,564
β 0,112 0,965 0,112 0,965
γ 0,027 0,124 -0,107 -0,551
δ -0,105 -0,491 -0,302 -1,768
ρ 0,771 0,593
−1
φ 19,68 10,53
Se denotarmos por µij = E(Yijk ), a parte sistemática do modelo em função
das médias fica dada por

logµij = logtj + logλij ,

em que logtj desempenha o papel de offset. Para ajustarmos esse modelo no

R deve-se seguir a sequência abaixo de comandos
fit1.ataques = gee(ataques ∼ grupo + periodo + grupo*perido +
offset(log(semanas)), id=paciente, family=poisson,
corstr="exchangeable"),

405
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo re-
presenta o perı́odo (=0 antes, =1 depois), semanas o número de semanas,
paciente o número do paciente (são 59 pacientes) e corstr o tipo de cor-
relação a ser assumida.
8

(18,1)
(49,1)
6

(15,1)
Distância de Cook

4
2
0

0 10 20 30 40 50 60

Unidade Experimental

Figura 5.12: Distância de Cook referente ao modelo de Poisson com estrutura

de correlação permutável ajustado aos dados sobre ataques epilépticos.

As estimativas dos parâmetros (erro padrão aproximado) são apresenta-

das na Tabela 5.3. Não há portanto nenhum indı́cio de efeito de tratamento.
Para a análise de resı́duos vamos considerar o resı́duo de Pearson r̂Pij defi-
nido na Seção 5.4.3. A geração de envelopes para esse resı́duo é um pouco
mais complexa do que no caso usual de respostas independentes, uma vez
que requer o conhecimento da distribuição conjunta das respostas de cada

406
indivı́duo. No entanto, mesmo quando essa distribuição não é totalmente
desconhecida é possı́vel, em alguns casos, gerar a distribuição empı́rica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parâmetro de dispersão φ−1
é muito diferente da suposição de φ = 1 para modelos com resposta de Pois-
son, sugerindo indı́cios fortes de sobredispersão. Assim, para uma análise
de resı́duos mais qapropriada deve-se considerar o resı́duo de Pearson pa-
dronizado r̂P∗ ij = φ̂r̂Pij cujo gráfico é descrito na Figura 5.10. Nota-se 7
resı́duos com valores superiores a 10,0, todos referentes a medidas de diferen-
tes pacientes. O gráfico normal de probabilidades para o resı́duo de Pearson
padronizado r̂P∗ ij (Figura 5.11) mostra alguns afastamentos da suposição de
modelo marginal de Poisson, provavelmente devido à sobredispersão que não
foi totalmente controlada.
Finalmente, na Figura 5.12, temos a distância de Cook aproximada em
que três medidas se destacam. Nota-se novamente uma medida referente ao
paciente (#49) cujo perfil destoa na Figura 5.9. Vamos fazer um estudo das
estimativas não considerando esse paciente no ajuste. Os comandos em R são
dados abaixo:

fit2.ataques = gee(ataques ∼ grupo + periodo + grupo*perido +

offset(log(semanas)), id=paciente, subset=-c(241, 242, 243, 244,
245), family=poisson, corstr="exchangeable").

As novas estimativas (vide Tabela 5.3) indicam evidência de que o tratamento

com a droga progabide reduz o número médio de ataques epilépticos, ou seja,
há mudança inferencial em relação ao modelo com todos os pontos.

407
5.5.2 Condição Respiratória
Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seção 6.5) que envolve a comparação de dois tratamentos apli-
cados em pacientes com problemas respiratórios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
paciente foi observado em quatro ocasiões em que mediu-se a condição res-
piratória (boa ou ruim). Foram também observados o sexo e a idade (em
anos) de cada paciente além da pré-existência de um nı́vel base (sim ou não).
Apenas como ilustração descrevemos abaixo a incidência do problema respi-
ratório em cada ocasião segundo os dois tratamentos.

Visita 1 Visita 2 Visita 3 Visita 4

Tratamento 22/27 13/27 5/27 1/27
Placebo 20/29 18/29 21/29 15/29

Nota-se pela tabela acima que na primeira visita há uma incidência alta para
ambos os tratamentos de pacientes em condição respiratória ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variação para os pacientes tratados com
placebo. Portanto, há fortes indı́cios de que a droga reduz a chance de
condição respiratória ruim. Os dados completos desse experimento estão
descritos no arquivo respiratorio.txt.
Vamos denotar por Yij a condição (=1 ruim, =0 boa) do i-ésimo paci-
ente na j-ésima ocasião, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binária será assumido marginalmente que Yij ∼ Be(πij ) com parte
sistemática dada por

πij
log α + β1 Idadei + β2 Trati + β3 Sexoi + β4 Basei ,
1 − πij

408
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 pla-
cebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausência do nı́vel
base, =1 presença do nı́vel base) do i-ésimo paciente. Seguindo a sugestão
de Myers, Montgomery e Vining (2002, Seção 6.5) será assumida uma estru-
tura de correlação AR(1) para as respostas de cada paciente, ou seja, que
0
Corr(Yij , Yij 0 ) = 1 para j = j 0 e Corr(Yij , Yij 0 ) = ρ|j−j | para j 6= j 0 . Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao ∼ idade + trat + sexo + base,
id=paciente, family=binomial, corstr="AR-M", M=1).

Tabela 5.4
Estimativas dos parâmetros do modelo logı́stico aplicado
aos dados sobre condição respiratória.
Correlação AR(1) Independência
Parâmetro Estimativa z-robusto Estimativa z-robusto
α -0,377 -0,529 -0,404 -0,563
β1 0,043 3,380 0,048 3,683
β2 1,001 3,066 1,070 3,254
β3 -2,003 -2,988 -2,178 -3,207
β4 0,492 0,586 0,498 0,585
ρ 0,275 0,00

As estimativas dos parâmetros dos modelos com estrutura AR(1) e in-

dependente são apresentadas na Tabela 5.4. Nota-se que as estimativas não
diferem muito e os resultados inferencias são os mesmos. Isso pode ser expli-
cado pela baixa correlação entre as respostas do mesmo indivı́duo, ρ̂ = 0, 275.
Pelas estimativas da Tabela 5.4 pode-se concluir que o resultado da condição
respiratória independe do nı́vel base, no entanto depende da idade, do tra-
tamento e do sexo. Por exemplo, há um aumento na chance de condição
respiratória ruim com o aumento da idade, conforme esperado. A razão de
chances entre sexo feminino e masculino é estimada por ψ̂ = e2,003 = 7, 41,

409
ou seja, as mulheres têm aproximadamente 7,41 vezes a chance dos ho-
mens terem o problema. Pacientes que foram tratados com placebo têm
ψ̂ = e1,001 = 2, 72 vezes a chance dos pacientes que foram tratados com
a droga de terem condição respiratória ruim. Em todos os cálculos acima
supõe-se que as demais variáveis estão fixadas.
2
1
0
Resíduo de Pearson

−1
−2
−3

(18,4) (28,4)

0 10 20 30 40 50

Unidade Experimental

Figura 5.13: Gráfico do resı́duo de Pearson referente ao modelo binomial com

estrutura de correlação AR(1) ajustado aos dados sobre condição respiratória.

Na Figura 5.13 é apresentado o gráfico do resı́duo de Pearson contra a

ordem das observações e como podemos observar, com exceção de 2 resı́duos
referentes a medidas dos pacientes #18 e #28, todos os demais caem no
intervalo [-2,2], indicando um bom ajuste do modelo com estrutura de cor-
relação AR(1). O gráfico normal de probabilidades com o resı́duo de Pearson

410
(Figura 5.14) não indica afastamentos da suposição de distribuição marginal
Bernoulli com estrutura de correlação AR(1).

2
0
Resíduo de Pearson

−2
−4
−6

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.14: Gráfico normal de probabilidades referente ao modelo binomial

com estrutura de correlação AR(1) ajustado aos dados sobre condição respi-
ratória.

Já o gráfico da distância de Cook descrito na Figura 5.15 destaca três me-
didas de pacientes diferentes sendo duas dessas medidas destacadas também
no gráfico com o resı́duo de Pearson. Contudo, o ajuste sem considerarmos
esses três pacientes não causa mudanças inferenciais.

411
5.5.3 Placas dentárias
Hadgu e Koch(1999) discutem os resultados de um ensaio clı́nico com 109
adultos voluntários com pré-existência de placa dentária. Nesse estudo os
indivı́duos foram distribuı́dos de forma aleatória para receberem um lı́quido
tipo A (34 indivı́duos), um lı́quido tipo B (36 indivı́duos) e um lı́quido con-
trole (39 indivı́duos). As placas dentárias de cada indivı́duo foram avaliadas
e classificadas segundo um escore no inı́cio do tratamento, após 3 meses e
após 6 meses. Os dados encontram-se no arquivo rinse.txt.
0.5

(18,4)

(28,4)
0.4

(53,4)
Distância de Cook

0.3
0.2
0.1
0.0

0 10 20 30 40 50

Unidade Experimental

Figura 5.15: Distância de Cook referente ao modelo binomial com estrutura

de correlação AR(1) ajustado aos dados sobre condição respiratória.

412
Tabela 5.5
Medidas resumo para os escores das placas
dentárias segundo os tratamentos e
perı́odos de escovação.
Inı́cio 3 Meses 6 Meses
2,562 1,786 1,738
Controle (0,343) (0,700) (0,595)
n=39 n=39 n=36
2,568 1,315 1,259
Lı́quido A (0,354) (0,715) (0,744)
n=34 n=34 n=34
2,479 1,255 1,032
Lı́quido B (0,296) (0,550) (0,451)
n=36 n=36 n=36

O objetivo do estudo é verificar se pelo menos um dos novos lı́quidos reduz

o número médio de placas dentárias. Seja Yijk o escore do k-ésimo indivı́duo
do i-ésimo grupo (=1 controle, =2 lı́quido A, =3 lı́quido B) e j-ésimo perı́odo
(=1 inı́cio do tratamento, =2 após 3 meses, =3 após 6 meses), k = 1, . . . , nij
com n1j = 39, n2j = 34 e n3j = 36. Foram omitidas das nossas análises quatro
observações para as quais não foi possı́vel obter o valor do escore. Na Tabela
5.5 descrevemos os valores médios com os respectivos erros padrão para os
grupos formados. Nota-se um decréscimo no valor médio após 3 meses de
escovação para os três tratamentos, sendo a redução mais acentuada para os
lı́quidos A e B. Nota-se também um aumento da variabilidade. De 3 meses
para 6 meses de escovação o decréscimo continua para o escore médio dos
grupos que receberam os lı́quidos A e B, havendo uma redução mais evidente
para o grupo tratado com o lı́quido B. Esse grupo também apresenta as
menores variabilidades. Essas tendências podem ser observadas quando são
considerados os perfis individuais dos voluntários para os três tipos de lı́quido

413
Placebo
3.5

3.0

2.5

2.0

1.5

1.0

0.5

A
3.5

3.0

2.5
Escore

2.0

1.5

1.0

0.5

B
3.5

3.0

2.5

2.0

1.5

1.0

0.5

Início 3 Meses 6 Meses

Período

Figura 5.16: Gráfico de perfis para o escore dos voluntários que receberam
placebo, lı́quido tipo A e lı́quido tipo B referente aos dados sobre placas
dentárias.

ao longo do tempo conforme descrito na Figura 5.16.

Tabela 5.6
Estimativas dos parâmetros do modelo log-linear gama aplicado aos
dados sobre placas dentárias.
Parâmetro Estimativa z-robusto Parâmetro Estimativa z-robusto
α 0,941 44,407 (βγ)22 -0,308 -3,124
β2 0,002 0,080 (βγ)32 -0,319 -3,835
β3 -0,033 -1,138 (βγ)23 -0,333 -3,266
γ2 -0,278 -7,335 (βγ)33 -0,492 -5,792
γ3 -0,004 -8,321
ρ 0,38
φ−1 5,68

414
3
2
1
Resíduo de Pearson

0
−1
−2

0 20 40 60 80 100

Unidade Experimental

Figura 5.17: Gráfico do resı́duo de Pearson referente ao modelo binomial com

estrutura de correlação simétrica ajustado aos dados sobre placas dentárias.

Os pesquisadores verificaram após uma análise descritiva dos dados que

a distribuição gama é mais apropriada para descrever a resposta do que a
distribuição normal. Assim, vamos assumir que Yijk ∼ G(µij , φ). Seguindo
ainda os pesquisadores vamos supor um modelo log-linear com interação entre
tratamento e perı́odo, porém com uma parametrização um pouco diferente,

logµij = α + βi + γj + (βγ)ij ,

em que (βγ)ij representa a interação entre tratamento e perı́odo, sendo βi

e γj os efeitos principais. Teremos as restrições β1 = 0, γ1 = 0 e (βγ)1j =
(βγ)i1 = 0, para i = 1, 2, 3 e j = 1, 2, 3. As estimativas dos parâmetros são
descritas na Tabela 5.6 supondo correlação simétrica entre as medidas de um
mesmo indivı́duo. Nota-se que a estimativa da correlação não é muito alta.

415
Claramente confirma-se a existência de interação entre perı́odo e tratamento.
Os lı́quidos A e B reduzem em média a quantidade de placas dentárias,
havendo indı́cios de uma redução mais acentuada com o lı́quido B de 3 meses
para 6 meses de escovação.
Para ajustar esse modelo no R deve-se usar os comandos
tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score ∼ + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
6
4
Residuo de Pearson

2
0
−2

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.18: Gráfico normal de probabilidades referente ao modelo gama com

estrutura de correlação simétrica ajustado aos dados sobre placas dentárias.

416
(22,3)
(70,3)

0.025
0.020
Distância de Cook

0.015
0.010
0.005
0.000

0 20 40 60 80 100

Unidade Experimental

Figura 5.19: Distância de Cook referente ao modelo gama com estrutura de

correlação simétrica ajustado aos dados sobre placas dentárias.

A Figura 5.17 descreve o gráfico de ı́ndices do resı́duo de Pearson. Nota-se

uma distriuição simétrica dos resı́duos que ficam concentrados no intervalo
[-3,3]. Pelo gráfico normal de probabilidades com o resı́duo de Pearson (Fi-
gura 5.18) nota-se alguns afastamentos, em particular para os resı́duos com
valores negativos mais extremos, indicando uma falta de ajuste nesses casos.
Finalmente, tem-se na Figura 5.19 o gráficos de ı́ndices da distância de Cook.
Destaque para a 3a medida dos voluntários #22 (lı́quido B) e #70 (lı́quido
B). Espera-se para ambos os voluntários um decréscimo no escore ao longo
do tempo. Todavia, para o voluntário #22 tem-se a sequência 2,56; 2,04 e
0,29, ou seja, uma queda muito acentuada da 2a medida para a 3a medida.
Já para o voluntário #70 tem-se a sequência 2,38; 0,33 e 1,75, ou seja, um
decréscimo muito acentuado da 1a para a 2a medida, porém um aumento

417
após a 2a medida. Essas tendências que destoam do esperado para o lı́quido
tipo B podem ter elevado o valor da distância de Cook para a 3a medida des-
ses voluntários. A retirada desses dois vonluntários, contudo, altera muito
pouco as estimativas e não altera os resultados inferenciais. Cardoso-Neto
e Paula (2001) analisaram este exemplo supondo restrições em alguns dos
parâmetros e encontraram evidências mais fortes com relação aos resultados
obtidos por Hadgu e Koch(1999).

5.6 Exercı́cios
1. Supor as funções de variância V (t) = t3 e V (t) = t + t2 /k para t >
0, k > 0. Encontre para cada caso a função Q(µ; y) e verifique sob
quais restrições as funções encontradas são proporcionais a funções de
verossimilhança da famı́lia exponencial.

2. Considere a seguinte função de quase-verossimilhança:

Z µ
1 y−t
Q(µ; y) = 2 dt,
σ y V (t)

em que V (t) = t(1 + t) para t > 0. (i) Desenvolva essa função de

quase-verossimilhança. (ii) Verifique se é possı́vel recuperar alguma
distribuição da famı́lia exponencial. Em caso afirmativo qual é a dis-
tribuição? (iii) Supor agora uma amostra aleatória de n variáveis
aleatórias independentes com função de quase-verossimilhança Q(µi ; yi )
dada acima. Como fica a função quase-desvio? (iv) Como estimar σ 2 ?

3. Considere novamente o arquivo claims.txt descrito no Capı́tulo 2 (exercı́cio

#20), em que 9 variáveis são observadas para uma amostra aleatória
de 996 apólices de seguros de veı́culos extraı́da do livro de de Jong
e Heller (2008). A variável expos (exposição do veı́culo), que varia

418
no intervalo (0,1), será considerada agora como variável resposta. Ini-
cialmente, faça uma análise descritiva dos dados e procure agrupar
as variáveis categóricas em um número menor de categorias. Apli-
que modelos de quase-verossimilhança com funções V (µ) = µ(1 − µ)
e V (µ) = µ2 (1 − µ)2 , em que µ denota o valor esperado para a ex-
posição do veı́culo, para explicar a variável resposta dadas as demais
variáveis explicativas. Para o modelo selecionado faça uma análise de
diagnóstico e procure interpretar os coeficientes estimados através de
razões de chances.

4. Supor Y1 , . . . , Yn variáveis aleatórias independentes com logaritmo da

função de quase-verossimilhança Q(µi ; yi ), i = 1, . . . , n. Mostre que as
funções escore e de informação para β ficam, respectivamente, dadas
por:
1 T −1
Uβ = D V (y − µ)
σ2
e
∂U(β) 1 T −1
Kββ = −E = D V D.
∂β σ2

5. Sejam Yij variáveis aleatórias tais que Yij ∼ FE(µi , φ), i = 1, 2 e j =

1, . . . , m. A estatı́stica de Wald para testar H0 : µ1 − µ2 = 0 contra
H1 : µ1 − µ2 6= 0 é dada por ξW = (Ȳ1 − Ȳ2 )2 /Var(Ȳ1 − Ȳ2 ). Sob H0
e para m → ∞ segue que ξW ∼ χ21 . Calcular Var(Ȳ1 − Ȳ2 ) para as
seguintes situações:

(a) supondo que Corr(Yij , Yij 0 ) = ρ para (j 6= j 0 ; i fixo) e =0 em caso

contrário;

(b) supondo que Corr(Yij , Yi0 j ) = ρ para (i 6= i0 ; j fixo) e =0 em caso

contrário;

419
Para µ1 − µ2 e φ fixos e ρ ≥ 0 discutir o comportamento do poder de
ξW conforme ρ cresce para as situações (a) e (b). São esperados esses
comportamentos? Comente.

6. Supor Yij ∼ FE(µ, φ), para i = 1, . . . , n e j = 1, . . . , ri , Corr(Yij , Yij 0 ) =

ρ para j 6= j 0 (=1 caso contrário), ri ≥ 2. Obter E(Yi ) e Var(Yi ), em
que Yi = Yi1 + · · · + Yiri . Mostre que −1/(rmin − 1) ≤ ρ ≤ 1, comente.
Use os resultados Var(X + Z) = Var(X) + Var(Z) + 2Cov(X, Z) e
p p
Cov(X, Z) = ρ Var(X) Var(Z).
ind
7. Supor Yi ∼ Q(πi ; yi ), em que E(Yi ) = πi e Var(Yi ) = σ 2 πi (1 − πi ),
√
para i = 1, . . . , n, com parte sistemática dada por arcosen( πi ) =
β0 + β1 (xi − x̄). Obtenha a matriz de variância-covariância assintótica
Var(β̂), em que β = (β0 , β1 )> . Desenvolva uma estatı́stica tipo-escore
para testar H0 : β1 = 0 contra H1 : β1 6= 0? Qual a distribuição nula
assintótica da estatı́stica do teste? Resultados úteis: ni=1 (xi − x̄) = 0
P

d √ 1 du
e dx
arcsen{u(x)} = 1−u2 dx
.

8. Supor o modelo de quase-verossimilhança em que Y1 , . . . , Yn são variáveis

aleatórias independentes tais que E(Yi ) = µi e Var(Yi ) = σ 2 µ2i com
parte sistemática dada por logµi = β0 + β1 (xi − x̄). Responda aos itens
abaixo:

(a) como ficam as variâncias assintóticas de β̂0 e de β̂1 ?

(b) Como fica o teste de Wald para testar H0 : β0 = 0 contra H1 :

β0 6= 0?

(c) Proponha um teste tipo escore para testar H0 : β1 = 0 contra

H1 : β1 6= 0.

420
9. Como fica a diferença entre desvios para testar H0 : β1 = 0 contra H1 :
β1 6= 0 num modelo de quase-verossimilhança com V (µi ) = µ2i (1 − µi )2 ,
g(µi ) = ηi = xTi β e β = (β T1 , β T2 )T ?

10. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-ésimo elemento do i-ésimo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = µi , Var(Yijt ) = Vi φ−1 e que
Yijt pertence à famı́lia exponencial. Mostre que dado ρ̂ a equação de
estimação generalizada para µi pode ser expressa na forma S(µ̂i ) = 0,
em que
ri
X
S(µi ) = 1TT Rij (ρ)(yij − µi 1T ),
j=1

Rij é a matriz trabalho para o j-ésimo indivı́duo do i-ésimo grupo e

1T é um vetor T × 1 de uns. Expresse a estimativa de µi em forma
fechada.

11. Supor que Yi = (Yi1 , . . . , Yiri )T , i = 1, . . . , n, são vetores aleatórios

independentes tais que Yij ∼ Be(πi ). Assumir ainda que a matriz
trabalho para Yi é permutável e que

πi
log = xTi β.
1 − πi
Mostre que, dado ρ̂, as EEGs para β ficam dadas por
n
X
Sβ (β̂ G ) = {1 + (ri − 1)ρ̂}−1 xi (yi − ni π̂i ) = 0,
i=1

em que yi = yi1 + · · · + yiri . Sugestão: use a relação abaixo

R−1 −1 −1
i (ρ) = (1 − ρ) [Iri − ρ{1 + (ri − 1)ρ} J],

em que J é uma matriz ri × ri de uns. Como fica o processo iterativo

para estimar β?

421
12. Supor que Yij ∼ Be(µ) para i = 1, . . . , n e j = 1, . . . , ri , em que
Corr(Yij , Yij 0 ) = ρ (fixado) para j 6= j 0 com parte sistemática dada
n o
µ
por log 1−µ = β. Responda às seguintes questões: (i) como fica a
equação de estimação generalizada para estimar β? (ii) expresse em
forma fechada a estimativa β̂G (obtenha inicialmente µ̂G ) e (iii) como
fica a variância assintótica (não robusta) de β̂G ?

13. Supor que Yij ∼ Q(µ, σ 2 ) para i = 1, . . . , n e j = 1, 2, em que Var(Yij ) =

σ 2 µ2 , Corr(Yij , Yij 0 ) = ρ para j 6= j 0 com parte sistemática dada por
logµ = β. Responda às seguintes questões: (i) como fica a equação de
estimação generalizada para estimar β? (ii) expresse em forma fechada
a estimativa β̂G (obtenha inicialmente µ̂G ) e (iii) como fica a variância
assintótica (não robusta) de β̂G ? Supor que ρ e σ 2 são estimados con-
sistentemente.

14. Considere uma amostra aleatória de n indivı́duos que são observados

em 2 ocasiões cada um, sendo Yij a resposta do i-ésimo indivı́duo na
ind
j-ésima ocasião para i = 1, . . . , n e j = 1, 2, com a suposição Yi1 ∼
ind
FE(µ1 , φ) e Yi2 ∼ FE(µ2 , φ) e ρ = Corr(Yi1 , Yi2 ) ou seja Cov(Yi1 , Yi2 ) =
p p
ρ Var(Yi1 ) Var(Yi1 ). A diferença entre as médias amostrais nas duas
ocasiões Ȳ2 − Ȳ1 , em que Ȳj = n−1 ni=1 Yij para j = 1, 2, é utilizada
P

para detectar eventuais diferenças entre as médias µ2 e µ1 . Responda

às seguintes questões:

(i) calcule Var(Ȳ2 − Ȳ1 ),

(ii) chame ∆ = µ2 − µ1 e calcule P(∆ − < Ȳ2 − Ȳ1 < ∆ + ) = 1 − α,

0 < α < 1 e > 0, em que 1 − α = P(−z < Z < z), Z ∼ N(0, 1),

(iii) expresse n em função das quantidades z, , ∆ e ρ e

422
(iv) discuta o comportamento de n em função de ρ mantendo-se as
demais quantidades fixas.

Supor para n grande Ȳ2 − Ȳ1 ∼ N(∆, Var(Ȳ1 − Ȳ2 )).

15. (Myers, Montgomery e Vining, 2002, p. 231). Um experimento é con-

duzido para avaliar a dispersão de um pigmento particular numa pin-
tura. Quatro diferentes misturas do pigmento são estudadas. O pro-
cedimento consiste em preparar cada mistura e aplicá-la num painel
usando três métodos diferentes: pincel, rolo e spray. O experimento
é repetido três dias diferentes e a resposta é a porcentagem de re-
flectância do pigmento. Os dados são descritos na tabela abaixo e no
arquivo mistura.txt.

Mistura
Dia Método 1 2 3 4
1 64,5 66,3 74,1 66,5
1 2 68,3 69,5 73,8 70,0
3 70,3 73,1 78,0 72,3

1 65,2 65,0 73,8 64,8

2 2 69,2 70,3 74,5 68,3
3 71,2 72,8 79,1 71,5

1 66,2 66,5 72,3 67,7

3 2 69,0 69,0 75,4 68,6
3 70,8 74,2 80,1 72,4

Analise os dados através de equações de estimação generalizadas com

estrutura de correlação simétrica. Faça análise de diagnóstico.

16. (Myers, Montgomery e Vining, 2002, Seção 6.5). No arquivo ratos-

gee.txt estão os dados de um experimento em que 30 ratos tiveram uma

423
condição de leucemia induzida. Três drogas quimio-terápicas foram uti-
lizadas no tratamento dos animais. Foram coletadas de cada animal a
quantidade de células brancas (WBC), a quantidade de células verme-
lhas (RBV) e o número de colônias de células cancerosas (RESP) em
quatro perı́odos diferentes. Assuma distribuição de Poisson para RESP
em cada perı́odo e verifique através de um modelo log-linear se existe
diferenças significativas entre os três tratamentos considerando WBC
e RBC como variáveis explicativas. Compare os resultados supondo
estruturas de correlação independente e AR(1). Faça uma análise de
diagnóstico.
iid iid
17. Sejam Yi1 ∼ FE(µ1 , φ) e Yi2 ∼ FE(µ2 , φ), em que Corr(Yi1 , Yi2 ) = ρ,
para i = 1, . . . , n. Para testar H0 : µ1 − µ2 = 0 contra H1 : µ1 − µ2 6= 0
considere a estatı́stica
(Ȳ1 − Ȳ2 )2
ξW = ,
Var(Ȳ1 − Ȳ2 )
que sob H0 segue assintoticamente distribuição χ21 central. Sob a hipótese
alternativa ξW segue assintoticamente distribuição χ21 (λ), em que λ =
(µ1 − µ2 )2 /2Var(Ȳ1 − Ȳ2 ) é o parâmetro de não centralidade. Seja
Pn (λ, ρ) = P (ξW > c|H1 ) o poder do teste (probabilidade de rejeitar
H0 quando há diferença entre as médias populacionais). Calcule inicial-
mente Var(Ȳ1 − Ȳ2 ) e discuta o comportamento do poder do teste à me-
dida que varia o coeficiente de correlação linear de Pearson −1 ≤ ρ ≤ 1,
supondo fixados µ1 , µ2 , φ e n. Procure responder para quais situações
será necessário um tamanho amostral maior para detectar a mesma
diferença (entre as médias populacionais) com a mesma probabilidade.

18. (Myers, Montgomery e Vining, 2002, Seção 6.5). No arquivo artrite.txt

estão os dados de um ensaio clı́nico em que 20 pacientes com ar-

424
trite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variáveis explicativas g^
enero (1: masculino, 0: feminino) e a idade
do paciente em anos além do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasiões (1: inı́cio, 2: 1 mês, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo próprio
paciente (1: ruim, 2: regular, 3: bom). Faça inicialmente uma análise
descritiva com os dados.

Seja Yij o estado do i-ésimo paciente na j-ésima ocasião (=1 bom,

=0 regular ou ruim) para i = 1, . . . , 20 e j = 1, 2, 3, 4. Assuma que
Yij ∼ Be(πij ), em que πij é a probabilidade do estado ser conside-
rado bom pelo i-ésimo paciente na j-ésima ocasião. Proponha uma
EEG para explicar πij através de uma regressão logı́stica e conside-
rando as estruturas de correlação simétrica e AR(1) entre as ocasiões
de um mesmo paciente. Considere no modelo apenas os efeitos prin-
cipais tratamento, idade, g^
enero e ocasi~
ao. Compare os modelos
através de métodos de diagnóstico e para o modelo escolhido faça uma
interpretação através de razões de chances.

19. No arquivo Milk do gamlss são apresentados dados referentes a um

experimento longitudinal desenvolvido na Austrália com 79 vacas que
foram aleatorizadas segundo três dietas e foi observado semanalmente
a quantidade de proteı́na no leite de cada animal. O objetivo principal
do estudo é verificar se há diferenças significativas entre as quantida-
des médias semanais de proteı́na sob as três dietas. Os dados estão
descritos na seguinte ordem: (i) protein (quantidade de proteı́na), (ii)
Time (semana), (iii) Cow (identificação do animal) e (iv) Diet (cevada,
cevada+tremoços e tremoços). É preciso informar que a variável Diet

425
é categórica através do comando

Diet=factor(Diet).

Fazer inicialmente uma análise descritva dos dados, por exemplo, apre-
sentando os perfis dos animais segundo a quantidade de proteı́na ob-
servada ao longo das semanas e para cada dieta gráficos de densidade e
boxplots. Ajustar inicialmente uma equação de estimação generalizada
gama com estrutura de correlação do tipo AR(1) e considere o tempo
como variável explicativa contı́nua. Verifique se é possı́vel incluir in-
teração entre Diet e Time. Faça uma análise de diagnóstico e interprete
os resultados do modelo selecionado.

20. No arquivo gross.txt estão resumidos os dados de produtividade dos

48 estados norte-americanos contı́guos no perı́odo de 1970 a 1986. As
variáves estão descritas na seguinte ordem (os recursos estão expressos
em milhões de USD): (i) state, nome do estado, (ii) region, região do
estado, (iii) yr, ano, (iv) pcap, total do capital de empresas públicas,
(v) hwy, capital das estradas e rodovias, (vi) water, capital das em-
presas de saneamento básico, (vii) util, capital das demais empresas
públicas, (viii) pc, total do capital privado, (ix) gsp, produto interno
bruto, (x) emp, total de empregos e (xi) unemp, taxa de desemprego. O
objetivo do estudo é tentar relacionar o produto interno bruto de cada
estado com as demais variáveis. Faça uma análise descritiva conside-
rando apenas as variáveis, gsp, water e yr.

Supor inicialmente o seguinte modelo de quase-verossimilhança:

(i) Yij ∼ Q(µij ; yij ), E(Yij ) = µij e Var(Yij ) = σ 2 µ2ij

(ii) log(µij ) = β0 + β1 log(water)ij + β2 yrij
(iii) Corr(Yij ) = Rij (α),

426
em que σ 2 > 0, Yij = (Yij1 , . . . , Yij17 )> . Compare o modelo acima su-
pondo as estruturas de correlação simétrica e AR(1). Para a estrutura
selecionada tente melhorar o modelo, por exemplo, incluindo interação.
Faça uma análise de diagnóstico do modelo final e interpetre os resul-
tados.

427
Apêndice A

Neste apêndice são descritos os conjuntos de dados usados nos exemplos e nos
exercı́cios propostos. As variáveis são descritas na ordem em que aparecem
em cada arquivo.

Capı́tulo 1
canc3.txt: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo
(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).

canc4.txt: grupo de passagem (0 a 28), presença de massa tumoral (1:sim,

0:não), caquexia (1:sim, 0:não) e tempo de sobrevivência (em dias).

capm.txt: taxa de retorno Tbill, retorno Microsoft, retorno SP500, retorno

GE e retorno Ford.

censo.txt: unidade da federação, escolaridade média (anos de estudo) e

renda média (em reais).

imoveis.txt: imposto do domicı́lio (em 100 USD), área do terreno (em 1000
pés quadrados), área construı́da (em 1000 pés quadrados), idade da
residência (em anos) e preço de venda do imóvel (em 1000 USD).

reg1.txt: área (em mil pés quadrados) e preço (em mil USD).

428
reg2.txt: sigla do estado, taxa do combustı́vel (em USD), porcentagem de
motoristas licenciados, renda per capita (em USD), ajuda federal às
estradas do estado (em mil USD) e consumo per capita de combustı́vel
(em galões por ano).

reg3.txt: nome do estado, população estimada em julho de 75, renda per

capita em 74 (em USD), proporção de analfabetos em 70, expectativa
de vida 69-70, taxa de criminalidade em 76 (por 100000 habitantes),
proporção de estudantes que concluı́ram o segundo grau em 70, número
de dias do ano com temperatura abaixo de zero graus Celsus e área do
estado (em milhas quadradas).

reg4.txt: x1, x2, x3, x4, e octanas. A resposta é o número de octanas.

salarios.txt: salário anual (em mil USD), sexo, posição na empresa (escore
de 1 a 9) e experiência (em anos).

trees.txt: diâmetro (em polegadas), altura (em pés) e volume da árvore (em
pés cúbicos).

fuel2001.txt: unidade da federação, número de motoristas licenciados, to-

tal de gasolina vendida (em mil galões), renda per capita em 2000 (em
mil USD), total de milhas em estradas federais, milhas per capita per-
corridas, população ≥ 16 anos, taxa da gasolina (em cents por galão).

wine.txt: claridade, aroma, corpo, sabor, aromac (aroma do tonel de car-

valho), qualidade e região (região1, região 2, região 3, região 4).

429
Capı́tulo 2
claims.txt: valor do veı́culo (em 10000 dolares australianos), exposição do
veı́culo, número de sinistros no perı́odo, custo total dos sinistros (em do-
lares australianos), tipo do veı́culo (em 11 categorias), idade do veı́culo
(em 4 categorias), sexo do condutor principal, área de residência do
condutor principal (em 6 categorias) e idade do condutor principal (em
6 categorias).

dfilme.txt: tempo de duração do filme (em horas) e densidade máxima do

filme.

energy.txt: total de energia consumida num mês (em kilowatts-hora) e de-

manda de energia na hora de pico.

fluxo.txt : idade (em anos), gênero, interj (interjeiçôes por minuto), fpm
(frequência de sı́labas por minuto) e fsm (frequência de sı́labas por
minuto).

insurance.txt: valor pago do seguro (dolares australianos), representação

legal (0:não, 1:sim), mês em que ocorreu o acidente e tempo operacio-
nal.

milho.txt: quantidade de nitrogênio, quantidade de fosfato e produtividade

de milho (libras/acre).

pesca.txt: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), lati-
tude (de 23,25o a 28,25o ), longitude (de 41,25o a 50,75o ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforço).

430
raia.txt : perı́odo (seco e chuvoso), local (local da pesca), mare (maré,
quadratura e sizı́gia), vvento (velocidade do vento m/s), tmax (tempe-
ratura máxima em graus Celsus), tmin (temperatura mı́nima em graus
Celsus), ins (insolação em horas) e cpue (captura por unidade de es-
forço).

restaurante.txt: faturamento anual (em mil USD) e gastos com publici-

dade (em mil USD).

snack.txt: força necessária para o cisalhamento, tipo de snack (1:A, 2:B,

3:C, 4:D, 5:E), número de semanas.

sobrev.txt: número de células brancas, tempo de sobrevivência (em sema-

nas) e caracterı́stica morfológica (AG=1 positivo, AG=0 negativo).

turbina.txt: tipo de turbina (1 a 5) e tempo de duração do motor (em

milhões de ciclos).

vidros.txt: tempo de resistência (em horas), voltagem (1:200, 2:250, 3:300,

4:350) e temperatura (1:170 graus Celsus, 2:180 graus Celsus).

Capı́tulo 3
besouros.txt: besouros mortos, besouros expostos e dose.

caduquice.txt: escore no exame psicológico, ocorrência de caduquice (1:sim,

0:não).

camundongos: sexo (1:macho, 0:fêmea), tratamento (1:sim, 0:controle), ca-

sos e expostos.

431
dengue.txt: idade (em anos) do entrevistado, nı́vel sócio-econômico (1:alto,
2:médio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnóstico da doença (1:sim, 0:não).

diabetes.txt: massa corporal, histórico familiar (1:presença, 0:ausência) e

atividades fı́sicas (1:presença, 0:ausência) para os casos e para os con-
troles, respectivamente.

dose1.txt: dose, caramujos expostos e caramujos mortos.

dose2.txt: dose, caramujos expostos e caramujos mortos.

dose3.txt: dose, caramujos expostos e caramujos mortos.

equipamentos.txt: tempo, número de equipamentos expostos, número de

equipamentos que falaharam.

gestantes.txt: idade (0:¡ 30, 1:30 ou +), número de cigarros consumidos

por dia (0:¡ 5, 1:5 ou +), tempo de gestação (0:¡=260 dias, 1:¿ 260
dias), crianças não sobreviventes e crianças sobreviventes.

grahani.txt: número de lagartos da espécie grahani, total de lagartos, perı́odo

do dia (1:manhã, 2:meio-dia, 3:tarde), comprimento da madeira (1:curta,
2:cumprida), largura da madeira (1:estreita, 2:larga) e local de ocupação
(1:claro, 2:escuro).

heart: Age (idade em anos), FE 9faixa etária) e HD (doença arterial coro-

nariana, 1:presença e 0:ausência).

insetic.txt: número de insetos mortos, número de insetos expostos, dose

do inseticida, inseticida DDT, inseticida γ-DDT e inseticida DDT +
γ-DDT (1:presença, 0:ausência).

432
leuce.txt: idade do paciente (em anos), mancha diferencial da doença, infil-
tração na medula, células com leucemia, malignidade da doença, tempe-
ratura máxima antes do tratamento, tratamento (1:satisfatório, 0:não),
tempo de sobrevivência (em meses) e situação (1:sobrevivente, 0:não
sobrevivente).

matched.txt: estrato, observação (1:caso, 2:controle), idade da paciente

no momento da entrevista (em anos), diagnóstico (1:caso, 0:controle),
tempo de escolaridade (em anos), grau de escolaridade (0:nenhum, 1:se-
gundo grau, 2:técnico, 3:universitário, 4:mestrado, 5:doutorado), chec-
kup regular (1:sim, 2:não), idade da primeira gravidez, idade do inı́cio
da menstruação, número de abortos, número de filhos, peso (em li-
bras), idade do último perı́odo menstrual e estado civil (1:casada, 2:
divorciada, 3:separada, 4:viúva, 5:solteira). Observações perdidas são
denotadas por NA.

meninas.txt: garotas menstruando, garotas entrevistadas e idade média.

morgan.txt: concentração (R, D, M), dose, insetos expostos, insetos mor-

tos.

olhos.txt: cor dos olhos dos pais, cor dos olhos dos avós, número total de
filhos e número de filhos com olhos claros.

prefauto.txt: preferência comprador tipo de automóvel (1:americano, 0:ja-

ponês), idade do comprador (em anos), sexo do comprador (0:mascu-
lino, 1:feminino) e estado civil do comprador (0:casado, 1:solteiro).

pregibon.txt: resposta (1:ocorrência, 0:ausência), volume e razão.

pulso.txt: pulsação em repouso (1:normal, 0:alta), hábito de fumar (1:sim,

2:não) e peso (em kg).

433
rotifers.txt: densidade, rotifers suspensos, rotifers expostos e espécie (1:
Polyarthra, 0:Keratella).

sementes.txt: temperatura da germinação, nı́vel da umidade, nı́vel da tem-

peratura, número de sementes que germinaram.

Capı́tulo 4
breslow.txt: número de casos de câncer, total de pessoas-anos, número de
cigarros por dia (1:não fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etária (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).

canc1.txt: idade no primeiro emprego com 4 nı́veis (1:¡20, 2:20-27, 3:27.5-

34.9, 4:35+ anos), ano do primeiro emprego com 4 nı́veis (1:¡1910,
2:1910-1914, 3:1915-1919, 4:1920-1924), tempo decorrido desde o pri-
meiro emprego com 5 nı́veis (1:0-19, 2:20-29, 3:30-39, 4:40-49, 5:50+
anos), número de casos de câncer e o total de pessoas-anos de ob-
servação.

detergente.txt: temperatura da água, uso de M, preferência (X,M), maciez

da água, número de pessoas.

emprego.txt: nı́vel de renda (1: ¡ USD 6000, 2: USD 6000-15000, 3: USD

15000-25000, 4: ¿ USD 25000), grau de satisfação (1:alto, 2: bom, 3:
médio, 4: baixo) e número de indivı́duos.

geriatra.txt: número de quedas no perı́odo, intervenção (0:educação so-

mente, 1:educação e exercı́cios fı́sicos), sexo (0:feminino, 1:masculino),
balanço e força.

434
heart.txt: doença das coronárias (1:sim, 2:não), nı́vel de colesterol (1:me-
nor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),pressão
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e número de indivı́duos.

navios.txt: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricação (1:60-
64, 2:65-69, 3:70-74, 4:75-79), perı́odo de operação (1:60-74, 2:75-79),
tempo de operação (em meses) e número de avarias.

nitrofen: dosagem de nitrofen, total de ovos eclodidos.

quine.txt: etnia (A:aborı́gine, N:não aborı́gine), sexo (M:masculino, F: fe-

minino), ano (F0:8a série, F1:1o ano ensino médio, F2:2o ano ensino
médio, F3:3o ano ensino médio), desempenho (SL:baixo, AL:normal) e
dias ausentes no ano letivo.

recrutas.txt: hábito de nadar (ocasional, frequente), local onde costuma

nadar (piscina, praia), faixa-etária (15-19, 20-25, 25-29), sexo (mascu-
lino, feminino) e número de infecções de ouvido.

rolos.txt: comprimento do tecido (em metros) e número de falhas.

store.txt: número de clientes, número de domicı́lios, renda média anual (em

USD), idade média dos domicı́lios (em anos), distância entre a área e o
competidor mais próximo (em milhas) e distância entre a área e a loja
(em milhas).

tvcabo.txt: número de domicı́lios na área (em milhares), porcentagem de

domicı́lios com TV a cabo, renda per capita (em USD) por domicı́lio
com TV a cabo, taxa de instalação de TV a cabo (em USD), custo
médio mensal de manutenção de TV a cabo (em USD), número de

435
canais a cabo disponı́veis na área e número de canais não pagos com
sinal de boa qualidade disponı́veis na área.

Capı́tulo 5
artrite.txt: paciente, ocasião (1:inı́cio, 2:1 mês, 3:2 meses, 4:3 meses), gênero
(1:masculino, 0:feminino), idade (em anos), tratamento (0:placebo, 1:au-
ronofin), resultado (1:ruim, 2:regular, 3:bom).

ataques.txt: indivı́duo, perı́odo (1:antes do tratamento, 2:1o perı́odo após

o tratamento, 3:2o perı́odo após o tratamento, 4:3o perı́odo após o tra-
tamento), número de semanas em cada perı́odo, número de ataques em
cada perı́odo e tratamento (0:placebo, 1:progabide).

cevada.txt: incidência da mancha (proporção), local (1 a 9) e variedade (1

a 10).

mosca.txt: número de ácaros coletados espécie2, espécie3, espécie6, espécie14,

número de partes da placa, posição (1:lateral, 0:central), região (1:São
Roque, 2:Pindamonhangaba, 3:Nova Odessa, 4:Ribeirão Preto) e tem-
peratura (em graus Celsus).

mistura.txt: painel, dia, método, mistura, porcentagem de reflectância do

pigmento.

ratosgee.txt: animal, perı́odo, quantidade de células brancas, quantidade

de células vermelhas e número de colônias de células cancerosas.

respiratorio.txt: paciente, tratamento (0:droga ativa, 1:placebo), sexo (0:fe-

minino, 1:masculino), idade (em anos), nı́vel base (0:ausência, 1:pre-
sença) e condição do paciente nas visitas (0:boa, 1:ruim).

436
rinse.txt: voluntário, perı́odo (1:inı́cio, 2:após 3 meses, 3:após 6 meses),
tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.

437
Apêndice B

Neste apêndice são apresentados os códigos em R dos programas de envelope

usados para alguns MLGs.

Modelos com resposta normal

X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
H = X%*%solve(t(X)%*%X)%*%t(X)
h = diag(H)
si = lm.influence(fit.model)$sigma
r = resid(fit.model)
tsi = r/(si*sqrt(1-h))
#
ident = diag(n)
epsilon = matrix(0,n,100)
e = matrix(0,n,100)
e1 = numeric(n)
e2 = numeric(n)
#
for ( i in 1:100) {

438
epsilon[,i] = rnorm(n,0,1)
e[,i] = (ident - H)%*%epsilon[,i]
u = diag(ident - H)
e[,i] = e[,i]/sqrt(u)
e[,i] = sort(e[,i]) }
#
for ( i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(tsi,e1,e2)
par(pty="s")
qqnorm(tsi, xlab="Quantil da N(0,1)", ylab = "Resı́duo Studentizado",
ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab= , type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta gama

X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)

439
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit.model,type="response")
fi = (n-p)/sum((ro/(fitted(fit.model)))^ 2)
td = resid(fit.model,type="deviance")*sqrt(fi/(1-h))
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rgamma(n,fi)
resp = (fitted(fit.model)/fi)*resp
fit = glm(resp ∼ X, family=Gamma)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit, type="response")
phi = (n-p)/sum((ro/(fitted(fit)))^ 2)
e[,i] = sort(resid(fit, type="deviance")*sqrt(phi/(1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {

440
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)

Modelos com resposta binomial

441
#
e = matrix(0,n,100)
for(i in 1:100){
dif = runif(n) - fitted(fit.model)
dif[ dif >=0 ] = 0
dif[dif < 0] = 1
nresp = dif
fit = glm(nresp ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")

442
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta binomial com réplicas

X = model.matrix(fit.model)
k = nrow(X)
e = matrix(0,k,100)
tot = numeric(k)
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
td = sort(resid(fit.model, type="deviance")/sqrt(1-h))
#
for(i in 1:100){
for(j in 1:k) {
dif = runif(n[j]) - fitted(fit.model)[j]
dif[dif >= 0] = 0
dif[dif<0] = 1
tot[j] = sum(dif)}

443
xmat = cbind(tot,n-tot)
fit = glm(xmat ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(k)
e2 = numeric(k)
#
for(i in 1:k){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]}
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td,xlab="Quantil da N(0,1)", ylab="Componente do Desvio",
ylim=faixa)
#
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=,ylab=,type="l",ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=,ylab=, type="l",ylim=faixa,lty=1)

444
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta de Poisson

X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)
#
e = matrix(0,n,100)
for(i in 1:100){
nresp = rpois(n, fitted(fit.model))
fit = glm(nresp ∼ X, family=poisson)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit,type="deviance")/sqrt(1-h)) }
#
e1 = numeric(n)
e2 = numeric(n)

445
#
for(i in 1:n){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta binomial negativa

X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
fi = fit.model$theta
w = fi*fitted(fit.model)/(fi + fitted(fit.model))
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)

446
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rnegbin(n,fitted(fit.model),fi)
fit = glm.nb( resp ∼ X)
fi = fit$theta
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt((1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty= "s")

447
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)

448
Bibliografia

Agresti A (1990) Categorical Data Analysis, First Edition. Wiley, New

York.

Agresti A (2013) Categorical Data Analysis, Third Edition. Wiley, New

York.

Aitkin M, Anderson DA, Francis B, Hinde JP (1989) Statistical Modelling

in Glim. Clarendom Press, Oxford.

Akaike H (1974) A new look at statistical model identification. IEEE Tran-

sactions on Automatic Control AU-19:716-722.

Aranda-Ordaz FJ (1981) On two families of transformations to additivity

for binary response data. Biometrika 68:357-364.

Armitage P (1955) Test for linear trend in proportions and frequencies.

Biometrics 11:375-386.

Armitage P (1971) Statistical Methods in Medical Research. Blackwell Sci-

entific Publications, Oxford.

Atkinson AC (1981) Two graphical display for outlying and influential ob-
servations in regression. Biometrika 68:13-20.

449
Atkinson AC (1985) Plots, Transformations and Regressions. Oxford Sta-
tistical Science Series, Oxford.

Beckman RJ, Nachtsheim CJ, Cook RD (1987) Diagnostics for mixed-model

analysis of variance. Technometrics 29:413-426.

Belsley DA, Kuh E, Welsch RE (1980) Regression Diagnostics. John Wiley,

New York.

Bliss CI (1935) The calculation of the dosage-mortality curve. Annals of

Applied Biology 22:134-167.

Bishop YMM, Fienberg SE, Holland PW (1975) Discrete Multivariate Analy-

sis: Theory and Practice. MIT Press, Cambridge.

Boice JD, Monson RR (1977) Breast cancer in women after repeated flu-
oroscopic examinations of the chest. Journal of the National Cancer
Institute 59:823-832.

Box GEP, Cox DR (1964) An analysis of transformations (with discussion).

Journal of the Royal Statistical Society B 26:211-252.

Box GEP, Draper NR (1987) Empirical Model-Building and Response Sur-

faces. John Wiley & Sons, New York.

Breslow NE, Clayton DG (1993) Approximate inference in generalized linear

mixed models. Journal of the American Statistical Association 88:9-25.

Breslow NE, Day NE (1980) Statistical Methods in Cancer Research, Vol.

I, The Analysis of Case-Control Studies. IARC Scientific Publications,
International Agency for Research on Cancer, Lyon.

450
Breslow NE, Day NE (1987) Statistical Methods in Cancer Research, Vol.
II, The Design and Analysis of Cohort Studies. IARC Scientific Publi-
cations, International Agency for Research on Cancer, Lyon.

Buse A (1982) The likelihood ratio, Wald and Lagrange multiplier tests: an
expository note. The American Statistician 36:153-157.

Cardoso-Neto J, Paula GA (2001). Wald one-sided test using generali-

zed estimating equations approach. Computational Statistics and Data
Analysis 36:475-495.

Casella G, Straederman WE (1980) Confidence bands for linear regression

with restricted preditor variables. Journal of the American Statistical
Association 75:862-868.

Collett D (1991) Modelling Binary Data. Chapman and Hall, London.

Cook RD (1977) Detection of influential observations in linear regressions.

Technometrics 19:15-18.

Cook RD (1986). Assessment of local influence (with discussion). Journal

of the Royal Statistical Society B 48:133-169.

Cook RD, Peña D, Weisberg S (1988) The likelihood displacement: A

unifying principle for influence measures. Communications in Statis-
tics, Theory and Methods 17:623-640.

Cook RD, Weisberg S (1982) Residuals and Influence in Regression. Chap-

man and Hall, London.

Cordeiro GM (1986) Modelos Lineares Generalizados. Livro texto de mi-

nicurso, VII Simpósio Nacional de Probabilidade e Estatı́stica, UNI-
CAMP, Campinas, SP.

451
Cordeiro GM, McCullagh P (1991) Bias correction in generalized linear
models. Journal of the Royal Statistical Society B 53:629-643.

Cordeiro GM, Ferrari SLP, Paula GA (1993) Improved score tests for gene-
ralized linear models. Journal of the Royal Statistical Society B 55:661-
674.

Cordeiro GM, Paula GA, Botter DA (1994) Improved likelihood ratio tests
for dispersion models. International Statistical Review 62:257-274.

Cordeiro GM, Paula GA (1989) Improved likelihood ratio statistics for ex-
ponential family nonlinear models. Biometrika 76:93-100.

Cornfield J (1951) A method of estimating comparative rates from clinical

data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11:1269-1275.

Cornfield J (1956) A statistical problem arising from retrospective studies.

In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.

Cox DR (1970) The Analysis of Binary Data. Methuen, London.

Cox DR (1972) Regression models and life tables (with discussion). Journal
of the Royal Statistical Society B 74:187-220.

Cox DR, Hinkley DV (1974) Theorical Statistics. Chapman and Hall, Lon-
don.

Cox DR, Oakes D (1984) Analysis of Survival Data. Chapman and Hall,
London.

452
Cox DR, Snell EJ (1968) A general definition of residuals (with discussion).
Journal of the Royal Statistical Society B 30:248-275.

Cox DR, Snell EJ (1989) The Analysis of Binary Data, 2nd Edition. Chap-
man and Hall, London.

Davison AC, Gigli A (1989) Deviance residuals and normal scores plots.
Biometrika 76:211-221.

Davison AC, Tsai CL (1992) Regression model diagnostics. International

Statistical Review 60:337-353.

Day NE, Byar DP (1979) Testing hypothesis in case-control studies-equivalence

of Mantel-Haenszel statistics and logit score tests. Biometrics 35:623-
630.

de Jong P, Heller GZ (2008)

Generalized Linear Models for Insurance Data. Cambridge University Press,

Cambridge.

Diggle PJ, Liang KY, Zeger SL (1994) Analysis of Longitudinal Data. Ox-
ford University Press.

Dixon WJ (1987) BMDP Statistical Software. University of California Press,

Berkeley.

Dunn PK, Smyth GK (1996) Randomized Quantile Residuals. Journal of

Computational and Graphical Statistics 5:236-244.

Efron B (1988) Logistic regression, survival analysis and the Kaplan-Meier

curve. Journal of the American Statistical Association 83:414-425.

453
Emerson JD, Hoaglin DC, Kempthorne PJ (1984) Leverage in least squa-
res additive-plus-multiplicative fits for two-way tables. Journal of the
American Statistical Association 79:329-335.

Escobar LA, Meeker WQ (1992) Assessing influence in regression analysis

with censored data. Biometrics 48:507-528.

Everitt BS (1977) The Analysis of Contingency Tables. Chapman and Hall,

London.

Everitt BS (1994) A Handbook of Statistical Analysis using S-Plus. Chap-

man and Hall, London.

Fahrmeir L, Kaufmann H (1985) Consistency and asymptotic normality of

the maximum likelihood estimator in generalized linear models. Annals
of Statistics 13:342-368.

Fahrmeir L, Klinger J (1994) Estimating and testing generalized linear mo-

dels under inequality constraints. Statistical Papers 35:211-229.

Farhrmeir L, Tutz G (2001). Multivariate Statistical Modelling based on

Generalized Linear Models. Springer, New York.

Feigl P, Zelen M (1965) Estimation of exponential survival probabilities

with concomitant information. Biometrics 21:826-838.

Finney DJ (1971) Probit Analysis, 3rd. Edition. Cambridge University

Press, Cambridge.

Finney DJ (1978) Statistical Methods in Biological Assay, 3rd. Edition.

Cambridge University Press, Cambridge.

454
Fieller EC (1954) Some problems in interval estimation. Journal of the
Royal Statistical Society B 16:175-185.

Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Regres-
sion. New York: Springer.

Fung WK, Kwan CW (1997) A note on local influence based on normal

curvature.Journal of the Royal Statistical Society B 59:839-843.

Gray JB (1989) On the use of regression diagnostics. The Statistician 38:97-

105.

Green PJ, Silverman BW (1994) Nonparametric Regression and Generalized

Linear Models. Chapman and Hall.

Gu H, Fung WK (1998) Assessing local influence in canonical correlation

analysis. Annals of the Institute of Statistical Mathematics 50:755-772.

Hadgu A, Koch G (1999) Application of generalized estimating equations

to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9:161-178.

Hand DJ, Daly F, Lunn AD, McConway KJ, Ostrowski E (1994) A Hand-
book of Small Data Sets. Chapman and Hall, London.

Hannan J, Harkness W (1963) Normal approximation to the distribution of

two independent binomials, conditional to the sum. Annals of Mathe-
matical Statistics 34:1593-1595.

Hastie T, Tibshirani R (1990) Generalized Additive Models. Chapman and

Hall, London.

455
Hinde J (1982) Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.

Hinde J, Demétrio CGB (1998). Overdispersion: model and estimation.

Computational Statistics and Data Analysis 27, 151-170.

Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.

Hosmer DW, Lemeshow S (1989) Applied Logistic Regression, 1st Edition.

Wiley.

Hosmer DW, Lemeshow S, Sturdivant R (2013) Applied Logistic Regression,

3nd Edition. Wiley.

Innes JRM, Ulland BM, Valerio MG, Petrucelli L, Fishbein L, Hart ER,
Pallota AJ, Bates RR, Falk HL, Gart JJ, Klein M, Mitchell I, Peters J
(1969) Biossay of pesticides and industrial chemicals for tumorigenicity
in mice: A preliminary note. Journal of the National Cancer Institute
42:1101-1114.

Jørgensen B (1987) Exponential dispersion models (with discussion). Jour-

nal of the Royal Statistical Society B 49:127-162.

Kwan CW, Fung WK (1998) Assessing local influence for specific restricted
likelihood: Applications to factor analysis. Psychometrika 63:35-46.

Lawless JF (1982) Statistical Models and Methods for Lifetime Data. John
Wiley, New York.

Lawless JF (1987) Negative binomial and mixed Poisson regression. The

Canadian Journal of Statistics 15:209-225.

456
Lawrence AJ (1988) Regression transformation diagnostics using local in-
fluence. Journal of the American Statistical Association 84:125-141.

Lee ET (1991) Statistical Methods for Survival Data Analysis, Second Edi-
tion. John Wiley, New York.

Lee Y, Nelder JA (1996). Hierarchical generalized linear models. Journal

of the Royal Statistical Society B 58:619-678.

Lee Y, Nelder JA (2001) Hierarchical generalised linear models: a synthe-

sis of generalised linear models, random-effect models and structured
dispersions. Biometrika 88:987-1006.

Lee Y, Nelder JA, Pawitan Y (2006) Generalized Linear Models with Ran-
dom Effects: Unified Analysis via h-likelihood. Boca Raton: Chapman
& Hall/CRC.

Leemis LM, Trivedi KS (1996) A comparison of aproximate interval estima-

tors for the Bernoulli parameter. The American Statistician 50:63-68.

Lehnman EL Casella G (2011) Theory of Point Estimation, Second Edition.

Springer, New York.

Liang KY, Zeger SL (1986) Longitudinal data analysis using generalized

linear models. Biometrika 73:13-22.

Mantel N (1963) Chi-square tests with one degree of freedom: extensions

of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58:690-700.

Mantel N, Haenszel BF (1959) Statistical aspects of the analysis of the data

from retrospective studies of disease. Journal of the National Cancer
Institute 22:719-748.

457
McCullagh P (1983) Quasi-likelihood functions. Annals of Statistics 11:
59-67.

McCullagh P (1987) Tensor Methods in Statistics. Chapman and Hall,

London.

McCullagh P, Nelder JA (1989) Generalized Linear Models, 2nd. Edition.

Chapman and Hall, London.

McCulloch CE, Searle SR (2001) Linear and Generalized Linear Mixed Mo-
dels. Wiley, New York.

Milicer H, Szczotka F (1966) Age at menarche in Warsaw girls in 1965.

Human Biology 38:199-203.

Montgomery DC, Peck EA, Vining GG (2001) Introduction to Linear Re-

gression Analysis, Fourth Edition. John Wiley, New York.

Montgomery DC, Peck EA, Vining GG (2021). Introduction to Linear Re-

gression Analysis, Sixth Edition. John Wiley, New York.

Myers RH, Montgomery DC, Vining GG (2002) Generalized Linear Models:

With Applications in Engineering and the Sciences. John Wiley, New
York.

Moolgavkar SH, Lustbader ED, Venzon DJ (1984) A geometric approach

to non-linear regression diagnostics with application to matched case-
control studies. Annals of Statistics 12:816-826.

Morgan BJT (1992) Analysis of Quantal Response Data. Chapman and

Hall, London.

458
Nelder JA, Pregibon D (1987) An extended quasi-likelihood function. Bio-
metrika 74:221-232.

Nelder JA, Wedderburn RWM (1972) Generalized linear models. Journal

of the Royal Statistical Society A 135:370-384.

Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied Linear

Regression Models, 3rd Edition. Irwin, Illinois.

Nyquist H (1991). Restricted estimation of restricted generalized linear

models. Applied Statistics 40:133-141.

Palmgren J (1981) The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68:563-566.

Park TP, Shin DW, Park CG (1998) A generalized estimating equations

approach for testing ordered group effects with repeated measurements.
Biometrics 54:1645-1653.

Paula GA (2013) On diagnostics in double generalized linear models. Com-

putational Statistics and Data Analysis 68:44-51.

Paula GA, Artes R (2000) One-sided test to assess correlation in logistic

linear models using estimating equations. Biometrical Journal 42:701-
714.

Paula GA, Denaro-Machado L, Ogata TT, Machado JC, Matta MS, Petrella
SMCN (1992) Caquexia cancerosa em modelo experimento rato nude
atı́mico/tumor humano KB. Revista Laes Haes 76:28-30.

459
Paula GA, Oshiro CH (2001) Relatório de Análise Estatı́stica sobre o Pro-
jeto: Análise de Captura por Unidade de Esforço do Peixe-Batata na
Frota Paulista. RAE-CEA0102, IME-USP.

Paula GA, Tuder RM (1986) Utilização da regressão logı́stica para aper-

feiçoar o diagnóstico de processo infeccioso pulmonar. Revista Ciência
e Cultura 40:1046-1050.

Paula GA, Sevanes M, Ogando MA (1988) Relatório de Análise Estatı́stica

sobre o Projeto: Estudo de Plantas Brasileiras com Efeito Moluscicida
em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.

Paula GA, Tavares HR (1992) Relatório de Análise Estatı́stica sobre o Pro-

jeto: Ácaros Associados ao Esterco Bovino. Subsı́dios para Controle
Biológico da Mosca do Chifre. RAECEA 9206, IME-USP

Peduzzi PN, Hardy RJ, Holford TT (1980) A stepwise variable selection

procedure for nonlinear regression models. Biometrics 36:511-516.

Pettitt AN, Bin Daud I (1989) Case-weight measures of influence for pro-
portional hazards regression. Applied Statistics 38:51-67.

Piegorsch WW, Casella G (1988) Confidence bands for logistic regression

with restricted predictor variables. Biometrics 44:739-750.

Poon W, Poon Y (1999) Conformal normal curvature and assessment of

local influence. Journal of the Royal Statistical Society B 61:51-61.

Pregibon D (1981) Logistic regression diagnostics. Annals of Statistics

9:705-724.

Pregibon D (1982) Score tests in GLIM with applications. Lecture Notes in

Statistics 14:87-97.

460
Pregibon D (1984) Data analytic methods for matched case-control studies.
Biometrics 40:639-651.

Ramanathan R (1993) Statistical Methods in Econometrics. Wiley, New

York.

Rao CR (1973) Linear Statistical Inference and Its Applications, Second

Edition. Wiley, New York.

Ratkowsky DA (1983) Nonlinear Regression Modelling. Marcel Dekker, New

York.

Rigby RA, Stasinopoulos DM (2005) Generalized Additive Models for Lo-

cation, Scale and Shape. Applied Statistics 54:507-554.

Ryan BF, Joiner BL (1994) Minitab Handbook, Third Edition. Duxbury

Press, Belmont.

St. Laurent RT, Cook RD (1992) Leverage and superleverage in nonlinear

regression. Journal of the American Statistical Association 87:985-990.

Schwarz G (1978) Estimating the Dimension of a Model. Annals of Statistics

6:461-464.

Seber GAF, Wild CJ (1989) Nonlinear Regression. John Wiley, New York.

Sen PK, Singer JM (1993) Large Sample Methods in Statistics: An Intro-

duciton with Applications. Chapman and Hall, London.

Silva GL (1992) Modelos Logı́sticos para Dados Binários. Dissertação de

Mestrado, IME-USP.

Smyth GK (1989) Generalized linear models with varying dispersion. Jour-

nal of the Royal Statistical Society B 51:47-60.

461
Smyth GK, Verbyla A (1999) Adjusted likelihood methods for modelling
dispersion in generalized linear models. Environmetrics 10:696-709.

Stukel TA (1988) Generalized logistic models. Journal of the American

Statistical Association 83:426-431.

Stasinopoulos MD, Righy RA, Gillian ZA, Voudouris V, de Bastiani F

(2017) Flexible Regression and Smoothing Using GAMLSS in R. Chap-
man and Hall/CRC.

Tsai CH, Wu X (1992). Assessing local influence in linear regression mo-

dels with first-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14:247-252.

Venables WN, Ripley BD (1999) Modern Applied Statistics with S-Plus,

Third Edition. Springer, New York.

Verbyla AP (1993) Modelling variance heterogeneity: residual maximum

likelihood and diagnostics. Journal of the Royal Statistical Society B
55:493-508.

Wang PC (1985). Adding a variable in generalized linear models. Techno-

metrics 27:273-276.

Wedderburn RWM (1974) Quasi-likelihood functions, generalized linear mo-

dels and the Gauss-Newton method. Biometrika 61:439-447.

Wedderburn RWM (1976) On the existence and uniqueness of the maximum

likelihood estimates for certain generalized linear models. Biometrika
68:27-32.

Wei BC (1998) Exponential Family Nonlinear Models. Lecture Notes in

Statistics Vol. 130. Springer, New York.

462
Wei BC, Hu YQ, Fung WK (1998) Generalized leverage and its applications.
Scandinavian Journal of Statistics 25:25-37.

Weisberg S (2014) Applied Linear Regression, Fourth Edition. Wiley.

Williams DA (1984) Residuals in generalized linear models. In: Proceedings

of the 12th. International Biometrics Conference, Tokyo, pp. 59-68.

Williams DA (1987) Generalized linear model diagnostic using the deviance

and single case deletion. Applied Statistics 36:181-191.

Wolf (1955) On estimating the relationship between blood group and dise-
ase. Annals of Human Genetic 19:251-253.

Wood FS (1973) The use of individual effects and residuals in fitting equa-
tions to data. Technometrics 15:677-687.

Wood SN (2017) Generalized Additive Models. An Introduction with R, 2nd

Edition. Chapman and Hall/CRC.

Zeileis A, Kleiber C, Jackman S (2008) Regression models for count data in

R. Journal of Statistical Software 27:1-25.

463

Você também pode gostar

Astrologia Da Cabalá
90% (10)
Astrologia Da Cabalá
119 páginas
Livro 03 - Introdução A Estatística PDF
Ainda não há avaliações
Livro 03 - Introdução A Estatística PDF
73 páginas
PCOM Marinha
0% (2)
PCOM Marinha
128 páginas
Ebook - Libido e Controle Emocional 2
Ainda não há avaliações
Ebook - Libido e Controle Emocional 2
6 páginas
Paquímetro E Micrômetro:
No Everand
Paquímetro E Micrômetro:
Cleber Cosme Bueno
Ainda não há avaliações
Inferência - Estatística - (Ehlers) - (2006ver.) - (Todos+Listas) - B
Ainda não há avaliações
Inferência - Estatística - (Ehlers) - (2006ver.) - (Todos+Listas) - B
171 páginas
Revista Arquitetura e Construção - As Pessoas Certas No Lugar Certo
Ainda não há avaliações
Revista Arquitetura e Construção - As Pessoas Certas No Lugar Certo
11 páginas
Gilberto Paula - 2023
Ainda não há avaliações
Gilberto Paula - 2023
451 páginas
Texto 2023
Ainda não há avaliações
Texto 2023
451 páginas
Texto - 2013 Gilberto
Ainda não há avaliações
Texto - 2013 Gilberto
446 páginas
Livro Gilberto 2012
Ainda não há avaliações
Livro Gilberto 2012
429 páginas
Modelos de Regressão Com Apoio Computacional
Ainda não há avaliações
Modelos de Regressão Com Apoio Computacional
403 páginas
Modelos Lineares Generalizados - Da Teoria 'A Prática
Ainda não há avaliações
Modelos Lineares Generalizados - Da Teoria 'A Prática
153 páginas
Moldelos Lineares Generalizados - Livroprofessor Usp
Ainda não há avaliações
Moldelos Lineares Generalizados - Livroprofessor Usp
253 páginas
Modelos Lineares Generalizados e Extens Oes
Ainda não há avaliações
Modelos Lineares Generalizados e Extens Oes
493 páginas
Cordeiro & Demetrio - 2010 - MLG PDF
Ainda não há avaliações
Cordeiro & Demetrio - 2010 - MLG PDF
400 páginas
Livro
Ainda não há avaliações
Livro
400 páginas
Notas de Aula Modelos Lineares
Ainda não há avaliações
Notas de Aula Modelos Lineares
132 páginas
Apostila MLG (Modelos Lineares Generalizados)
Ainda não há avaliações
Apostila MLG (Modelos Lineares Generalizados)
504 páginas
Modelos de Regresión GPaula 2003 PDF
Ainda não há avaliações
Modelos de Regresión GPaula 2003 PDF
300 páginas
Apostila Modelos de Regressão ESALQUSP
67% (3)
Apostila Modelos de Regressão ESALQUSP
225 páginas
Clarice
Ainda não há avaliações
Clarice
255 páginas
Modelos Lineares Generalizados - Apostila Gauss Cordeiro
Ainda não há avaliações
Modelos Lineares Generalizados - Apostila Gauss Cordeiro
165 páginas
Modelos Lineares Generalizados-UFRPE e ESALQ
Ainda não há avaliações
Modelos Lineares Generalizados-UFRPE e ESALQ
165 páginas
Modelos de Regressao Logistica
Ainda não há avaliações
Modelos de Regressao Logistica
149 páginas
SOUZA, G.S. Introdução Aos Modelos de Regressão Linear e Não-Linear PDF
50% (2)
SOUZA, G.S. Introdução Aos Modelos de Regressão Linear e Não-Linear PDF
8 páginas
Modelo de Regressão Linear: Aspectos Teóricos e Computacionais
Ainda não há avaliações
Modelo de Regressão Linear: Aspectos Teóricos e Computacionais
63 páginas
Trabalho Regressão Bayesiana
Ainda não há avaliações
Trabalho Regressão Bayesiana
25 páginas
Master Dez 2019
Ainda não há avaliações
Master Dez 2019
346 páginas
Econometria
Ainda não há avaliações
Econometria
404 páginas
LIVRO Bolfarine Sandoval-2
Ainda não há avaliações
LIVRO Bolfarine Sandoval-2
126 páginas
TCC 20191 JessykaAmorimPadilhaGoltara 214054090
Ainda não há avaliações
TCC 20191 JessykaAmorimPadilhaGoltara 214054090
77 páginas
Chia Cchio Edson Jose
Ainda não há avaliações
Chia Cchio Edson Jose
169 páginas
PDF Modeloslineares
Ainda não há avaliações
PDF Modeloslineares
22 páginas
Estatística II
Ainda não há avaliações
Estatística II
154 páginas
Jomar Camarinha - Notas de Aula - Estatística
Ainda não há avaliações
Jomar Camarinha - Notas de Aula - Estatística
154 páginas
Análise Multivariada em Psicologia
Ainda não há avaliações
Análise Multivariada em Psicologia
66 páginas
TCC Bruno
Ainda não há avaliações
TCC Bruno
12 páginas
Lista 04 - Revisão
100% (1)
Lista 04 - Revisão
12 páginas
Sebenta EST2
Ainda não há avaliações
Sebenta EST2
64 páginas
Trabalho de Modelo de Regressão Linear Simples Ou Clássico - 063432
Ainda não há avaliações
Trabalho de Modelo de Regressão Linear Simples Ou Clássico - 063432
20 páginas
Lista 3 Modelagem Estatística
Ainda não há avaliações
Lista 3 Modelagem Estatística
3 páginas
Modelos de Regressão Não Linear
Ainda não há avaliações
Modelos de Regressão Não Linear
49 páginas
Gustavo Relatorio
Ainda não há avaliações
Gustavo Relatorio
19 páginas
Resumo P1 GLM
Ainda não há avaliações
Resumo P1 GLM
9 páginas
Apostila Estatistica
Ainda não há avaliações
Apostila Estatistica
75 páginas
Apostila Estatística
Ainda não há avaliações
Apostila Estatística
75 páginas
Análise de Regressão Linear No R (Livro)
Ainda não há avaliações
Análise de Regressão Linear No R (Livro)
53 páginas
Apostila de Estatística - UFPR PDF
Ainda não há avaliações
Apostila de Estatística - UFPR PDF
161 páginas
Djamla Pedrao - Análise de Dados Amostrais Complexos 2018
Ainda não há avaliações
Djamla Pedrao - Análise de Dados Amostrais Complexos 2018
148 páginas
Modelos Lineares Generalizados Duplos e Aplicações: Marcus Vinicius Teixeira Borba
Ainda não há avaliações
Modelos Lineares Generalizados Duplos e Aplicações: Marcus Vinicius Teixeira Borba
46 páginas
Livro Estatística PDF
Ainda não há avaliações
Livro Estatística PDF
73 páginas
MPRegr Actual 2025
Ainda não há avaliações
MPRegr Actual 2025
16 páginas
GLARMA
Ainda não há avaliações
GLARMA
26 páginas
Livro Regressão
Ainda não há avaliações
Livro Regressão
110 páginas
18 - Síntese Do Método
Ainda não há avaliações
18 - Síntese Do Método
12 páginas
Econometria Basica
Ainda não há avaliações
Econometria Basica
21 páginas
A Equoterapia Na Inclusão Escolar
No Everand
A Equoterapia Na Inclusão Escolar
Eliane Cristina Baatsch
Ainda não há avaliações
Tópicos Sobre Metrologia Industrial
No Everand
Tópicos Sobre Metrologia Industrial
Romualdo Campos Da Fonsêca
Ainda não há avaliações
Compêndio de Economia Regional II
No Everand
Compêndio de Economia Regional II
Tomaz Ponce Dentinho
Ainda não há avaliações
Números Complexos
No Everand
Números Complexos
Clariana Martinelli Silva, Luana De Oliveira Justo E Ygor Franzotti De Barros Gomes
Ainda não há avaliações
Números Complexos Com Aplicações Em Engenharia
No Everand
Números Complexos Com Aplicações Em Engenharia
César Augusto Dartora E Armando Heilman
Ainda não há avaliações
Gestão da Sustentabilidade: a mentalidade do consumo sustentável e sua influência nas estratégias empresariais
No Everand
Gestão da Sustentabilidade: a mentalidade do consumo sustentável e sua influência nas estratégias empresariais
Marluci Torquato
Ainda não há avaliações
Princípio De Resistência Dos Materiais
No Everand
Princípio De Resistência Dos Materiais
Cleber Cosme Bueno
Ainda não há avaliações
Distancias Entre Ortocentro-Incentro e Circuncentro
Ainda não há avaliações
Distancias Entre Ortocentro-Incentro e Circuncentro
4 páginas
Mapa Mental ABA
67% (3)
Mapa Mental ABA
1 página
Morfologia Floral
Ainda não há avaliações
Morfologia Floral
8 páginas
Precipitação: Geografia
Ainda não há avaliações
Precipitação: Geografia
26 páginas
Lei de Gauss para Simetria Cilíndrica
Ainda não há avaliações
Lei de Gauss para Simetria Cilíndrica
2 páginas
07 - MODELO 03 - Levantamento Da Infraestrutura Existente
Ainda não há avaliações
07 - MODELO 03 - Levantamento Da Infraestrutura Existente
5 páginas
OE-SE-Study-Plans-TB-Plan-Moderate 1
Ainda não há avaliações
OE-SE-Study-Plans-TB-Plan-Moderate 1
14 páginas
CATALOGO - WIDE POWER - CICLO PROFUNDO - Rev2
Ainda não há avaliações
CATALOGO - WIDE POWER - CICLO PROFUNDO - Rev2
4 páginas
Nosso Ultimo Verao - Thais Bergmann
100% (1)
Nosso Ultimo Verao - Thais Bergmann
278 páginas
Atividade
Ainda não há avaliações
Atividade
7 páginas
Projeto Botinho Oficial
Ainda não há avaliações
Projeto Botinho Oficial
13 páginas
Exercícios de Revisão 2
Ainda não há avaliações
Exercícios de Revisão 2
3 páginas
Mary Novaes Moreira: Estradiol 19,0
Ainda não há avaliações
Mary Novaes Moreira: Estradiol 19,0
2 páginas
Cavaletes para Desenho
Ainda não há avaliações
Cavaletes para Desenho
16 páginas
Aula Raciocinio Logico Pernambuco ProfMalcero
Ainda não há avaliações
Aula Raciocinio Logico Pernambuco ProfMalcero
38 páginas
460-Texto Do Artigo-1759-1-10-20121101
Ainda não há avaliações
460-Texto Do Artigo-1759-1-10-20121101
20 páginas
CONEXO Catalogo 20.07.2022
Ainda não há avaliações
CONEXO Catalogo 20.07.2022
30 páginas
TEXTO ARGUMENTATIVO - 11º Ano
Ainda não há avaliações
TEXTO ARGUMENTATIVO - 11º Ano
4 páginas
Up Cross
Ainda não há avaliações
Up Cross
1 página
3º AO 5º ANO - DocumentoOrientador - Período Diagnóstico
Ainda não há avaliações
3º AO 5º ANO - DocumentoOrientador - Período Diagnóstico
19 páginas
ANDRADE, Artur Fernando Sampaio. Arquitetura Residencial Modernista - A Influência Da Escola Carioca Nos Projetos de Anísio Medeiros em Teresina
Ainda não há avaliações
ANDRADE, Artur Fernando Sampaio. Arquitetura Residencial Modernista - A Influência Da Escola Carioca Nos Projetos de Anísio Medeiros em Teresina
129 páginas
Geladeira Consul Crm44ak Guia Rapido
Ainda não há avaliações
Geladeira Consul Crm44ak Guia Rapido
6 páginas
Resumo Vetores, Sistema 3dequilibrio e Corpo Rigido
Ainda não há avaliações
Resumo Vetores, Sistema 3dequilibrio e Corpo Rigido
24 páginas
Praia de Iracema
Ainda não há avaliações
Praia de Iracema
111 páginas
A Garrafa Azul Violeta
Ainda não há avaliações
A Garrafa Azul Violeta
3 páginas
Respostas Introdução À Álgebra Abstrata PDF
0% (1)
Respostas Introdução À Álgebra Abstrata PDF
27 páginas

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Texto MLGs

Enviado por

Texto MLGs

Enviado por

MODELOS DE REGRESSÃO

com apoio computacional

A área de modelagem estatı́stica de regressão recebeu um grande impulso

São Paulo, agosto de 2024

1 Modelos Lineares Generalizados 1

2 Modelos para Dados Positivos Assimétricos 114

3 Modelos para Dados Binários 188

4 Modelos para Dados de Contagem 296

5 Modelos de Quase-Verossimilhança 372

f (yi ; θi , φ) = exp[φ{yi θi − b(θi )} + c(yi , φ)], (1.1)

denominada famı́lia exponencial linear. Pode-se mostrar sob condições usuais

em que E(Yi ) = µi = b0 (θi ) e Var(Yi ) = φ−1 V (µi ), sendo Vi = V (µi ) =

Ou seja, para φ grande Y segue distribuição aproximadamente normal de

de parâmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )> repre-

1.2.1 Casos particulares

em que −∞ < µ, y < ∞ e σ 2 > 0. Logo, para θ = µ, b(θ) = θ2 /2, φ = σ −2

e−µ µy /y! = exp{y log(µ) − µ − log(y!)},

em que µ > 0 e y = 0, 1, . . .. Fazendo log(µ) = θ, b(θ) = eθ , φ = 1 e

em que 0 < µ, y ∗ < 1. Obtém-se (1.1) fazendo φ = n, θ = log{µ/(1 − µ)},

V (µ) = µ(1 − µ).

em que y > 0, µ > 0. Fazendo θ = − 2µ1 2 , b(θ) = −(−2θ)1/2 e c(y; φ) =

1.3 Ligações canônicas

Um caso particular importante ocorre quando o parâmetro canônico (θ) coin-

Logo, pelo teorema da fatorização a estatı́stica S = (S1 , . . . , Sp )> é suficiente

Distribuição Normal Binomial

1.3.1 Outras ligações

Ligação complemento log-log

f (y) = exp{y − exp(y)},

em que −∞ < y < ∞. Logo, a função de distribuição acumulada fica dada

Figura 1.1: Função de distribuição acumulada das curvas logı́stica e do valor

A ligação logito é definida de forma similar. A função densidade de pro-

Figura 1.2: Ligação de Box-Cox para alguns valores de λ.

para λ 6= 0 e η = log(µ) para λ → 0. A ideia agora é aplicar a transformação

Figura 1.3: Ligação de Aranda-Ordaz para alguns valores de α.

log(1−µ)−1 de modo que η = log{−log(1−µ)} e obtém-se portanto a ligação

1.4 Função desvio

em que µi = g −1 (ηi ) e ηi = x>

L(µ; y) é estimada por

Ou seja, a estimativa de máxima verossimilhança de µi fica nesse caso dada

A qualidade do ajuste de um MLG é avaliada através da função desvio

D∗ (y; µ̂) = φD(y; µ̂) = 2{L(y; y) − L(µ̂; y)},

que é uma distância entre o logaritmo da função de verossimilhança do

A seguir a função desvio é derivada para alguns casos particulares. O

desvio não escalonado.

que coincide com a soma de quadrados de resı́duos.

Se yi = 0 o i-ésimo termo de D(y; µ̂) vale 2µ̂i . Resumindo, tem-se o seguinte

Todavia, quando yi = 0 ou yi = ni , o i-ésimo termo de D(y; µ̂) vale −2ni log(1−

Se algum componente de yi é igual a zero o desvio fica indeterminado. Mc-

em que SQRes e SQT denotam, respectivamente, a soma de quadrados de

1.4.2 Resultados assintóticos

D∗ (y; µ̂) ∼ χ2n−p , quando φ → ∞.

1.4.3 Análise do desvio

é um vetor q-dimensional, enquanto β 2 tem dimensão p − q e φ é conhecido

ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)}, (1.3)

em que  ∼ N(0, σ 2 In ), X é uma matriz n × p, In é a matriz identidade

em que θ = (β > , γ > )> e C é uma matriz k × (p + q) de posto completo. O

Para ilustrar o uso das diferenças de desvios para hipóteses em modelos

1 + SEXO + IDADE + HL + FF,

em que 1 denota a presença de intercepto no modelo, SEXO (1:feminino,

+ SEXO 235,20 1,14 1 SEXO

+ IDADE 188,22 46,98 1 IDADE | SEXO

+ HL 162,55 25,67 3 HL | SEXO +

Para calcular os nı́veis descritivos das diferenças apresentadas na Tabela

1.5 Função escore e informação de Fisher

em que ωi = (dµi /dηi )2 /Vi . Logo, é possı́vel escrever a função escore na

V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> .

cujos valores esperados ficam dados por

Logo, a submatriz de informação de Fisher para β fica expressa na forma

Uβ = φX> (y − µ) e Kββ = φX> VX,

respectivamente. Particionando o vetor de parâmetros tal que β = (β > > >

a função escore e a matriz de informação de Fisher ficam para o parâmetro

em que c0 (yi ; φ) = dc(yi , φ)/dφ. Para obter a informação de Fisher para φ é

Assim, a informação de Fisher para φ fica dada por

1.5.4 Casos particulares

Uβ = σ −2 X> (y − µ) e Kββ = σ −2 X> X,

Uβ = X> (y − µ) e Kββ = X> VX,

em que ∼ N(0, σ 2 In ), X é uma matriz n × p, In é a matriz identidade