0% acharam este documento útil (0 voto)
5 visualizações475 páginas

Texto MLGs

O documento aborda a modelagem estatística de regressão, destacando a evolução dos modelos lineares generalizados desde a década de 1970 e sua aplicação em diversas áreas do conhecimento. Ele é estruturado em capítulos que discutem diferentes tipos de modelos, estimativas, diagnósticos e aplicações práticas, incluindo exemplos e exercícios. O texto é direcionado a alunos com conhecimentos prévios em inferência estatística e regressão linear, e inclui códigos em R para análise de dados.

Enviado por

matheuslb
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
5 visualizações475 páginas

Texto MLGs

O documento aborda a modelagem estatística de regressão, destacando a evolução dos modelos lineares generalizados desde a década de 1970 e sua aplicação em diversas áreas do conhecimento. Ele é estruturado em capítulos que discutem diferentes tipos de modelos, estimativas, diagnósticos e aplicações práticas, incluindo exemplos e exercícios. O texto é direcionado a alunos com conhecimentos prévios em inferência estatística e regressão linear, e inclui códigos em R para análise de dados.

Enviado por

matheuslb
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 475

MODELOS DE REGRESSÃO

com apoio computacional

Gilberto A. Paula
Instituto de Matemática e Estatı́stica
Universidade de São Paulo
e-mail:giapaula@ime.usp.br
Prefácio

A área de modelagem estatı́stica de regressão recebeu um grande impulso


desde a criação dos modelos lineares generalizados (MLGs) no inı́cio da
década de 1970. O crescente interesse pela área motivou a realização de
vários encontros informais no inı́cio dos anos 1980, a maioria deles na Ingla-
terra, até que em 1986 foi realizado na cidade de Innsbruck na Áustria o “1st
International Workshop on Statistical Modelling”(1st IWSM). Esse encontro
tem sido realizado anualmente sendo que o último (37th IWSM) aconteceu
em julho de 2023 em Dortmund, Alemanha. O 38th IWSM será realizado em
julho de 2024 em Durham, Inglaterra. No Brasil a área começou efetivamente
a se desenvolver a partir de meados da década de 1980 e em particular após
a 1a Escola de Modelos de Regressão (1EMR) realizada na Universidade de
São Paulo em 1989. As demais escolas ocorreram desde então a cada dois
anos sendo que a 17EMR foi realizada remotamente em novembro/dezembro
de 2021 na ENCE-IBGE, Rio de Janeiro e a 18EMR ocorreu em novembro
de 2023 em Belém do Pará.
Este texto começou a ser desenvolvido a partir de 1994 quando a disciplina
Modelos Lineares Generalizados passou a ser ministrada regularmente no
programa de pós-graduação em Estatı́stica do IME-USP. O texto é direcio-
nado para alunos que tenham cursado um semestre de inferência estatı́stica
e que tenham conhecimentos de regressão linear. Portanto, trata-se de um
segundo curso de modelagem estatı́stica de regressão com um enfoque infe-

i
rencial básico e várias aplicações. O texto tem sido também utilizado nas dis-
ciplinas Análise de Dados Categorizados e Modelos de Regress~
ao II
ministradas aos alunos do Bacharelado em Estatı́stica do IME-USP.
No Capı́tulo 1 a classe dos modelos lineares generalizados (MLGs) é des-
crita juntamente com alguns conceitos básicos. Em seguida são discutidos
a estimação dos parâmetros, propriedades assintóticas dos estimadores de
máxima verossimilhança e a aplicação de alguns testes estatı́sticos mais co-
nhecidos. Uma revisão de métodos de diagnóstico é apresentada na sequência,
inicialmente fazendo-se uma sı́ntese para o modelo normal linear com ex-
tensões para a classe dos MLGs. Discute-se também a seleção de modelos e
sempre que possı́vel as metodologias são apresentadas em separado para os
modelos normais lineares e posteriormente estendidas para toda a classe dos
MLGs. O capı́tulo é concluı́do com a análise de 6 conjuntos de dados através
de MLGs apropriados.
O Capı́tulo 2 é dedicado aos modelos com resposta gama e resposta nor-
mal inversa para a análise de dados assimétricos positivos. Inicialmente
aborda-se os modelos com resposta gama sendo apresentados alguns resul-
tados inferenciais e técnicas de diagnóstico. Três conjuntos de dados são
analisados. Em seguida, alguns modelos usualmente aplicados em Econome-
tria são discutidos e um exemplo é apresentado. Em seguida são discutidos
modelos com resposta normal inversa, alguns resultados teóricos são apre-
sentados e 2 conjuntos de dados são analisados. No final do capı́tulo são
apresentados os MLGs duplos, em que a média e a dispersão são ajusta-
dos conjuntamente. Apresenta-se o processo de estimação conjunto, alguns
procedimentos de diagnóstico e um exemplo ilustrativo.
No Capı́tulo 3 discute-se modelos para a análise de dados binários, com
ênfase para os modelos logı́sticos lineares. Inicialmente uma revisão de pro-
cedimentos tradicionais para a análise de tabelas de contigência 2 × 2 é apre-
sentada. Duas aplicações são descritas nesta primeira parte do capı́tulo. Em

ii
seguida o modelo logı́stico linear é apresentado. Alguns procedimentos são
revisados, tais como seleção de modelos, análise de dados retrospectivos, qua-
lidade do ajuste e técnicas de diagnóstico. Quatro conjuntos de dados são
analisados. Discute-se no final do capı́tulo modelos de dose-resposta, sobre-
dispersão e modelos logı́sticos aplicados na análise de dados emparelhados e
mais quatro aplicações são apresentadas.
No Capı́tulo 4 são discutidos alguns modelos para a análise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresenta-se uma revisão de
metodologias tradicionais para a análise da tabelas de contingência do tipo
2 × 2 com dados de contagem. Uma aplicação é apresentada. Em seguida
discute-se modelos de Poisson para a análise de dados de seguimento e mode-
los log-lineares de Poisson. Dois exemplos são apresentados. Na sequência são
derivados modelos com resposta binomial negativa para a análise de dados
de contagem com sobredispersão. Um processo iterativo para a estimação
dos parâmetros, resultados assintóticos e metodologias de diagnóstico são
apresentados, bem como 3 aplicações. Modelos log-lineares com resposta
de Poisson são comparados com modelos log-lineares com resposta multino-
mial, sendo 2 conjuntos de dados analisados. Finalmente, uma breve resenha
dos modelos com excesso de zeros é apresentada, em particular, os modelos
ajustados em zero (modelos de fronteira) e os modelos inflacionados de zeros.
O Capı́tulo 5 é dedicado aos modelos de quase-verossimilhança e às equações
de estimação generalizadas. Inicia-se o capı́tulo com a introdução do con-
ceito de quase-verossimilhança. Em seguida são apresentados os modelos de
quase-verossimilhança para respostas independentes juntamente com o pro-
cesso de estimação, alguns resultados assintóticos e técnicas de diagnóstico.
Três aplicações são apresentadas. Na sequência deriva-se as equações de
estimação generalizadas para a análise de dados correlacionados não gaussi-
anos. Apresenta-se o processo de estimação, alguns resultados assintóticos

iii
e metodologias de diagnóstico. Esse subtópico é ilustrado com 3 aplicações.
No Apêndice A são descritos os conjuntos de dados usados nas aplicações e
nos exercı́cios propostos e no Apêndice B são descritos alguns códigos em R.
No final de cada capı́tulo são propostos exercı́cios teóricos e aplicados e ao
longo do texto são apresentados códigos e subrotinas em R, particularmente
na análise dos exemplos. Procura-se diversificar as aplicações com conjun-
tos de dados das diversas áreas do conhecimento, tais como Agricultura,
Biologia, Ciências Atuariais, Ciências Sociais, Economia, Engenharia, Geo-
grafia, Medicina, Nutrição, Pesca e Odontologia. Alguns conjuntos de dados
são oriundos de trabalhos desenvolvidos no Centro de Estatı́stica Aplicada
(CEA) do IME-USP. Página na Web onde estão disponı́veis informações sobre
este texto: http://www.ime.usp.br/∼giapaula/textoregressao.htm.
Finalizando, fica um agradecimento aos alunos que cursaram as discipli-
nas Modelos Lineares Generalizados e Tópicos de Regress~
ao e contri-
buiram com suas sugestões para o aprimoramento dos primeiros manuscritos.

São Paulo, agosto de 2024


Gilberto A. Paula
e-mail:giapaula@ime.usp.br

iv
Sumário

Prefácio i

Sumário v

1 Modelos Lineares Generalizados 1


1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . 5
1.3 Ligações canônicas . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Outras ligações . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Medida R2 . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.2 Resultados assintóticos . . . . . . . . . . . . . . . . . . 17
1.4.3 Análise do desvio . . . . . . . . . . . . . . . . . . . . . 18
1.5 Função escore e informação de Fisher . . . . . . . . . . . . . . 22
1.5.1 Escore e Fisher para β . . . . . . . . . . . . . . . . . . 22
1.5.2 Escore e Fisher para φ . . . . . . . . . . . . . . . . . . 24
1.5.3 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 24
1.5.4 Casos particulares . . . . . . . . . . . . . . . . . . . . . 24
1.6 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . 26
1.6.1 Estimação de β . . . . . . . . . . . . . . . . . . . . . 26
1.6.2 Estimação de φ . . . . . . . . . . . . . . . . . . . . . . 28

v
1.6.3 Distribuição assintótica . . . . . . . . . . . . . . . . . . 29
1.7 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.7.1 Hipóteses simples . . . . . . . . . . . . . . . . . . . . . 30
1.7.2 Modelos encaixados . . . . . . . . . . . . . . . . . . . . 33
1.7.3 Modelo de análise de variância . . . . . . . . . . . . . . 38
1.7.4 Regressão linear simples . . . . . . . . . . . . . . . . . 40
1.7.5 Hipóteses restritas . . . . . . . . . . . . . . . . . . . . 40
1.8 Bandas de confiança . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 42
1.8.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 42
1.9 Técnicas de diagnóstico modelo normal linear . . . . . . . . . 43
1.9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 44
1.9.3 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9.4 Outra interpretação para t∗i . . . . . . . . . . . . . . . 49
1.9.5 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.9.6 Ilustração . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.9.7 Influência local . . . . . . . . . . . . . . . . . . . . . . 55
1.9.8 Gráfico da variável adicionada . . . . . . . . . . . . . . 60
1.9.9 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 61
1.10 Técnicas de diagnóstico MLGs . . . . . . . . . . . . . . . . . . 64
1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 64
1.10.2 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.10.3 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.10.4 Influência local . . . . . . . . . . . . . . . . . . . . . . 72
1.10.5 Gráfico da variável adicionada . . . . . . . . . . . . . . 73
1.10.6 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . 75
1.11 Seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . 76
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 76

vi
1.11.2 Extensão para os MLGs . . . . . . . . . . . . . . . . . 78
1.12 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 79
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 84
1.12.3 Sobrevivência de bactérias . . . . . . . . . . . . . . . . 87
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustı́vel . . . . . . . . . . . . . . . . . 93
1.12.6 Salário de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2 Modelos para Dados Positivos Assimétricos 114


2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2 Distribuição gama . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.3 Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118
2.3.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119
2.3.2 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 120
2.4 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1 Comparação de cinco tipos de turbina de avião . . . . 121
2.4.2 Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127
2.4.3 Aplicação em seguros . . . . . . . . . . . . . . . . . . . 137
2.5 Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
2.5.1 Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 145
2.5.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 146
2.6 Distribuição normal inversa . . . . . . . . . . . . . . . . . . . 149
2.7 Modelos com resposta normal inversa . . . . . . . . . . . . . . 151
2.7.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 152
2.7.2 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 152
2.8 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
2.9 Modelagem simultânea da média e da dispersão . . . . . . . . 161

vii
2.9.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 164
2.9.2 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 166
2.9.3 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

3 Modelos para Dados Binários 188


3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
3.2 Métodos clássicos: uma única tabela 2 × 2 . . . . . . . . . . . 189
3.2.1 Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 190
3.2.2 Modelo probabilı́stico não condicional . . . . . . . . . . 192
3.2.3 Modelo probabilı́stico condicional . . . . . . . . . . . . 194
3.2.4 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . 197
3.3 Métodos clássicos: k tabelas 2 × 2 . . . . . . . . . . . . . . . . 201
3.3.1 Estimação da razão de chances comum . . . . . . . . . 202
3.3.2 Testes de homogeneidade . . . . . . . . . . . . . . . . . 204
3.4 Métodos clássicos: tabelas 2 × k . . . . . . . . . . . . . . . . . 205
3.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
3.5.1 Associação entre fungicida e desenvolvimento de tumor 208
3.5.2 Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 211
3.6 Regressão logı́stica linear . . . . . . . . . . . . . . . . . . . . . 212
3.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . 212
3.6.2 Regressão logı́stica simples . . . . . . . . . . . . . . . . 212
3.6.3 Regressão logı́stica múltipla . . . . . . . . . . . . . . . 216
3.6.4 Bandas de confiança . . . . . . . . . . . . . . . . . . . 218
3.6.5 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 218
3.6.6 Amostragem retrospectiva . . . . . . . . . . . . . . . . 223
3.6.7 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 224
3.6.8 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 226
3.6.9 Aplicacões . . . . . . . . . . . . . . . . . . . . . . . . . 228

viii
3.7 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.8 Modelos de dose-resposta . . . . . . . . . . . . . . . . . . . . . 246
3.8.1 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 248
3.8.2 Estimação da dose letal . . . . . . . . . . . . . . . . . 254
3.8.3 Modelos de retas paralelas . . . . . . . . . . . . . . . . 256
3.9 Sobredispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 259
3.9.1 Caso I . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
3.9.2 Caso II . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
3.9.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 262
3.9.4 Teste de ausência de sobredispersão . . . . . . . . . . . 265
3.9.5 Modelo beta-binomial . . . . . . . . . . . . . . . . . . 266
3.9.6 Quase-verossimilhança . . . . . . . . . . . . . . . . . . 266
3.9.7 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 268
3.10 Modelo logı́stico condicional . . . . . . . . . . . . . . . . . . . 272
3.10.1 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 274
3.10.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 276
3.10.3 Emparelhamento 1:M . . . . . . . . . . . . . . . . . . . 278
3.11 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

4 Modelos para Dados de Contagem 296


4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
4.2 Métodos clássicos: uma única tabela 2 × 2 . . . . . . . . . . . 297
4.2.1 Modelo probabilı́stico não condicional . . . . . . . . . . 298
4.2.2 Modelo probabilı́stico condicional . . . . . . . . . . . . 299
4.2.3 Estratificação: k tabelas 2 × 2 . . . . . . . . . . . . . . 304
4.3 Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 310
4.3.1 Propriedades da Poisson . . . . . . . . . . . . . . . . . 310
4.3.2 Modelos log-lineares: k tabelas 2 × 2 . . . . . . . . . . 311
4.3.3 Modelos gerais de Poisson . . . . . . . . . . . . . . . . 316

ix
4.3.4 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 318
4.3.5 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 318
4.3.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . 320
4.4 Modelos com resposta binomial negativa . . . . . . . . . . . . 324
4.4.1 Distribuição binomial negativa . . . . . . . . . . . . . . 324
4.4.2 Modelos de regressão com resposta binomial negativa . 326
4.4.3 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 330
4.4.4 Técnicas de diagnóstico . . . . . . . . . . . . . . . . . . 331
4.4.5 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 332
4.4.6 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 333
4.4.7 Sobredispersão e quase-verossimilhança . . . . . . . . . 341
4.5 Relação entre a multinomial e a Poisson . . . . . . . . . . . . 346
4.5.1 Modelos log-lineares hierárquicos . . . . . . . . . . . . 349
4.5.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 351
4.6 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 356
4.6.1 Modelos ajustados em zero . . . . . . . . . . . . . . . . 356
4.6.2 Modelos de regressão ajustados em zero . . . . . . . . 358
4.6.3 Modelos inflacionados de zeros . . . . . . . . . . . . . . 359
4.6.4 Modelos de regressão inflacionados de zeros . . . . . . 361
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361

5 Modelos de Quase-Verossimilhança 372


5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
5.2 Respostas independentes . . . . . . . . . . . . . . . . . . . . . 376
5.2.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 377
5.2.2 Estimador de momentos . . . . . . . . . . . . . . . . . 377
5.2.3 Função quase-desvio . . . . . . . . . . . . . . . . . . . 378
5.2.4 Teste de hipóteses . . . . . . . . . . . . . . . . . . . . . 379
5.2.5 Resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . 380

x
5.2.6 Influência . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.2.7 Seleção de Modelos . . . . . . . . . . . . . . . . . . . . 381
5.2.8 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 381
5.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 391
5.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 394
5.4.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 397
5.4.2 Estruturas de correlação . . . . . . . . . . . . . . . . . 398
5.4.3 Métodos de diagnóstico . . . . . . . . . . . . . . . . . . 399
5.4.4 Seleção de modelos . . . . . . . . . . . . . . . . . . . . 400
5.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
5.5.1 Ataques epilépticos . . . . . . . . . . . . . . . . . . . . 401
5.5.2 Condição Respiratória . . . . . . . . . . . . . . . . . . 408
5.5.3 Placas dentárias . . . . . . . . . . . . . . . . . . . . . . 412
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

Apêndice A 428

Apêndice B 438

Bibliografia 449

xi
Capı́tulo 1

Modelos Lineares
Generalizados

1.1 Introdução
Durante muitos anos os modelos normais lineares foram utilizados na ten-
tativa de descrever a maioria dos fenômenos aleatórios. Mesmo quando o
fenômeno sob estudo não apresentava uma resposta para a qual fosse razoável
a suposição de normalidade, algum tipo de transformação era sugerida a fim
de alcançar a normalidade procurada. Provavelmente a transformação mais
conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
y λ −1

se λ 6= 0
z= λ
logy se λ = 0,
sendo λ uma constante desconhecida. O objetivo da transformação de Box
e Cox, quando aplicada a um conjunto de valores observados, é produzir
aproximadamente a normalidade, a constância de variância e também a li-
nearidade E(Z) = η, em que η = β1 x1 + β2 x2 + · · · + βp xp . No entanto, isso
raramente ocorre para um único valor de λ (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na década de 70, alguns

1
modelos que exigiam a utilização de processos iterativos para a estimação
dos parâmetros começaram a ser mais aplicados, como por exemplo o mo-
delo normal não linear. Todavia, a proposta mais interessante e pode-se
dizer inovadora no assunto foi apresentada por Nelder e Wedderburn (1972),
que propuseram os modelos lineares generalizados (MLGs). A ideia básica
consiste em abrir o leque de opções para a distribuição da variável resposta,
permitindo que a mesma pertença á famı́lia exponencial linear de distri-
buições, bem como dar maior flexibilidade para a relação funcional entre a
média da variável resposta e o preditor linear η. Assim, por exemplo, para

dados de contagem, em vez de aplicar a transformação y no sentido de
buscar a normalidade dos dados e constância de variância, pode-se supor que
a distribuição de Y é Poisson e que a relação funcional entre a média de Y
e o preditor linear é dada por log(µ) = η. Essa relação funcional é conveni-
ente, uma vez que garante para quaisquer valores dos parâmetros do preditor
linear um valor positivo para µ. Similarmente, para proporções, pode-se pen-
sar na distribuição binomial para a resposta e numa relação funcional do tipo
log{µ/(1 − µ)}, em que 0 < µ < 1 denota a proporção esperada de sucessos.
Nelder e Wedderburn propuseram também um processo iterativo para a
estimação dos parâmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliação da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resı́duos e medidas de diagnóstico. Inúmeros
trabalhos relacionados com modelos lineares generalizados foram publica-
dos desde 1972 bem como a implementação dos MLGs em alguns softwa-
res. Neste texto as saı́das e gráficas foram desenvolvidos no software R
(http://CRAN.R-project.org).
Os modelos de quase-verossimilhança, que estendem a ideia dos MLGs
para situações mais gerais incluindo dados correlacionados, foram propos-

2
tos por Wedderburn (1974). Os modelos de dispersão (Jørgensen, 1983)
ampliam o leque de opções para a distribuição da variável resposta. Li-
ang e Zeger (1986) estendem os modelos de quase-verossimilhança propondo
as equações de estimação generalizadas (EEGs) que permitem o estudo de
variáveis aleatórias correlacionadas não gaussianas. Os modelos não linea-
res de famı́lia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem
preditor não linear nos parâmetros. Tem-se ainda os modelos aditivos gene-
ralizados (Hastie e Tibshirani, 1990; Green e Silverman, 1994; Wood, 2017)
que supõem preditor linear formado também por funções aditivas e parciais
aditivas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993
e McCulloch e Searle, 2001) que admitem a inclusão de efeitos aleatórios
gaussianos no preditor linear. Mais recentemente, Lee e Nelder (1996, 2001)
estenderam o trabalho de Breslow e Clayton propondo modelos lineares ge-
neralizados hierárquicos em que o preditor linear pode ser formado por efei-
tos fixos e efeitos aleatórios não gaussianos. Muitos desses resultados são
discutidos no livro de Lee et al. (2006). Extensões de MLGs para séries
temporais, análise de dados de sobrevivência, modelos de espaço de estado e
outros modelos multivariados são descritas, por exemplo, em Fahrmeir e Tutz
(2001). Os modelos aditivos generalizados de localização, escala e forma pro-
postos por Rigby e Stasinopoulos (2005) contemplam as diversas extensões
dos MLGs. Referências de texto no assunto são os livros de McCullagh e
Nelder (1989) e Cordeiro (1986).
Neste capı́tulo os modelos lineares generalizados são introduzidos junta-
mente com vários resultados relacionados com estimação, teste de hipóteses,
métodos de diagnóstico e seleção de modelos. Algumas aplicações são apre-
sentadas no final do capı́tulo, como também vários exercı́cios teóricos e
práticos.

3
1.2 Definição
Sejam Y1 , . . . , Yn variáveis aleatórias independentes, cada uma com função
densidade de probabilidade ou função de probabilidade na forma dada abaixo

f (yi ; θi , φ) = exp[φ{yi θi − b(θi )} + c(yi , φ)], (1.1)

denominada famı́lia exponencial linear. Pode-se mostrar sob condições usuais


de regularidade que
 
∂logf (Yi ; θi , φ)
E = 0 e
∂θi
 2  " 2 #
∂ logf (Yi ; θi , φ) ∂logf (Yi ; θi , φ)
E = −E ,
∂θi2 ∂θi

em que E(Yi ) = µi = b0 (θi ) e Var(Yi ) = φ−1 V (µi ), sendo Vi = V (µi ) =


dµi /dθi é denominada função de variância e φ−1 > 0 (φ > 0) é o parâmetro
de dispersão (precisão), i = 1, . . . , n. A função de variância desempenha um
papel importante na famı́lia exponencial, uma vez que a mesma caracteriza
a distribuição. Isto é, dada a função de variância, tem-se uma classe de dis-
tribuições correspondentes, e vice-versa. Para ilustrar, a função de variância
definida por V (µ) = µ(1 − µ), 0 < µ < 1, caracteriza a classe de distribuições
binomiais com probabilidades de sucesso µ e 1 − µ. Uma propriedade inte-
ressante envolvendo a distribuição de Y e a função de variância é a seguinte:
p
φ(Y − µ) →d N(0, V (µ)), quando φ → ∞.

Ou seja, para φ grande Y segue distribuição aproximadamente normal de


média µ e variância φ−1 V (µ). Esse tipo de abordagem assintótica, diferente
da usual em que n é grande, foi introduzida por Jørgensen (1987).
Os modelos lineares generalizados são definidos por (1.1) e pela parte
sistemática
g(µi ) = ηi , (1.2)

4
em que ηi = x> >
i β é o preditor linear, β = (β1 , . . . , βp ) , p < n, é um vetor

de parâmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )> repre-


senta os valores de variáveis explicativas e g(·) é uma função monótona e
diferenciável, denominada função de ligação. Apresenta-se a seguir as distri-
buições mais conhecidas pertencentes à famı́lia exponencial linear.

1.2.1 Casos particulares


Normal
Seja Y uma variável aleatória com distribuição normal de média µ e variância
σ 2 , Y ∼ N(µ, σ 2 ). A função densidade de probabilidade de Y é expressa na
forma
µ2 y2
   
1 1 2 1 1 2
√ exp − 2 (y − µ) = exp (µy − ) − {log(2πσ ) + 2 ,
σ 2π 2σ σ2 2 2 σ

em que −∞ < µ, y < ∞ e σ 2 > 0. Logo, para θ = µ, b(θ) = θ2 /2, φ = σ −2


1 φy 2
e c(y; φ) = 2
log(φ/2π) − 2
obtém-se (1.1). Verifica-se facilmente que a
função de variância é dada por V (µ) = 1.

Poisson
No caso de Y ∼ P(µ), a função de probabilidade fica dada por

e−µ µy /y! = exp{y log(µ) − µ − log(y!)},

em que µ > 0 e y = 0, 1, . . .. Fazendo log(µ) = θ, b(θ) = eθ , φ = 1 e


c(y; φ) = − log(y!) obtém-se (1.1). Segue portanto que V (µ) = µ.

Binomial
Seja Y ∗ a proporção de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrência µ. Denota-se nY ∗ ∼ B(n, µ). A função de

5
probabilidade de Y ∗ fica então expressa na forma
       
n ny ∗ n−ny ∗ n ∗ µ
µ (1−µ) = exp log + ny log + n log(1 − µ) ,
ny ∗ ny ∗ 1−µ

em que 0 < µ, y ∗ < 1. Obtém-se (1.1) fazendo φ = n, θ = log{µ/(1 − µ)},


b(θ) = log(1 + eθ ) e c(y ∗ ; φ) = log φyφ∗ . A função de variância fica dada por


V (µ) = µ(1 − µ).

Gama
Seja Y uma variável aleatória com distribuição gama de média µ e coeficiente
1
de variação φ− 2 , denota-se Y ∼ G(µ, φ). A função densidade de probabili-
dade de Y é dada por
 φ  
1 φy φy
exp − d(logy) = exp[φ{(−y/µ) − log(µ)} − log(Γ(φ)) +
Γ(φ) µ µ
φlog(φy) − log(y)],
R∞
em que y > 0, φ > 0, µ > 0 e Γ(φ) = 0
tφ−1 e−t dt é a função gama. Logo,
fazendo θ = −1/µ, b(θ) = − log(−θ) e c(y; φ) = (φ − 1) log(y) + φ log(φ) −
log(Γ(φ)) obtém-se (1.1).
Para 0 < φ < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y → ∞. A exponencial é um caso especial quando
φ = 1. Para φ > 1 a função densidade assume zero na origem, tem um
máximo em y = µ − µ/φ e depois decresce para y → ∞. A χ2k é um outro
caso especial quando φ = k/2 e µ = k. A distribuição normal é obtida
fazendo φ → ∞. Isto é, quando φ é grande Y ∼ N(µ, φ−1 V (µ)). Tem-se que
φ = E2 (Y )/Var(Y ) é o inverso do coeficiente de variação de Y ao quadrado,
p
ou seja, φ = 1/(CV(Y ))2 , em que CV(Y ) = Var(Y)/E(Y ). A função de
variância da gama é dada por V (µ) = µ2 .

6
Normal inversa
Seja Y uma variável aleatória com distribuição normal inversa de média µ e
parâmetro de precisão φ, denotada por Y ∼ NI(µ, φ) e cuja função densidade
de probabilidade é dada por
s
φ(y − µ)2
      
φ y 1 1 3 φ
exp − = exp φ − 2 + − log(2πy /φ) + ,
2πy 3 2µ2 y 2µ µ 2 y

em que y > 0, µ > 0. Fazendo θ = − 2µ1 2 , b(θ) = −(−2θ)1/2 e c(y; φ) =


1 φ
2
log{φ/(2πy 3 )}− 2y obtém-se (1.1). A normal inversa se aproxima da normal
quando φ → ∞. Ou seja, para φ grande tem-se que Y ∼ N(µ, φ−1 V (µ)). A
função de variância fica aqui dada por V (µ) = µ3 .
Na Tabela 1.1 é descrito um resumo dessas distribuições.

Tabela 1.1
Principais distribuições pertencentes à famı́lia exponencial linear.
Distribuição b(θ) θ φ V (µ)
2 −2
Normal θ /2 µ σ 1
θ
Poisson e log(µ) 1 µ
Binomial log(1 + eθ ) log{µ/(1 − µ)} n µ(1 − µ)
Gama − log(−θ)
√ −1/µ 1/(CV(Y ))2 µ2
N.Inversa − −2θ −1/2µ2 φ µ3

1.3 Ligações canônicas


Supondo φ conhecido, o logaritmo da função de verossimilhança de um MLG
com respostas independentes pode ser expresso na forma
n
X n
X
L(β) = φ{yi θi − b(θi )} + c(yi , φ).
i=1 i=1

Um caso particular importante ocorre quando o parâmetro canônico (θ) coin-


cide com o preditor linear, isto é, quando θi = ηi = pj=1 xij βj . Nesse caso,
P

7
L(β) fica dado por
n p p n
X X X X
L(β) = φ{yi xij βj − b( xij βj )} + c(yi , φ).
i=1 j=1 j=1 i=1
Pn
Definindo a estatı́stica Sj = φ i=1 Yi xij , L(β) fica então reexpresso na forma
p n p n
X X X X
L(β) = sj βj − φ b( xij βj ) + c(yi , φ).
j=1 i=1 j=1 i=1

Logo, pelo teorema da fatorização a estatı́stica S = (S1 , . . . , Sp )> é suficiente


minimal para o vetor β = (β1 , . . . , βp )> . As ligações que correspondem a tais
estatı́sticas são chamadas de ligações canônicas e desempenham um papel
importante na teoria dos MLGs. As ligações canônicas mais comuns são
dadas abaixo.

Distribuição Normal Binomial


n o Poisson Gama N. Inversa
µ
Ligação µ=η log 1−µ =η log(µ) = η µ−1 = η µ−2 = η
Uma das vantagens de usar ligações canônicas é que as mesmas garantem
a concavidade de L(β) e consequentemente muitos resultados assintóticos
são obtidos mais facilmente. Por exemplo, a concavidade de L(β) garante
a unicidade da estimativa de máxima verossimilhança de β, quando essa
existe. Para ligações não canônicas Wedderburn (1976) discute condições
para a existência da concavidade de L(β).

1.3.1 Outras ligações


Ligação probito
Seja µ a proporção de sucessos de uma distribuição binomial. A ligação
probito é definida por
Φ−1 (µ) = η,

8
em que Φ(·) é a função de distribuição acumulada da normal padrão.

Ligação complemento log-log


A distribuição do valor extremo (logaritmo da exponencial) tem função den-
sidade de probabilidade dada por

f (y) = exp{y − exp(y)},

em que −∞ < y < ∞. Logo, a função de distribuição acumulada fica dada


por

F (y) = 1 − exp{−exp(y)}.
1.0

Logistica
V.Extremo
0.8
0.6
F(y)

0.4
0.2
0.0

-3 -2 -1 0 1 2 3

Figura 1.1: Função de distribuição acumulada das curvas logı́stica e do valor


extremo.

9
O modelo binomial com ligação complemento log-log é definido tal que

µ = 1 − exp{−exp(η)},

ou, equivalentemente,
log{−log(1 − µ)} = η.

A ligação logito é definida de forma similar. A função densidade de pro-


babilidade da distribuição logı́stica é dada por
exp(y)
f (y) = ,
{1 + exp(y)}2
em que −∞ < y < ∞. Daı́ segue que a função de distribuição acumulada
fica expressa na forma
ey
F (y) = .
(1 + ey )
O modelo logı́stico binomial é obtido substituindo F (y) por µ e y por η na
expressão acima. Como no caso binomial o parâmetro de interesse sempre é
uma probabilidade, fica muito razoável que funções de distribuições acumu-
ladas sejam utilizadas para gerarem novas ligações e consequentemente novos
modelos. Na Figura 1.1 tem-se a F (y) da distribuição logı́stica e da distri-
buição do valor extremo para valores de y variando no intervalo [−3 , 3]. Note
que a curva logı́stica é simétrica em torno de F (y) = 1/2, enquanto que a
curva do valor extremo apresenta comportamentos distintos para F (y) ≤ 1/2
e F (y) > 1/2.

Ligação de Box-Cox
Uma classe importante de ligações, pelo menos para observações positivas, é
a classe de ligações de Box-Cox definida por

η = (µλ − 1)/λ,

10
30
λ = 0.3
25
λ = 0.5
λ = 0.8
20
15
µ
10
5
0

−2 0 2 4 6
η

Figura 1.2: Ligação de Box-Cox para alguns valores de λ.

para λ 6= 0 e η = log(µ) para λ → 0. A ideia agora é aplicar a transformação


de Box-Cox, definida na Seção 1.1, na média da variável resposta ao invés de
transfor a própria variável resposta. Tem-se na Figura 1.2 o comportamento
de µ para alguns valores de λ e para η variando no intervalo [0 , 10].

Ligação de Aranda-Ordaz
Uma outra transformação importante foi proposta por Aranda-Ordaz (1981)
para dados binários. A transformação é dada por
(1 − µ)−α − 1
 
η = log ,
α
em que 0 < µ < 1 e α é uma constante desconhecida. Quando α = 1 tem-se a
ligação logito η = log{µ/(1−µ)}. Quando α → 0 tem-se {(1−µ)−α −1}/α →

11
1.0
α = 0.5
α=1
0.8

α=2
0.6
µ
0.4
0.2

−2 −1 0 1 2 3
η

Figura 1.3: Ligação de Aranda-Ordaz para alguns valores de α.

log(1−µ)−1 de modo que η = log{−log(1−µ)} e obtém-se portanto a ligação


complemento log-log. Na Figura 1.3 tem-se o comportamento de µ para
alguns valores de α. Em muitas situações práticas o interesse pode ser testar
se o modelo logı́stico é apropriado, H0 : α = 1, contra a necessidade de uma
transformação na ligação, H1 : α 6= 1.
Os MLGs são ajustados no aplicativo R através do comando glm. Para
ilustrar uma aplicação, supor que o interesse é ajustar um modelo de Poisson
com ligação canônica e que a variável resposta é denotada por resp com
variáveis explicativas cov1 e cov2. Pode-se mandar os resultados do ajuste
para um arquivo (objeto no R), por exemplo com nome fit.poisson, através
do comando
fit.poisson = glm( resp ∼ cov1 + cov2, family=poisson).
Com o comando
summary(fit.poisson)

12
tem-se um resumo dos resultados do ajuste.

1.4 Função desvio


Sem perda de generalidade, supor que o logaritmo da função de verossimi-
lhança seja agora definido por
n
X
L(µ; y) = L(µi ; yi ),
i=1

em que µi = g −1 (ηi ) e ηi = x>


i β. Para o modelo saturado (p = n) a função

L(µ; y) é estimada por


n
X
L(y; y) = L(yi ; yi ).
i=1

Ou seja, a estimativa de máxima verossimilhança de µi fica nesse caso dada


por µ̃i = yi . Quando p < n, denota-se a estimativa de L(µ; y) por L(µ̂; y).
Aqui, a estimativa de máxima verossimilhança de µi será dada por µ̂i =
g −1 (η̂i ), em que η̂i = x>
i β̂.

A qualidade do ajuste de um MLG é avaliada através da função desvio

D∗ (y; µ̂) = φD(y; µ̂) = 2{L(y; y) − L(µ̂; y)},

que é uma distância entre o logaritmo da função de verossimilhança do


modelo saturado (com n parâmetros) e do modelo sob investigação (com
p parâmetros) avaliado na estimativa de máxima verossimilhança β̂. Um
valor pequeno para a função desvio indica que, para um número menor de
parâmetros, tem-se um ajuste tão bom quanto o ajuste com o modelo sa-
turado. Denotando por θ̂i = θi (µ̂i ) e θ̃i = θi (µ̃i ) as estimativas de máxima
verossimilhança de θ para os modelos com p parâmetros (p < n) e saturado

13
(p = n), respectivamente, tem-se que a função D(y; µ̂) (não escalonada por
φ) fica, alternativamente, dada por
n
X
D(y; µ̂) = 2 {yi (θ̃i − θ̂i ) + (b(θ̂i ) − b(θ̃i ))}.
i=1

A seguir a função desvio é derivada para alguns casos particulares. O


desvio no R sai com o nome deviance após o ajuste do modelo e o número
de graus de liberdade correspondente é dado por n − p. É usual denotar
D(y; µ̂) = ni=1 d2 (yi ; µ̂i ), em que d2 (yi ; µ̂i ) será denominado componente do
P

desvio não escalonado.

Normal
Aqui θi = µi , logo θ̃i = yi e θ̂i = µ̂i . O desvio fica portanto dado por
n
X n
X
D(y; µ̂) = 2 {yi (yi − µ̂i ) + µ̂2i /2 − yi2 /2} = (yi − µ̂i )2 ,
i=1 i=1

que coincide com a soma de quadrados de resı́duos.

Poisson
Neste caso tem-se θi = log(µi ), o que implica em θ̃i = log(yi ) para yi > 0 e
θ̂i = log(µ̂i ). Assim,
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1

Se yi = 0 o i-ésimo termo de D(y; µ̂) vale 2µ̂i . Resumindo, tem-se o seguinte


resultado para o modelo de Poisson:

2 2{yi log(yi /µ̂i ) − (yi − µ̂i )} se yi > 0;
d (yi ; µ̂i ) =
2µ̂i se yi = 0.

14
Binomial
No caso binomial em que Yi ∼ B(ni , µi ), i = 1, . . . , k, obtém-se θ̃i = log{yi /(ni −
yi )} e θ̂i = log{µ̂i /(1 − µ̂i )} para 0 < yi < ni . Logo, o desvio assume a se-
guinte forma:
k
X
D(y; µ̂) = 2 [yi log(yi /ni µ̂i ) + (ni − yi )log{(1 − yi /ni )/(1 − µ̂i )}].
i=1

Todavia, quando yi = 0 ou yi = ni , o i-ésimo termo de D(y; µ̂) vale −2ni log(1−


µ̂i ) ou −2ni logµ̂i , respectivamente. Portanto, os componentes do desvio no
caso binomial assumem as seguintes formas:

 yi log(yi /ni µ̂i ) + (ni − yi )log{(1 − yi /ni )/(1 − µ̂i )} se 0 < yi < ni ;
d2 (yi ; µ̂i ) = −2ni log(1 − µ̂i ) se yi = 0;
−2ni logµ̂i se yi = ni .

Gama
No caso gama, θ̃i = −1/yi e θ̂i = −1/µ̂i . Assim, segue que o desvio (quando
todos os valores são positivos) pode ser expresso na forma
n
X
D(y; µ̂) = 2 {−log(yi /µ̂i ) + (yi − µ̂i )/µ̂i }.
i=1

Se algum componente de yi é igual a zero o desvio fica indeterminado. Mc-


Cullagh e Nelder (1989) sugerem substituir D(y; µ̂) nesse caso por
n
X n
X
D∗ (y; µ̂) = 2φC(y) + 2φ log(µ̂i ) + 2φ (yi /µ̂i ),
i=1 i=1

em que C(y) é uma função arbitrária, porém limitada. Pode-se, por exemplo,
usar C(y) = ni=1 yi /(1 + yi ).
P

15
Normal inversa
Para este caso θ̃i = −1/2yi2 e θ̂i = −1/2µ̂2i . A função desvio fica então dada
por
n
X
D(y; µ̂) = (yi − µ̂i )2 /(yi µ̂2i ).
i=1

1.4.1 Medida R2
Na regressão normal linear, como é bem conhecido, uma medida de qualidade
do ajuste é dada pelo coeficiente de determinação, definido por
Pn
2 SQRes (yi − ŷi )2
R =1− = 1 − Pi=1
n 2
,
SQT i=1 (yi − ȳ)

em que SQRes e SQT denotam, respectivamente, a soma de quadrados de


resı́duos e a soma de quadrados total, e 0 ≤ R2 ≤ 1. Um refinamento dessa
medida é obtido ajustando-se os graus de liberdade das formas quadráticos,
obtendo-se o coeficiente de determinação ajustado
(n − 1) ni=1 (yi − ŷi )2
P
2 SQRes/(n − p)
R =1− =1− .
(n − p) ni=1 (yi − ȳ)2
P
SQT/(n − 1)
2 2
Mostra-se facilmente que R ≤ R2 e não necessariamente R aumenta com o
aumento do número de variáveis explicativas.
Uma extensão natural para os MLGs é dada por
D(y; µ̂)
R2 = 1 − ,
D(y; ȳ)
em que D(y; ȳ) denota o desvio do modelo apenas com o intercepto. Na
prática o coeficiente de determinação para os MLGs (exceto para o caso
normal) raramente é superior a 0, 40, sendo portanto esse valor utilizado
como referência de excelente ajuste. Contudo, há várias outras propostas de
pseudo R2 em regressão. Por exemplo, a proposta de Cox e Snell em que

16
2
R2 = 1 − {L(ȳ; y)/L(µ̂; y)} n . A ideia aqui é subtrair de 1 a n-ésima raiz
de duas vezes a razão entre o menor valor e o valor ajustado do logaritmo
da função de verossimilhança. Como essa quantidade em geral não alcança
o valor 1, Nagelkerke, Cragg e Uhler propõem uma correção R2 = [1 −
2 2
{L(ȳ; y)/L(µ̂; y)} n ]/[1−L(ȳ; y) n ]. Esss duas quantidades podem ser obtidas
na biblioteca GAMLSS do R (ver, por exemplo, Stasinopoulos et al., 2017)
através dos comandos
require(gamlss)
ajuste = gamlss(resp ∼ cov1 + cov2, family=PO)
Rsq(ajuste, type="both").

1.4.2 Resultados assintóticos


Embora seja usual comparar os valores observados da função desvio com os
quantis da distribuição qui-quadrado com n − p graus de liberdade, em geral
D(y; µ̂) não segue assintoticamente uma χ2n−p . No caso binomial quando
k é fixo e ni → ∞ para cada i, D(y; µ̂) segue sob a hipótese de que o
modelo é verdadeiro uma χ2k−p . Isso não vale quando n → ∞ e ni µi (1 − µi )
permanece limitado. Para o modelo de Poisson, quando µi → ∞ para todo
i, segue que D(y; µ̂) ∼ χ2n−p . No caso normal, como é conhecido para σ 2
fixo, D(y; µ̂) ∼ σ 2 χ2n−p . Lembre que E(χ2r ) = r, assim um valor do desvio
próximo de n−p pode ser uma indicação de que o modelo está bem ajustado.
Em geral, para os casos em que D∗ (y; µ̂) depende do parâmetro de dispersão
φ−1 , o seguinte resultado (Jørgensen, 1987) para a distribuição nula da função
desvio pode ser utilizado:

D∗ (y; µ̂) ∼ χ2n−p , quando φ → ∞.

Isto é, quando a dispersão é pequena, fica razoável comparar os valores ob-
servados de D∗ (y; µ̂) com os quantis da χ2n−p . Em particular, para o caso

17
Pn
normal linear, o resultado acima diz que i=1 (yi − µ̂i )2 /σ 2 ∼ χ2n−p quando
σ 2 → 0. No caso do modelo gama, o desvio estará bem aproximado por uma
qui-quadrado com n − p graus de liberdade à medida que o coeficiente de
variação ficar próximo de zero.

1.4.3 Análise do desvio


Supor para o vetor de parâmetros β a partição β = (β > > >
1 , β 2 ) , em que β 1

é um vetor q-dimensional, enquanto β 2 tem dimensão p − q e φ é conhecido


(ou fixo). Portanto, pode haver interesse em testar as hipóteses H0 : β 1 = 0
contra H1 : β 1 6= 0. As funções desvio correspondentes aos modelos sob H0
e H1 serão denotadas por D(y; µ̂0 ) e D(y; µ̂), respectivamente, em que µ̂0 é
a estimativa de máxima verossimilhança sob H0 . A estatı́stica do teste da
razão de verossimilhanças fica nesse caso dada por

ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)}, (1.3)

isto é, a diferença entre dois desvios. Como é conhecido, sob a hipótese nula,
ξRV ∼ χ2q quando n → ∞. De forma similar, pode-se definir a estatı́stica
{D(y; µ̂0 ) − D(y; µ̂)}/q
F= , (1.4)
D(y; µ̂)/(n − p)
cuja distribuição nula assintótica é uma Fq,(n−p) quando o denominador de
(1.4) é uma estimativa consistente de φ−1 (ver, por exemplo, Jørgensen,
1987). A vantagem em utilizar (1.4) em relação a (1.3) é que a estatı́stica F
não depende do parâmetro de dispersão. O resultado (1.4) também é verifi-
cado quando φ → ∞ e n é arbitrário. Quando φ é desconhecido a estatı́stica
do teste da razão de verossimilhanças assume uma expressão diferente de
(1.3). A estatı́stica F acima fica, no caso normal linear, reduzida à forma
conhecida dada abaixo
Pn Pn
i=1 (yi − µ̂0i )2 − i=1 (yi − µ̂i )2
F= ,
qs2

18
Pn
em que s2 = 2
i=1 (yi − µ̂i ) /(n − p) é o erro quadrático médio do modelo com
p parâmetros. A forma da estatı́stica F dada em (1.4) pode ser obtida, em
particular, quando tem-se uma hipótese de igualdades lineares num modelo
de regressão normal linear. Como ilustração, supor o modelo

y = Xβ + Wγ + ,

em que  ∼ N(0, σ 2 In ), X é uma matriz n × p, In é a matriz identidade


de ordem n, W é aqui uma matriz n × q, ambas de posto completo, β =
(β1 , . . . , βp )> e γ = (γ1 , . . . , γq )> . Considere as hipóteses

H0 : Cθ = 0 contra H1 : Cθ 6= 0,

em que θ = (β > , γ > )> e C é uma matriz k × (p + q) de posto completo. O


acréscimo na soma de quadrados de resı́duos devido às restrições em H0 é
dado por
ASQ(Cθ = 0) = (Cθ̂)> {C(Z> Z)−1 C> }−1 (Cθ̂),

em que θ̂ = (Z> Z)−1 Z> y e Z = (X, W). A estatı́stica F para testar H0 fica
então dada por
ASQ(Cθ = 0)/k
F= ,
D(y; µ̂)/(n − p − q)
em que D(y; µ̂) é o desvio do modelo completo com p + q parâmetros e
ASQ(Cθ = 0) = D(y; µ̂0 ) − D(y; µ̂), com D(y; µ̂0 ) sendo o desvio do modelo
sob H0 . Portanto, F assume a forma
{D(y; µ̂0 ) − D(y; µ̂)}/k
F= ,
D(y; µ̂)/(n − p − q)
e segue, sob H0 , uma distribuição Fk,(n−p−q) . No caso de testar H0 : γ = 0
contra H1 : γ 6= 0, a matriz C tem dimensão q × (p + q) com a i-ésima
linha tendo o valor 1 na posição p + i e zeros nas demais posições. Essa
formulação pode também ser aplicada quando há interesse na inclusão de
novas covariáveis num modelo de regressão normal linear.

19
Tabela 1.2
Análise do desvio (ANODEV) supondo dois fatores na parte sistemática.
Modelo Desvio Diferença G.L. Testando
Constante D0
D0 − DA n(A) − 1 A ignorando B
D0 − DB n(B) − 1 B ignorando A
+A DA
DA − DA+B n(B) − 1 B|A ignorando AB
+B DB
DB − DA+B n(A) − 1 A|B ignorando AB
+A+B DA+B
DA+B − DAB {n(A) − 1}× AB|A + B
{n(B) − 1}
+A+B+AB DAB

Para ilustrar o uso das diferenças de desvios para hipóteses em modelos


encaixados, supor um MLG com dois fatores, A e B. O fator A com n(A)
nı́veis e o fator B com n(B) nı́veis. Na Tabela 1.2 tem-se os possı́veis testes
envolvendo os dois fatores. Em particular, se o interesse é testar a inclusão do
fator B dado que o fator A já está no modelo, deve-se comparar a diferença
φ{D(y; µ̂A )−D(y; µ̂A+B )} com os nı́veis crı́ticos da distribuição qui-quadrado
com {n(B) − 1} graus de liberdade. Alternativamente, pode-se comparar o
valor observado da estatı́stica F correspondente com os nı́veis da distribuição
F com {n(B) − 1} e {n − n(A) − n(B) + 1} graus de liberdade. No caso
normal linear pode ser construı́da a tabela ANOVA utilizando a estatı́stica F
no lugar da diferença entre desvios. A vantagem disso é o fato do parâmetro
de dispersão φ−1 não precisar ser estimado. Através do comando anova() o
R fornece uma tabela ANODEV para os ajustes colocados como objetos. Por
exemplo, supor que os objetos fit1.reg, fit2.reg e fit3.reg correspon-
dam aos ajustes de um MLG com um, dois e três fatores, respectivamente.
Então, o comando

20
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os três fatores.
Como aplicação do ANODEV, considere o exemplo descrito na Seção 1.12.2
em que um modelo logı́stico com resposta Bernoulli é ajustado para explicar a
ocorrência de câncer de pulmão numa amostra de 175 pacientes com processo
infeccioso pulmonar, em que foram observadas as variáveis explicativas SEXO
e IDADE e a intensidade das células HF e FF. A parte sistemática do modelo
é representada abaixo

1 + SEXO + IDADE + HL + FF,

em que 1 denota a presença de intercepto no modelo, SEXO (1:feminino,


0:masculino), IDADE (em anos) e HL e FF são dois fatores com 4 nı́veis
cada um representando a intensidade de dois tipos de célula. A Tabela 1.3
resume alguns resultados.

Tabela 1.3
Análise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo Desvio Diferença G.L. Testando
Constante 236,34 - - -

+ SEXO 235,20 1,14 1 SEXO

+ IDADE 188,22 46,98 1 IDADE | SEXO

+ HL 162,55 25,67 3 HL | SEXO +


IDADE
+ FF 157,40 5,15 3 FF | SEXO +
IDADE + HL

Para calcular os nı́veis descritivos das diferenças apresentadas na Tabela

21
1.3, pode-se aplicar o comando pchisq(dv,q) do R. Por exemplo, para cal-
cular o nı́vel descritivo referente ao efeito do fator SEXO, aplica-se
1 - pchisq(1.14,1)
obtendo-se P = 0, 285. Similarmente, para testar a inclusão de FF dado que
já temos no modelo 1+SEXO+IDADE+HL, aplica-se
1 - pchisq(5.15,3)
e obtém-se P = 0, 1611, indicando que o fator FF é não significativo a 10%.

1.5 Função escore e informação de Fisher


1.5.1 Escore e Fisher para β
Considere a partição θ = (β > , φ)> e denote o logaritmo da função de verossi-
milhança por L(θ). Para obter a função escore para o parâmetro β deriva-se
inicialmente L(θ) com relação a cada coeficiente
n  
X dθi dµi ∂ηi db(θi ) dθi dµi ∂ηi
∂L(θ)/∂βj = φ yi −
i=1
dµi dηi βj dθi dµi dηi ∂βj
n  
X (dµi /dηi ) (dµi /dηi )
= φ yi xij − µi xij
i=1
Vi Vi
n r 
X ωi
= φ (yi − µi )xij ,
i=1
Vi

em que ωi = (dµi /dηi )2 /Vi . Logo, é possı́vel escrever a função escore na


forma matricial
∂L(θ) 1 1
Uβ (θ) = = φX> W 2 V− 2 (y − µ),
∂β
em que X é uma matriz n × p de posto completo cujas linhas serão de-
notadas por x>
i , i = 1, . . . , n, W = diag{ω1 , . . . , ωn } é a matriz de pesos,

V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> .

22
A matriz de informação de Fisher para o parâmetro β é obtida derivando-
se novamente L(θ) com relação aos coeficientes
n 2
d2 θi

2
X dµi
∂ L(θ)/∂βj ∂β` = φ (yi − µi ) 2 xij xi`
i=1
dµi dηi
n
X dθi d2 µi
+φ (yi − µi ) x x
2 ij i`
i=1
dµ i dηi
n  2
X dθi dµi
−φ xij xi` ,
i=1
dµ i dη i

cujos valores esperados ficam dados por


n  2
 2
X dθi dµi
E ∂ L(θ)/∂βj ∂β` = −φ xij xi`
i=1
dµi dηi
n
X (dµi /dηi )2
= −φ xij xi`
i=1
Vi
Xn
= −φ ωi xij xi` .
i=1

Logo, a submatriz de informação de Fisher para β fica expressa na forma


matricial
∂ 2 L(θ)
 
Kββ (θ) = E − >
= φX> WX.
∂β∂β
Em particular, para ligação canônica (θi = ηi ), essas quantidades tomam
formas simplificadas

Uβ = φX> (y − µ) e Kββ = φX> VX,

respectivamente. Particionando o vetor de parâmetros tal que β = (β > > >


1 , β2 ) ,

a função escore e a matriz de informação de Fisher ficam para o parâmetro


1 1
−2
β 1 , respectivamente, dadas por Uβ1 = φX>
1W V
2 (y − µ) e Kβ1 β1 =
φX>
1 WX1 .

23
1.5.2 Escore e Fisher para φ
A função escore para o parâmetro φ fica dada por
∂L(θ)
Uφ (θ) =
∂φ
Xn n
X
= {yi θi − b(θi )} + c0 (yi ; φ),
i=1 i=1

em que c0 (yi ; φ) = dc(yi , φ)/dφ. Para obter a informação de Fisher para φ é


preciso calcular ∂ 2 L(θ)/∂φ2 = ni=1 c00 (yi ; φ), em que c00 (yi ; φ) = d2 c(yi , φ)/dφ2 .
P

Assim, a informação de Fisher para φ fica dada por


n
X
Kφφ (θ) = − E{c00 (Yi ; φ)}.
i=1

1.5.3 Ortogonalidade
Pn p
Tem-se que ∂ 2 L(θ)/∂β∂φ = i=1 ωi Vi−1 (yi − µi )xi . Portanto, verificamos
facilmente que β e φ são ortogonais, isto é, Kβφ (θ) = E[−∂ 2 L(θ)/∂β∂φ] = 0.
Logo, segue que a matriz de informação de Fisher para θ é bloco diagonal
sendo dada por Kθθ = diag{Kββ , Kφφ }. A função escore para θ fica dada
por Uθ = (U> >
β , Uφ ) . A seguir são discutidos alguns casos particulares.

1.5.4 Casos particulares


Normal
A função de variância no caso normal é dada por V (µ) = 1 (dµ/dθ = 1).
Logo, ω = (dθ/dη)2 . Em particular para ligação canônica (θ = η), obtém-se
ω = 1. Assim,

Uβ = σ −2 X> (y − µ) e Kββ = σ −2 X> X,

24
como é conhecido. Segue ainda o resultado
n  n
µ2i
X  X
Uφ = yi µi − + c0 (yi ; φ),
i=1
2 i=1

em que c0 (yi ; φ) = 1/2φ − yi2 /2. Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
Kφφ = − ni=1 E{c00 (Yi ; φ)} = n/2φ2 .
P

Poisson
Aqui a função de variância é dada por V (µ) = µ. Logo, ω = µ(dθ/dη)2 .
Para ligação canônica (log(µ) = η) os pesos são as próprias médias, isto é

ω = µ. Em particular, para ligação raiz quadrada ( µ = η), obtém-se ω = 4.
1
Assim, Uβ = X> V− 2 (y − µ) e Kββ = X> X.

Binomial
No caso binomial, a função de variância é definida por V (µ) = µ(1 − µ), em
que 0 < µ < 1. Portanto, segue que ω = µ(1 − µ)(dθ/dη)2 . Por convenção é
assumido que ω = nµ(1 − µ)(dθ/dη)2 e φ = 1. No caso de ligação canônica
(log{µ/(1 − µ)} = η) os pesos são as variâncias das binomiais, isto é ω =
nµ(1 − µ). As matrizes Uβ e Kββ ficam nesse caso dadas por

Uβ = X> (y − µ) e Kββ = X> VX,

em que X é uma matriz k × p, y = (y1 , . . . , yn )> , µ = (n1 µ1 , . . . , nk µk )> e


V = diag{n1 µ1 (1 − µ1 ), . . . , nk µk (1 − µk )}.

Gama
Para o caso gama V (µ) = µ2 . Logo, ω = µ2 (dθ/dη)2 . Em particular, para
um modelo log-linear (log(µ) = η), obtém-se dµ/dη = µ, o que implica em
ω = 1. Assim, Uβ = φX> V−1/2 (y − µ) e Kββ = φX> X, similarmente ao

25
caso normal. Para ligação canônica, ω = µ2 . A função escore para φ fica
dada por
n   Xn
X yi
Uφ = − + log(µi ) + c0 (yi ; φ),
i=1
µi i=1

em que c (yi ; φ) = log(yi ) + log(φ) + 1 − ψ(φ) e ψ(φ) = Γ0 (φ)/Γ(φ) é a função


0

digama. Daı́ segue que c00 (yi ; φ) = 1/φ − ψ 0 (φ) e portanto


n
X
Kφφ = − E{c00 (Yi ; φ)} = n{φψ 0 (φ) − 1}/φ,
i=1

em que ψ 0 (φ) = dψ(φ)/dφ é a função trigama.

Normal inversa
Neste caso a função de variância é dada por V (µ) = µ3 . Assim, ω =
µ3 (dθ/dη)2 . Pode ser muito razoável aplicar aqui um modelo log-linear, uma
vez que as respostas são sempre positivas. No entanto, diferente dos modelos
log-lineares com resposta de Poisson, os pesos aqui são inversamente pro-
porcionais às médias, isto é ω = µ−1 . Em particular para ligação canônica,
ω = µ3 , e portanto Uβ = φX> (y − µ) e Kββ = φX> VX. Tem-se ainda o
resultado n   n
X 1 yi X
Uφ = − 2 + c0 (yi ; φ),
i=1
µi 2µi i=1

em que c (yi ; φ) = 1/2φ − 1/2yi . Daı́ segue que c00 (yi ; φ) = −1/2φ2 e portanto
0

Kφφ = − ni=1 E{c00 (Yi ; φ)} = n/2φ2 .


P

1.6 Estimação dos parâmetros


1.6.1 Estimação de β
O processo iterativo de Newton-Raphson para a obtenção da estimativa de
máxima verossimilhança de β é definido expandindo a função escore Uβ em

26
torno de um valor inicial β (0) , tal que
0 (0)
Uβ ∼
(0)
= Uβ + Uβ (β − β (0) ),

em que U0β denota a primeira derivada de Uβ com respeito a β > , sendo


(0)
Uβ 0 (0) e Uβ , respectivamente, essas quantidades avaliadas em β (0) . Assim,
repetindo o procedimento acima, chega-se ao processo iterativo
(m)
β (m+1) = β (m) + {(−U0β )−1 }(m) Uβ ,

m = 0, 1, . . .. Como a matriz −U0β pode não ser positiva definida, a aplicação


do método escore de Fisher substituindo a matriz −U0β pelo correspondente
valor esperado Kββ pode ser mais conveniente. Isso resulta no seguinte pro-
cesso iterativo:
(m)
β (m+1) = β (m) + {K−1
ββ }
(m)
Uβ ,

m = 0, . . .. Trabalhando um pouco o lado direito da expressão acima, chega-


se a um processo iterativo de mı́nimos quadrados reponderados

β (m+1) = (X> W(m) X)−1 X> W(m) z(m) , (1.5)


1 1
m = 0, 1, . . ., em que z = η + W− 2 V− 2 (y − µ). A quantidade z desempenha
o papel de uma variável dependente modificada, enquanto W é uma matriz
de pesos que muda a cada passo do processo iterativo. A convergência de
(1.5) ocorre em geral num número finito de passos, independente dos valores
iniciais utilizados. É usual iniciar (1.5) com η (0) = (g(y1 ), . . . , g(yn ))> .
Apenas como ilustração, para o caso logı́stico binomial, tem-se que ω =
nµ(1−µ) e variável dependente modificada dada por z = η+(y−nµ)/nµ(1 − µ).
Lembrando, para o modelo normal linear não é preciso recorrer ao processo
iterativo (1.5) para a obtenção da estimativa de máxima verossimilhança.
Nesse caso, β̂ assume a forma fechada

β̂ = (X> X)−1 X> y.

27
Observa-se que o lado direito de (1.5) não depende de φ. Portanto, para
obter β̂ não é preciso conhecer φ.

1.6.2 Estimação de φ
Igualando a função escore Uφ a zero chega-se à seguinte solução:
n n
X
0 1 X
c (yi ; φ̂) = D(y; µ̂) − {yi θ̃i − b(θ̃i )},
i=1
2 i=1

em que D(y; µ̂) denota o desvio do modelo sob investigação. Verifica-se que
a estimativa de máxima verossimilhança para φ nos casos normal e normal
inversa, igualando Uφ a zero, é dada por
n
φ̂ = .
D(y; µ̂)
Para o caso gama, a estimativa de máxima verossimilhança de φ sai da
equação
2n{logφ̂ − ψ(φ̂)} = D(y; µ̂).
A equação acima pode ser resolvida diretamente pelo R através da biblioteca
MASS (Venables e Ripley, 1999). Como ilustração, supor que os resultados do
ajuste sejam guardados em fit.model. Então, para encontrar a estimativa
de máxima verossimilhança de φ com o respectivo erro padrão aproximado
deve-se aplicar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para φ (de momentos) que não envolve
processo iterativo é baseado na estatı́stica de Pearson, sendo dado por
(n − p)
φ̂ = Pn (y −µ̂ )2 .
i=1 { V (µ̂i ) }
i i

A suposição aqui é que β̂ tem sido consistentemente estimado. O R solta a


estimativa φ̂ = (n − p)/D(y; µ̂) que não é consistente para φ.

28
1.6.3 Distribuição assintótica
Para mostrar que β̂ e φ̂ são assintoticamente normais e independentes, con-
sidere os resultados abaixo

E(Uθ ) = 0 e Var(Uθ ) = Kθθ ,

com as funções escore de β e φ sendo, respectivamente, expressas nas formas


Uβ = ni=1 Uiβ , em que
P

q n
X
−1
Uiβ = φ ωi Vi (yi − µi )xi e Uφ = Uiφ ,
i=1

com Uiφ = {yi θi − b(θi )} + c0 (yi ; φ). Portanto, para n grande, segue pelo
Teorema Central do Limite que Uθ ∼ Np+1 (0, Kθθ ). Em particular, assinto-
ticamente Uβ ∼ Np (0, Kββ ) e Uφ ∼ N(0, Kφφ ) e Uβ e Uφ são independentes.
Expandindo Uθ̂ em série de Taylor em torno de θ obtém-se

Uθ̂ ∼
= Uθ + U0θ (θ̂ − θ),

em que U0θ = ∂Uθ /∂θ > . Assim, como θ̂ é o estimador de máxima verossimi-
lhança de θ tem-se que Uθ̂ = 0 e daı́ segue a relação

θ̂ ∼
= θ + (−U0θ )−1 Uθ .

Supondo que para n grande −U0θ ∼


= Kθθ (para ligação canônica Kββ = −U0β ),
então obtém-se
θ̂ ∼
= θ + K−1
θθ Uθ ,

ou seja, para n grande θ̂ ∼ Np+1 (θ, K−1


θθ ). Como Kθθ = diag{Kββ , Kφφ }

então assintoticamente segue que β̂ ∼ Np (β, K−1 −1


ββ ) e φ̂ ∼ N(0, Kφφ ) e β̂ e φ̂

são independentes. Demonstrações mais rigorosas desses resultados podem


ser encontradas, por exemplo, em Fahrmeir e Kaufmann (1985) e Sen e Singer
(1993, Cap. 7).

29
1.7 Teste de hipóteses
1.7.1 Hipóteses simples
Buse (1982) apresenta de uma forma bastante didática a interpretação geométrica
dos testes da razão de verossimilhanças, escore e Wald para o caso de hipóteses
simples. A seguir são apresentadas as generalizações para os MLGs. Supor,
inicialmente, a seguinte situação de hipóteses simples:

H0 : β = β 0 contra H1 : β 6= β 0 ,

em que β 0 é um vetor p-dimensional conhecido e φ é também assumido


conhecido.

Teste da razão de verossimilhanças


O teste da razão de verossimilhanças, no caso de hipóteses simples, é usual-
mente definido por
ξRV = 2{L(β̂) − L(β 0 )}.

Essa estatı́stica pode também ser expressa, para os MLGs, como a diferença
entre duas funções desvio

ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 = g−1 (η̂ 0 ), η̂ 0 = Xβ 0 . Em particular, para o caso normal linear,


tem-se que ξRV = { ni=1 (yi − µ̂0i )2 − ni=1 (yi − µ̂i )2 }/σ 2 .
P P

Teste de Wald
O teste de Wald é definido, nesse caso, por

ξW = [β̂ − β 0 ]> V̂ar−1 (β̂)[β̂ − β 0 ],

30
em que V̂ar(β̂) denota a matriz de variância-covariância assintótica de β̂
estimada em β̂. Para os MLGs, V̂ar(β̂) = K−1 (β̂). Assim, a estatı́stica de
Wald fica reexpressa na forma

ξW = φ[β̂ − β 0 ]> (X> ŴX)[β̂ − β 0 ].

Em particular, para o caso de p = 1, o teste de Wald é equivalente ao teste


t2 usual
(β̂ − β 0 )2
ξW = .
V̂ar(β̂)
Um problema com a estatı́stica de Wald, especialmente quando η(β) é não
linear em β, é a dependência de ξW com a parametrização utilizada. Isto
é, duas formas diferentes e equivalentes para η(β), podem levar a diferentes
valores de ξW .

Teste de escore
O teste de escore, também conhecido como teste de Rao, é definido quando
Uβ (β̂) = 0 por
ξSR = Uβ (β 0 )> V̂ar0 (β̂)Uβ (β 0 ),

em que V̂ar0 (β̂) denota que a variância assintótica de β̂ está sendo estimada
sob H0 . Para os MLGs tem-se que

ξSR = φ−1 Uβ (β 0 )> (X> Ŵ0 X)−1 Uβ (β 0 ),

em que Ŵ0 é estimado sob H0 , embora tenha a forma do modelo em H1 .


A estatı́stica de escore pode ser muito conveniente em situações em que a
hipótese alternativa é bem mais complexa do que a hipótese nula. Nesses ca-
sos, somente seria necessário estimar os parâmetros sob H1 quando o modelo
em H0 fosse rejeitado. Novamente, ilustrando o caso normal linear, tem-se

31
que a estatı́stica de escore fica expressa na forma

ξSR = (y − Xβ 0 )> X(X> X)−1 X> (y − Xβ 0 )/σ 2 .

Observe que, nesse caso, as estatı́sticas ξRV e ξW coincidem com ξSR .

Teste F
A estatı́stica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipóteses simples:

{D(y; µ̂0 ) − D(y; µ̂)}/p


F= ,
D(y; µ̂)/(n − p)
que para φ → ∞ e sob H0 segue uma Fp,(n−p) . Esse resultado vale também
para n → ∞ quando coloca-se no denominador da estatı́stica F uma esti-
mativa consistente para φ−1 . Uma propriedade interessante das estatı́sticas
ξRV , ξSR e F é o fato de serem invariantes com reparametrizações. Isso pode
ser muito útil na construção de regiões de confiança para os parâmetros. A
estatı́stica F tem a vantagem adicional de não depender do parâmetro de
dispersão φ−1 . Como essa estatı́stica pode ser obtida diretamente de funções
desvio, talvez seja a mais conveniente para uso prático. Assintoticamente e
sob a hipótese nula, segue que ξRV , ξW e ξSR ∼ χ2p .
Uma região assintótica de confiança para β baseada no teste de Wald e
com coeficiente de confiança (1 − α), é dada por

[β; (β̂ − β)> (X> ŴX)(β̂ − β) ≤ φ−1 χ2p (1 − α)],

em que χ2p (1 − α) denota o quantil (1 − α) de uma distribuição qui-quadrado


com p graus de liberdade. Como essa região pode depender da parame-
trização utilizada quando η é não linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construir a região utilizando uma

32
das estatı́sticas invariantes. Em particular, se a estatı́stica da razão de ve-
rossimilhanças for escolhida, a região assintótica fica dada por

[β; 2{L(β̂) − L(β)} ≤ χ2p (1 − α)].

Se há interesse num subconjunto β 1 q-dimensional, a região assintótica de


confiança utilizando as estatı́sticas de Wald e da razão de verossimilhanças
ficam, respectivamente, dadas por
−1
[β; (β̂ 1 − β)> V̂ar (β̂ 1 )(β̂ 1 − β) ≤ φ−1 χ2q (1 − α)]

e
[β; 2{L(β̂) − L(β, β̂ 2 (β))} ≤ χ2q (1 − α)],

em que β é aqui q-dimensional e β̂ 2 (β) é a estimativa de máxima verossimi-


lhança de β 2 dado β (ver, por exemplo, Seber e Wild, 1989).

1.7.2 Modelos encaixados


φ conhecido
Supor novamente a partição β = (β > > >
1 , β2 ) definida na Seção 1.4.2 e as
seguintes hipóteses: H0 : β 1 = β 01 contra H1 : β 1 6= β 01 . Para esse caso
tem-se que
ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 é a estimativa de máxima verossimilhança do MLG com parte


sistemática η = η̂10 + η2 , em que η̂10 = qj=1 xj βj0 e η2 = pj=q+1 xj βj . A
P P

quantidade η̂10 desempenha o papel de um offset (parte conhecida no preditor


linear), conforme a nomenclatura de modelos lineares generalizados. Para
ilustrar a utilização do offset, supor um modelo de Poisson com ligação log-
linear, resposta resp, covariáveis cov1 e cov2 e offset dado por logt0. Para

33
ajustar o modelo e armazenar os resultados em fit1.poisson deve-se aplicar
o comando
fit1.poisson = glm(resp ∼ cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso é muito utilizado em estudos de seguimento em que cada
indivı́duo é observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustração, supor um MLG com distribuição normal inversa, ligação
canônica e preditor linear dado por η = β1 + β2 cov2 + β3 cov3 e que o interesse
é testar H0 : β2 = b, em que b é uma constante diferente de zero, contra
H1 : β2 6= b. Os ajustes correspondentes a H0 e H1 são, respectivamente,
dados por
fit1.ni = glm(resp ∼ cov3 + offset(b*cov2),
family=inverse.gaussian)
fit2.ni = glm(resp ∼ cov2+cov3, family=inverse.gaussian).
Logo, de (1.4), a estatı́stica F para testar H0 : β2 = b contra H1 : β2 6= b fica
dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm(resp ∼ cov3, family=inverse.gaussian).

Teste de Wald
Para testar H0 , a estatı́stica de Wald fica expressa na forma

ξW = [β̂ 1 − β 01 ]> V̂ar−1 (β̂ 1 )[β̂ 1 − β 01 ],

34
> >
em que β̂ 1 sai do vetor β̂ = (β̂ 1 , β̂ 2 )> . Usando resultados conhecidos de
álgebra linear, mostra-se que a variância assintótica de β̂ 1 é dada por
1 1
Var(β̂ 1 ) = φ−1 [X> −1
1 W M 2 W X1 ] ,
2 2

em que X1 sai da partição X = (X1 , X2 ), sendo portanto n×q, X2 é n×(p−q),


1 1
M2 = In − H2 e H2 = W 2 X2 (X> −1 >
2 WX2 ) X2 W é a matriz de projeção
2

ortogonal de vetores do Rn no subespaço gerado pelas colunas da matriz


1
W 2 X2 . Em particular, no caso normal linear, tem-se as simplificações H2 =
X2 (X> −1 > 2 > −1
2 X2 ) X2 e Var(β̂ 1 ) = σ [X1 (In − H2 )X1 ] .

Teste de escore
1 1
A função escore pode ser expressa na forma Uβ = φ 2 X> W 2 rP , em que
1 1
rP = φ 2 V− 2 (y − µ) é conhecido como resı́duo de Pearson. Observe que rP
tem a mesma distribuição de Y, no entanto, E(rP ) = 0 e Var(rP ) = In . O
teste de escore é definido por
0 0
ξSR = Uβ1 (β̂ )> V̂ar0 (β̂ 1 )Uβ1 (β̂ ),
1 1 0 0>
em que Uβ1 (β) = ∂L(β)/∂β 1 = φX>
1W V
2
−2
(y − µ), β̂ = (β 0> >
1 , β̂ 2 ) e
0
β̂ 2 é a estimativa de máxima verossimilhança de β 2 sob o modelo com parte
sistemática η = η̂ 01 + η 2 , isto é, sob H0 , em que η̂ 01 = X1 β 01 e η 2 = X2 β 2 .
Trabalhando um pouco mais a expressão para Var(β̂ 1 ), chega-se ao seguinte
resultado:
Var(β̂ 1 ) = φ−1 (R> WR)−1 ,

em que R = X1 − X2 C e C = (X> −1 >


2 WX2 ) X2 WX1 . Aqui C é uma matriz

n × q cuja j-ésima coluna é o vetor de coeficientes da regressão linear (com


pesos W) da j-ésima coluna de X1 sobre X2 . Assim, R pode ser interpretado
como sendo uma matriz n×q de resı́duos. A j-ésima coluna de R corresponde

35
aos resı́duos ordinários da regressão linear (com pesos W) da j-ésima coluna
de X1 sobre X2 . Assim, o teste de escore fica reexpresso na forma (vide
Cordeiro, et al., 1993)
1 1
ξSR = r̂> > −1 >
P0 Ŵ0 X1 (R̂0 Ŵ0 R̂0 ) X1 Ŵ0 r̂P0 ,
2 2

0
com as quantidades r̂P0 , Ŵ0 e R̂0 sendo avaliadas em β̂ .
Para ilustrar o cálculo da estatı́stica de escore, supor um MLG com pre-
ditor linear dado por η = β1 + β2 cov2 + β3 cov3 + β4 cov4 e que o interesse
é testar H0 : β3 = β4 = 0. As matrizes X1 e X2 serão então dadas por
X1 = [cov3 , cov4 ] e X2 = [1 , cov2 ]. Para um modelo de Poisson, por exem-
plo com ligação canônica, tem-se que ω = µ. Logo, Ŵ0 = diag{µ̂01 , . . . , µ̂0n },
em que µ̂01 , . . . , µ̂0n são os pesos sob H0 , ou seja, os pesos do modelo ajustado
de Poisson com preditor linear η = β1 + β2 cov2 . Portanto, é preciso apenas
fazer esse ajuste e computar Ŵ0 , R̂0 , r̂P0 e finalmente ξSR . Chamando no R
os pesos por w, Ŵ0 por W, r̂P0 por rp e R̂0 por R, os passos para o cálculo de
ξSR são dados abaixo

X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm(resp ∼ cov2, family=poisson)
rp = resid(fit.poisson, type=‘‘pearson’’)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C

36
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.

Em particular, para o caso normal linear, C = (X> −1 >


2 X2 ) X2 X1 e rP =

(y − µ)/σ. Logo, ξSR = σ −2 (y − µ̂0 )> X1 (R> R)−1 X1 >(y − µ̂0 ), em que
R = X1 − X2 (X> −1 >
2 X2 ) X2 X1 = (In − H2 )X1 . Aqui, também as estatı́sticas

da razão de verossimilhanças e de Wald coincidem com a estatı́stica de escore.


Isso em geral vale para o modelo normal linear.
A estatı́stica de Wald fica, analogamente ao caso anterior, dada por

ξW = φ[β̂ 1 − β 01 ]> [R̂> ŴR̂][β̂ 1 − β 01 ].

O cálculo de R̂ segue os mesmos passos descritos para o cálculo do teste de


escore, com a única diferença de que os pesos sairão do ajuste do modelo com
todos os parâmetros. As mudanças nos comandos são as seguintes:
fit1.poissom = glm( resp ∼ cov2 + cov3 + cov4,
family=poisson)
w = fit1.poisson$weights
W = diag(w).
Sob H0 e para grandes amostras, tem-se que ξRV , ξW e ξSR ∼ χ2q .

φ desconhecido
No caso de φ ser desconhecido e o interesse for testar H0 : β 1 = β 01 contra
H1 : β 1 6= β 01 , as estatı́sticas ξRV , ξSR e ξW assumem formas diferentes
daquelas apresentadas para o caso de φ ser conhecido. Em particular, denote
por φ̂0 e φ̂ as estimativas de máxima verossimilhança de φ sob H0 e H1 ,
respectivamente. Para facilitar a notação da estatı́stica ξRV usa-se o resultado
c(y, φ) = d(φ) + φa(y) + u(y) válido para algumas distribuições da famı́lia
exponencial dada em (1.1) (por exemplo normal, gama e normal inversa), em

37
que a(·), d(·) e u(·) são funções diferenciáveis. Assim, a estatı́stica da razão
de verossimilhanças fica expressa na forma

ξRV = 2{φ̂t(µ̂) − φ̂0 t(µ̂0 )} + 2n{d(φ̂) − d(φ̂0 )},


Pn
em que t(µ) = i=1 {yi θi
− b(θi ) + a(yi )} e θi = θ(µi ). Para o modelo
gama, por exemplo, tem-se que t(µ) = ni=1 {log(yi /µi ) − yi /µi } e d(φ) =
P

φ log(φ) − log{Γ(φ)}. A estatı́stica de Wald fica, por sua vez, dada por
−1
ξW = [β̂ 1 − β 01 ]> V̂ar (β̂ 1 )[β̂ 1 − β 01 ]
= φ̂[β̂ 1 − β 01 ]> (R̂> ŴR̂)[β̂ 1 − β 01 ].

Já a estatı́stica de escore assume a forma


0 0
ξSR = Uβ1 (θ̂ )> V̂ar0 (β̂ 1 )Uβ1 (θ̂ )
1 1
= r̂> > −1 >
P0 Ŵ0 X1 (R̂0 Ŵ0 R̂0 ) X1 Ŵ0 r̂P0 ,
2 2

q
0 0>
em que r̂P0 = φ̂0 V̂0−1 (y − µ̂0 ) e θ̂ = (β̂ , φ̂0 )> é a estimativa de máxima
verossimilhança de θ sob H0 . As três estatı́sticas seguem assintoticamente e
sob H0 distribuição χ2q .

1.7.3 Modelo de análise de variância


Como ilustração supor o modelo de análise de variância balanceado com um
fator e dois grupos
g(µij ) = α + βi ,

em que i = 1, 2, j = 1, . . . , m, β1 = 0, β2 = β e φ é conhecido. Considere


as hipóteses H0 : β = 0 contra H1 : β 6= 0. Aqui X2 é um vetor 2m × 1 de
10 s enquanto X1 é um vetor 2m × 1 com 00 s nas m primeiras posições e 10 s
nas m restantes. Daı́ segue que X> >
2 WX2 = m(ω1 + ω2 ), X2 WX1 = mω2 ,

38
C = ω2 /(ω1 + ω2 ) e consequentemente
mω1 ω2
R> WR = ,
(ω1 + ω2 )
em que ω1 e ω2 são os pesos correspondentes aos dois grupos. A estatı́stica
de escore fica então dada por
m
!2
2 X 0
ξSR = r̂ ,
m j=1 P2j

em que r̂P0 2j , j = 1, . . . , m, são os resı́duos estimados de Pearson, sob H0 ,


1 1
correspondentes ao segundo grupo, sendo dados por r̂P0 2j = φ 2 (y2j − µ̂0 )/V̂02 .
Em particular, sob a hipótese nula, µ̂0 = ȳ. Assim, obtém-se a simplificação
φm
ξSR = (ȳ1 − ȳ2 )2 , (1.6)
2V̂0
em que ȳ1 e ȳ2 são as médias amostrais correspondentes aos dois grupos e
V̂0 = V (ȳ) é a função de variância sob a hipótese nula1 .

Tabela 1.4
Expressões para as estatı́sticas de escore e de Wald.
Distribuição ξSR ξW
m 2 m 2
Normal (ȳ − ȳ2 )
2σ 2 1 2σ 2
β̂

m mȳ1 ȳ2 2
Poisson (ȳ
2ȳ 1
− ȳ2 )2 (ȳ1 +ȳ2 )
β̂

2m β̂ 2 y1 (m−y1 )y2 (m−y2 )


Binomial (y
y(2m−y) 1
− y2 )2 m y1 (m−y1 )+y2 (m−y2 )

φm φm(ȳ1 ȳ2 )2 2
Gama (ȳ
2ȳ 2 1
− ȳ2 )2 (ȳ12 +ȳ22 )
β̂

φm φm(ȳ1 ȳ2 )3 2
Normal inversa (ȳ
2ȳ 3 1
− ȳ2 )2 (ȳ13 +ȳ23 )
β̂
1
no caso binomial tomar ȳi = yi /m e V (ȳ) = ȳ(1 − ȳ)

39
Similarmente, pode-se mostrar que a estatı́stica de Wald fica dada por
φmω̂1 ω̂2 2
ξW = β̂ , (1.7)
(ω̂1 + ω̂2 )

em que β̂ denota a estimativa de máxima verossimilhança de β. Na Tabela


1.4 são apresentadas as expressões das estatı́sticas ξSR e ξW para alguns casos
da famı́lia exponencial.

1.7.4 Regressão linear simples


Supor agora um MLG com parte sistemática na forma linear simples

g(µi ) = α + βxi , i = 1, . . . , n,

e as hipóteses H0 : β = 0 contra H1 : β 6= 0 com φ conhecido. Nesse caso


obtém-se Rj = (xj ni=1 ωi − ni=1 ωi xi )/ ni=1 ωi e R> WR = ni=1 ωi Ri2 .
P P P P
Pn
Consequentemente, R̂0j = xj − x̄ e R̂> 0 Ŵ0 R̂0 = ω̂0
2
i=1 (xi − x̄) . Aqui,

também obtém-se µ̂0 = ȳ.


A estatı́stica de escore fica, portanto, dada por
φ { ni=1 xi (yi − ȳ)}2
P
ξSR = Pn 2
, (1.8)
V̂0 i=1 (xi − x̄)

em que V̂0 = V (ȳ).


Similarmente, obtém-se para a estatı́stica de Wald
n
X
2
ξW = φβ̂ ω̂i R̂i2 , (1.9)
i=1

em que β̂ é a estimativa de β sob H1 .

1.7.5 Hipóteses restritas


Pode ser de interesse, em algumas situações práticas, testar hipóteses na
forma de igualdades lineares, isto é, H0 : Cβ = 0 contra H1 : Cβ 6= 0, em

40
que C é uma matriz k × p de posto linha completo e k ≤ p. A estimativa de
máxima verossimilhança sob a hipótese alternativa coincide com a estimativa
de máxima verossimilhança irrestrita β̂. No entanto, obter a estimativa de
máxima verossimilhança sob H0 pode ser mais complexo, requerendo o uso de
algum procedimento iterativo. Nyquist (1991) propõe um processo iterativo
para a obtenção da estimativa de máxima verossimilhança em MLGs com
parâmetros restritos na forma Cβ = 0. O processo iterativo é dado abaixo
(m+1) (m+1)
β (m+1)
c = β̃ − (X> W(m) X)−1 C> {C(X> W(m) X)−1 C> }−1 Cβ̃ ,
(m+1)
m = 0, 1, . . ., em que β̃ é (1.5) avaliado na estimativa restrita β (m)
c . A

matriz de variância-covariância assintótica de β̂ c fica dada por

Var(β̂ c ) = φ−1 (X> WX)−1 [In − C> {C(X> WX)−1 C> }−1 C(X> WX)−1 ].

Os testes estatı́sticos assumem formas similares aos testes do caso irrestrito.


Em particular, quando φ é conhecido, o teste da razão de verossimilhanças
fica dado por
ξRV = φ{D(y; µ̂0 ) − D(y; µ̂)},

em que µ̂0 denota aqui a estimativa de máxima verossimilhança de µ sob


H0 : Cβ = 0. Já, o teste de escore, assume a forma

ξSR = φ−1 Uβ (β̂ c )> (X> Ŵ0 X)−1 Uβ (β̂ c ),

em que Ŵ0 é aqui avaliado em β̂ c . Finalmente, o teste de Wald fica dado


por

ξW = [Cβ̂ − 0]> [V̂ar(Cβ̂)]−1 [Cβ̂ − 0]


>
= φβ̂ C> [C(X> ŴX)−1 C> ]−1 Cβ̂.

Sob H0 e para amostras grandes, as estatı́sticas ξRV , ξW e ξSR seguem uma


distribuição χ2k . A distribuição nula assintótica dos testes acima para o caso

41
H0 : Cβ = 0 contra H1 − H0 , em que H1 : Cβ ≥ 0, é uma mistura de
distribuições do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs.

1.8 Bandas de confiança


1.8.1 Modelo normal linear
Uma banda de confiança de coeficiente 1−α pode ser construı́da para µ(z) =
z>β, ∀z ∈ IRp (ver, por exemplo, Casella e Strawderman, 1980). Tem-se que
β̂ − β ∼ Np (0, σ 2 (X> X)−1 ). Logo, uma banda de confiança de coeficiente
1 − α para a média µ(z), ∀z ∈ IRp , fica dada por
√ 1
z> β̂ ± σ cα {z> (X> X)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. É importante observar que z é


um vetor p × 1 que varia livremente no IRp enquanto X é uma matriz fixa
com os valores das variáveis explicativas.

1.8.2 Extensão para os MLGs


Uma banda assintótica de confiança de coeficiente 1 − α pode ser também
construı́da para µ(z) = g −1 (z>β), ∀z ∈ IRp (Piegorsch e Casella, 1988) ge-
neralizando os resultados da seção anterior. Assintoticamente tem-se que
β̂ − β ∼ Np (0, φ−1 (X> WX)−1 ). Logo, uma banda assintótica de confiança
de coeficiente 1 − α para o preditor linear z> β, ∀z ∈ IRp , fica dada por
p 1
z> β̂ ± φ−1 cα {z> (X> WX)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. Aplicando a transformação g −1 (·)


tem-se, equivalentemente, uma banda assintótica de confiança de coeficiente

42
1 − α para µ(z), dada por
p 1
g −1 [z> β̂ ± φ−1 cα {z> (X> WX)−1 z} 2 ] ∀z ∈ IRp .

Lembrando que z é um vetor p × 1 que varia livremente no IRp , enquanto X


é uma matriz fixa com os valores das variáveis explicativas. As quantidades
W e φ devem ser estimadas consistentemente.

1.9 Técnicas de diagnóstico modelo normal


linear
1.9.1 Introdução
Uma etapa importante na análise de um ajuste de regressão é a verificação
de possı́veis afastamentos das suposições feitas para o modelo, especialmente
para o componente aleatório e para a parte sistemática do modelo, bem como
a existência de observações discrepantes, que também podem ser classificadas
como atı́picas ou destoantes, que causam alguma interferência desproporci-
onal ou inferencial nos resultados do ajuste. Essas observações são classifi-
cadas em três tipos: alavanca, aberrante ou influente. Tal etapa, conhecida
como análise de diagnóstico, tem longa data, e começou com a análise de
resı́duos para detectar a presença de pontos aberrantes e avaliar a adequação
da distribuição proposta para a variável resposta.
Inicialmente será apresentada uma sı́ntese dessas metodologias para o mo-
delo normal linear, sendo estendidas posteriormente para os MLGs. Então,
considere o seguinte modelo de regressão normal linear:

yi = β1 xi1 + β2 x2i + . . . + βp xpi + i ,


iid
em que i ∼ N(0, σ 2 ), yi e xi1 , . . . , xip denotam, respectivamente, valores
observados da resposta e de variáveis explicativas, i = 1, . . . , n.

43
1.9.2 Pontos de alavanca
O resı́duo para a i-ésima observação pode ser definido como uma função do
tipo ri = r(yi , µ̂i ) que procura medir a discrepância entre o valor observado e
o valor ajustado da i-ésima observação. O sinal de ri indica a direção dessa
discrepância. A definição mais usual de resı́duo é dada por ri = yi − µ̂i
(resı́duo ordinário), todavia há outras formas de definir resı́duo que serão
discutidos mais adiante. O vetor de resı́duos ordinários é definido por r =
(r1 , . . . , rn )> . Logo, da regressão normal linear segue que r = y − µ̂ =
y − Hy = (In − H)y, em que H = X(X> X)−1 X> é a matriz de projeção
ortogonal de vetores do Rn no subespaço gerado pelas colunas da matriz X.
A matriz H é simétrica e idempotente e é conhecida como matriz hat,
uma vez que faz µ̂ = Hy. Por ser idempotente, tem-se que posto(H) =
Pn > > −1
tr(H) = i=1 hii = p. O elemento hii = xi (X X) xi desempenha um

papel importante na construção de técnicas de diagnóstico. Adicionalmente,


1 1
tem-se que n
≤ hii ≤ c
(ver, por exemplo, Cook e Weisberg, 1982), em que
c é o número de linhas de X idênticas a x>
i . O i-ésimo valor ajustado fica

então dado por


X
ŷi = hii yi + hji yj , (1.10)
i6=j

e pelo fato da matriz H ser idempotente


X
h2ij = hii (1 − hii ).
j6=i

Em particular, hii = 1 implica em ŷi = yi , todavia a recı́proca não é necessa-


riamente verdadeira. Logo, para valores altos de hii predomina na expressão
(1.10) a influência de yi sobre o correspondente valor ajustado. Assim, é
muito razoável utilizar hii como uma medida da influência da i-ésima ob-
servação sobre o próprio valor ajustado. Tem-se também que hii = ∂ ŷi /∂yi ,

44
ou seja, hii corresponde à variação em ŷi quando yi é acrescido de um infi-
nitésimo.
Supondo que todos os pontos exerçam a mesma influência sobre os valores
tr(H)
ajustados, pode-se esperar que hii esteja próximo de n
= np . Convém então
examinar, por exemplo, aqueles pontos tais que hii ≥ 2pn
, que são conhecidos
como pontos de alavanca ou de alto leverage e geralmente estão localizados
em regiões remotas no subespaço gerado pelas colunas da matriz X. Esses
pontos podem ser também informativos com relação a β̂.
Uma outra maneira de entender hii é construindo a matriz Jacobiana de
alavancas (ver, por exemplo, St. Laurent e Cook, 1993) quando a i-ésima
observação é perturbada de modo que o novo valor observado seja dado por
yi (b) = yi + b, em que b é uma constante real. O novo vetor de valores
ajustados fica dado por

ŷ(b) = X(X> X)−1 X> y(b),

em que y(b) = (y1 , . . . , yi−1 , yi + b, yi+1 , . . . , yn )> . A matriz Jacobiana de


alavancas é definida por
1
J(b) = lim {ŷ(b) − ŷ},
b→0 b

e representa a variação no vetor de valores ajustados sob uma variação infi-


nitesimal no i-ésimo valor observado. Pode-se verificar que

J(b) = X(X> X)−1 X> f = Hf ,

em que f é um vetor n×1 de zeros com o valor 1 na i-ésima posição. Portanto,


tem-se que hii representa a variação no valor predito da i-ésima observação
quando o valor observado é acrescido de um infinitésimo.
Para ilustrar como são obtidos os valores hii no R, supor um modelo
normal linear de variável resposta resp, fatores A e B e covariáveis cov1 e

45
cov2 e que os resultados do ajuste são armazenadas em fit.model. Esse
modelo pode ser ajustado de duas formas
fit.model = lm(resp ∼ A + B + cov1 + cov2)
ou, alternativamente, como um MLG
fit.model = glm(resp ∼ A + B + cov1 + cov2,
family=gaussian).
É claro que a primeira maneira é mais simples. Para gerar a matriz modelo
(incluindo a constante) deve-se considerar
X = model.matrix(∼ A + B + cov1 + cov2).
Assim, tem-se em X a matriz modelo correspondente. O cálculo da matriz
de projeção H pode ser feito seguindo os passos descritos abaixo
H = X% ∗ %solve(t(X)% ∗ %X)% ∗ %t(X).
Logo, pode-se obter hii extraindo os elementos da diagonal principal de H
h = diag(H).
Outras maneiras mais ágeis de extrair os elementos h0ii s de uma regressão
linear são através dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construir um gráfico de ı́ndices para hii , a fim de detectar pontos de
alavanca, deve-se usar o comando
plot(h, xlab=‘‘Índice’’, ylab= ‘‘Alavanca’’).

1.9.3 Resı́duos
Dos resultados descritos na seção anterior segue que E(r) = (In −H)E(Y) = 0
e Var(r) = σ 2 (In − H). Isto é, ri tem distribuição normal de média zero e
variância Var(ri ) = σ 2 (1 − hii ). Além disso, a covariância entre ri e rj , i 6= j,
fica dada por Cov(ri , rj ) = −σ 2 hij .

46
Como os ri0 s têm variâncias diferentes, é conveniente expressá-los em
forma padronizada a fim de ser possı́vel uma comparação entre os mesmos.
Uma definição natural seria dividir ri pelo respectivo desvio padrão. Obtém-
se assim o resı́duo studentizado
ri
ti = p , i = 1, . . . , n,
s(1 − hii )
Pn
em que s2 = 2
i=1 ri /(n − p).
No entanto, como ri não é independente de s2 , ti não segue uma dis-
tribuição t de Student como se poderia esperar. Cook e Weisberg (1982)
1
mostram que t2i /(n − p) segue uma distribuição beta com parâmetros 2
e
(n − p − 1)/2. Logo, tem-se que E(ti ) = 0, Var(ti ) = 1 e Cov(ti , tj ) =
p
−hij / (1 − hii )(1 − hjj ), i < j. O problema da dependência entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrático médio cor-
respondente ao modelo sem a i-ésima observação. O ı́ndice (i) indica que a
i-ésima observação foi excluı́da. Mostra-se que

(n − p)s2 (n − p − 1)s2(i) ri2


= + ,
σ2 σ2 σ 2 (1 − hii )
e daı́ segue pelo teorema de Fisher-Cochran (ver, por exemplo, Rao, 1973,
p.185) a independência entre s2(i) e ri2 . Além disso, tem-se que
n
X ri2
(n − p − 1)s2(i) = rj2 −
j=1
(1 − hii )

e daı́ segue, após alguma álgebra, que


n − p − t2i
 
2 2
s(i) = s . (1.11)
n−p−1
Assim, fica fácil mostrar que o novo resı́duo studentizado
r
t∗i = √ i
s(i) 1 − hii

47
segue uma distribuição tn−p−1 . Se ainda (1.11) fou substituı́do na expressão
acima mostra-se que t∗i é uma transformação monótona de ti ,
  12
n−p−1
t∗i = ti .
n − p − t2i
O resı́duo ti pode ser calculado pela sequência de comandos
lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/s*sqrt(1-h).
Logo, o resı́duo t∗i fica dado por
tsi = ti*sqrt((n-p-1)/(n-p-ti2 )).
Deve-se substituir n e p pelos respectivos valores numéricos.
Várias quantidades do modelo linear normal ajustado podem ser obtidas
diretamente no R através do uso de algumas funções apropriadas, as quais
são úteis na aplicação das técnicas de diagnóstico. Há um resumo na Tabela
1.5 de alguns casos.

Tabela 1.5
Quantidades úteis para diagnóstico obtidas no R.
Sı́mbolo Descrição Função Elemento
h Alavanca lm.influence() hat
β̂ Coeficientes coef()
r Resı́duos resid()
s Desvio padrão summary() sigma
amostral
s(i) Desvio padrão lm.influence() sigma
sem observação i
β̂ (i) Coeficiente sem lm.influence() coef
observação i
(X> X)−1 Covariância de β̂ summary() cov.unscaled
2
sem s

48
Como ilustração, supor um ajuste com resultados no objeto fit.model
e que o interesse é obter a estimativa do desvio padrão da variável res-
posta Yi sem considerar a i-ésima observação. Aplicando em R a função
lm.influence(fit.model)$sigma obtém-se um vetor de dimensão n com
todas as estimativas do desvio padrão de Yi excluindo cada observação cor-
respondente. Como é mostrado a seguir o resı́duo t∗i pode ser interpretado
como uma estatı́stica para avaliar se a i-ésima observação é aberrante.

1.9.4 Outra interpretação para t∗i


Supor que o i-ésimo ponto é suspeito de ser aberrante. Essa hipótese pode
ser testada através do modelo

yj = β1 + β2 x2j + . . . + βp xpj + ωj γ + j , (1.12)

j = 1, . . . , n, em que ωj = 1 para j = i e ωj = 0 em caso contrário.


Usando resultados da Seção 1.4.2 pode-se mostrar que, sob a hipótese
H0 : γ = 0, o acréscimo na soma de quadrados de resı́duos é dado por

D(y; µ̂0 ) − D(y; µ̂) = γ̂ 2 (1 − hii ),

0
em que γ̂ = ri (1 − hii )−1 e ri = yi − x>
i β̂. Assim, uma vez que D(y; µ̂ ) =

(n − p)s2 , a estatı́stica F para testar H0 : γ = 0 contra H1 : γ 6= 0 fica dada


por
γ̂ 2 (1 − hii )
F= n o .
r2
(n − p)s2 − (1−hi ii ) /(n − p − 1)
A estatı́stica F segue, sob H0 , distribuição qui-quadrado com 1 grau de li-
berdade. Trabalhando um pouco a expressão acima chega-se ao seguinte
resultado:
ri2 (n − p − 1)
F= = t∗2
i .
s2 (1 − hii )(n − p − t2i )

49
Portanto, valores altos para |t∗i | indicam, significativamente, que o i-ésimo
ponto é aberrante.

1.9.5 Influência
Supor φ conhecido. Então, o logaritmo da função de verossimilhança fica
agora expresso na forma
n
X
Lδ (β) = δj Lj (β), (1.13)
j=1

em que Lj (β) denota o logaritmo da função de verossimilhança correspon-


dente à j-ésima observação e δj é um tipo de perturbação, definida tal que
0 ≤ δj ≤ 1. Quando δj = 1, ∀j, significa que não há perturbação no modelo
e quando δj = 0 significa que a j-ésima observação foi excluı́da.
A estimativa de mı́nimos quadrados para β fica, supondo a estrutura
(1.13), dada por
β̂ δ = (X> ∆X)−1 X> ∆y,

em que ∆ = diag{δ1 , . . . , δn }. Em particular, quando apenas a i-ésima


observação é perturbada, isto é, quando δi = δ e δj = 1 para j 6= i, obtém-se

(1 − δ)ri
β̂ δ = β̂ − (X> X)−1 xi . (1.14)
{1 − (1 − δ)hii }

Para δ = 0, significa que o i-ésimo ponto foi excluı́do, então (1.14) fica
expressa na forma simplificada
ri
β̂ (i) = β̂ − (X> X)−1 xi , (1.15)
(1 − hii )

que é bastante conhecida da regressão normal linear (ver, por exemplo, Cook
e Weisberg, 1982).

50
A medida de influência mais conhecida é baseada na região de confiança
de coeficiente (1 − α) para o parâmetro β,

(β̂ − β)> (X> X)(β̂ − β) ≤ ps2 Fp,(n−p) (1 − α),

que para o caso de p = 2 é um elipsóide no R2 centrado em β̂. Tal medida,


conhecida como distância de Cook, é definida por

(β̂ − β̂ δ )> (X> X)(β̂ − β̂ δ )


Dδ = , (1.16)
ps2

e mede quanto a perturbação δ = (δ1 , . . . , δn )> afasta β̂ δ de β̂, segundo a


métrica M = X> X. Por exemplo, se Dδ > Fp,(n−p) (1 − α), significa que
a perturbação está deslocando o contorno do elipsóide para um contorno
correspondente a um nı́vel de significância menor do que α.
Em particular, quando o i-ésimo ponto é excluı́do, a distância de Cook
fica expressa na forma

(β̂ − β̂ (i) )> (X> X)(β̂ − β̂ (i) )


Di =
ps2
( )2
ri hii 1
= 1
s(1 − hii ) 2 (1 − hii ) p
hii 1
= t2i .
(1 − hii ) p
Portanto, Di será grande quando o i-ésimo ponto for aberrante (ti grande)
e/ou quando hii for próximo de um. A distância de Cook pode ser calculada
da seguinte maneira:
di = (ti2 )*h/(p*(1-h)).
A distância Di poderá não ser adequada quando ri for grande e hii for pe-
queno. Nesse caso, s2 pode ficar inflacionado e não ocorrendo nenhuma

51
compensação por parte de hii , Di pode ficar pequeno. Uma medida mais
apropriada foi proposta por Belsley et al.(1980), definida por
  12
|ri | hii
DFFITSi = 1
s(i) (1 − hii ) 2 (1 − hii )
  12
hii
= |t∗i | .
(1 − hii )
O DFFITSi é calculado conforme abaixo
dfit = abs(tsi)*sqrt(h/(1-h)).
Como o valor esperado de hii é np , é razoável dar mais atenção àqueles pontos
tais que
  12
p
DFFITSi ≥ 2 .
(n − p)
Aparentemente Di e DFFITSi seriam medidas de influência competitivas,
uma vez que DFFITSi parece ser mais adequada para avaliar a influência
nas estimativas dos coeficientes de um ponto aberrante com hii pequeno.
No entanto, como mostram Cook et al.(1988) Di e DFFITSi medem coi-
sas diferentes. Ambas podem ser expressas a partir da medida mais ge-
ral de influência denominada afastamento pela verossimilhança (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida Di mede
essencialmente a influência das observações nos parâmetros de posição, en-
quanto DFFITSi tem o propósito de medir a influência das observações nos
parâmetros de posição e escala. Como é pouco provável que um ponto com
ri alto e hii pequeno seja influente nas estimativas dos coeficientes, o uso de
Di não compromete a detecção de observações influentes. Cook et al.(1988)
observam também que DFFITSi não é um medida completa de influência nos
parâmetros de posição e escala simultaneamente, podendo falhar em algumas
situações. Uma medida mais geral nesse caso é proposta pelos autores.

52
Atkinson (1985) propôs uma outra medida de influência que é um aper-
feiçoamento do DFFITSi , definida por
  12
(n − p) hii
Ai = |t∗i |.
p (1 − hii )

Aqui, quando o experimento for balanceado, isto é, todos os h0ii s forem iguais,
obtemos Ai = |t∗i |. A vantagem de Ai é que a mesma pode ser utilizada em
gráficos normais de probabilidade.

1.9.6 Ilustração
As Figuras 1.4a-1.4d ilustram as diferenças entre pontos aberrantes, de ala-
vanca e influentes. Na Figura 1.4a tem-se os pontos alinhados sem nenhum
tipo de perturbação. Na Figura 1.4b perturba-se o ponto #3 fazendo-o aber-
rante. Note que a exclusão do mesmo (reta pontilhada) altera apenas o
intercepto, isto é, os valores ajustados. É um ponto que não está muito
afastado dos demais, logo tem um valor para hii relativamente pequeno. Já
na Figura 1.4c, perturba-se o ponto #5 de modo que o mesmo fique mais
afastado no subespaço gerado pelas colunas da matriz X. É um ponto de
alavanca, todavia a eliminação do mesmo não muda praticamente nada nas
estimativas dos parâmetros. Como é um ponto com hii relativamente alto, as
variâncias dos valores ajustados dos pontos próximos ao mesmo serão mai-
ores do que as variâncias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturba-se novamente o ponto #5
fazendo-o agora influente e também alavanca. O mesmo, além de mudar a
estimativa da inclinação da reta ajustada, continua mais afastado do que os
demais.
As possı́veis situações discutidas acima, quando detectadas num ajuste de
regressão, devem ser examinadas cuidadosamente antes de qualquer decisão.

53
Encontrar razões que expliquem o fato dos pontos terem um comportamento
atı́pico com relação aos demais pontos podem ajudar a entender melhor a
relação entre as variáveis explicativas e o fenômeno sob investigação como
também a traçar uma estratégia de utilização do modelo ajustado, que não
necessariamente implica na eliminação de tais pontos.
5

5
3
4

4
3

3
y

y
2

2
1

1 2 3 4 5 1 2 3 4 5

x x
(a) (b)

5 5
7

8
6
5

6
y

y
4

4
3
2

2
1

1 2 3 4 5 6 7 1 2 3 4 5 6 7

x x
(c) (d)

Figura 1.4: Ilustração de pontos aberrantes, influentes e de alavanca.

Mudanças na distribuição postulada para a variável resposta, inclusão ou


retirada de variáveis explicativas ou mesmo transformações de variáveis expli-
cativas podem atenuar a influência de observações atı́picas. Outra alternativa
é a aplicação de procedimentos robustos (vide, por exemplo, Montgomery

54
et al., 2021, Cap.15). Uma estratégia interessante é diferenciar mudanças
numéricas de mudanças inferenciais nas estimativas quando as abservaçõeas
atı́picas não são consideradas no ajuste.

1.9.7 Influência local


Um dos métodos mais modernos de diagnóstico foi proposto por Cook (1986).
A ideia básica consiste em estudar o comportamento de alguma medida par-
ticular de influência segundo pequenas perturbações (influ^
encia local)
nos dados ou no modelo. Isto é, verificar a existência de pontos que sob
modificações modestas no modelo causam variações desproporcionais nos re-
sultados.
Pode-se, por exemplo, querer avaliar a influência que pequenas mudanças
nas variâncias das observações causam nas estimativas dos parâmetros. Nesse
caso, pode-se utilizar a distância de Cook como medida de referência. Por ou-
tro lado, se o interesse é estudar a influência local das observações no ajuste,
a sugestão de Cook é perturbar as covariáveis ou a variável resposta e utili-
zar alguma medida adequada para quantificar a influência das observações.
Como ilustração, supor que uma variável explicativa que representa uma
distância particular é perturbada localmente e detecta-se através de uma
medida de influência que pontos com distâncias altas produzem variações
acentuadas na medida adotada. Isso sugere que a variável explicativa sob
estudo é bastante sensı́vel para valores altos, podendo não ser uma boa pre-
ditora nesses casos. A seguir é descrito o procedimento de influência local.

Curvatura normal
Para formalizar o método de influência local denote por L(θ) o logaritmo da
função de verossimilhança do modelo postulado e θ um vetor r-dimensional.

55
No caso de MLGs pode-se ter θ = (β > , φ)> e r = p+1 ou simplesmente θ = β
quando φ for conhecido. Seja δ um vetor q × 1 de perturbações, restritas a
um conjunto aberto Ω ⊂ IRq . Em geral tem-se q = n. As perturbações
são feitas no logaritmo da verossimilhança de modo que o mesmo assume
a forma L(θ|δ). Denotando o vetor de não perturbação por δ 0 , tem-se que
L(θ|δ 0 ) = L(θ). A fim de verificar a influência das perturbações na estimativa
de máxima verossimilhança θ̂, considere o afastamento pela verossimilhança

LD(δ) = 2{L(θ̂) − L(θ̂ δ )},

em que θ̂ δ denota a estimativa de máxima verossimilhança sob o modelo


L(θ|δ). Com a definição acima tem-se que LD(δ) ≥ 0.
A ideia de influência local consiste basicamente em estudar o comporta-
mento da função LD(δ) em torno de δ 0 . O procedimento procura selecionar
uma direção unitária `, k ` k= 1, e então estudar o gráfico de LD(δ 0 + a`)
contra a, em que a ∈ IR. Esse gráfico é conhecido como linha projetada. Em
particular, tem-se que LD(δ 0 ) = 0, assim LD(δ 0 + a`) tem um mı́nimo local
em a = 0. Cada linha projetada pode ser caracterizada por uma curvatura
normal C` (θ) em torno de a = 0. Essa curvatura é interpretada como sendo
o inverso do raio do melhor cı́rculo ajustado em a = 0. Uma sugestão é
considerar a direção `max que corresponde à maior curvatura denotada por
C`max . Por exemplo, o gráfico de |`max | contra a ordem das observações pode
revelar quais observações que sob pequenas perturbações exercem uma in-
fluência desproporcional em LD(δ). Cook(1986) usa conceitos de geometria
diferencial para mostrar que a curvatura normal na direção ` assume a forma

C` (θ) = 2|`> ∆> L̈−1


θ̂θ̂
∆`|,

em que −L̈θ̂θ̂ é a matriz de informação observada enquanto ∆ é uma matriz


r × q com elementos ∆ij = ∂ 2 L(θ|δ)/∂θi ∂δj , avaliados em θ = θ̂ e δ = δ 0 ,

56
i = 1, . . . , r e j = 1, . . . , q.
Tem-se que o máximo de `> B`, em que B = ∆> (−L̈θ̂θ̂ )−1 ∆, corresponde
ao maior autovalor (em valor absoluto) de B. Portanto, C`max corresponde
ao maior autovalor da matriz B e `max denota o autovetor correspondente.
Assim, o gráfico de |`max | contra a ordem das observações pode revelar
aqueles pontos com maior influência na vizinhança de LD(δ0 ). Tais pon-
tos podem ser responsáveis por mudanças substanciais nas estimativas dos
parâmetros sob pequenas perturbações no modelo ou nos dados. Seria, por-
tanto, prudente olhar com mais cuidado esses pontos a fim de entender me-
lhor a influência dos mesmos e consequentemente tentar propor uma forma
segura de usar o modelo ajustado. Quando C`max não for muito maior do que
o segundo autovalor, pode ser informativo olhar também os componentes do
segundo autovetor. É provável, nesse caso, que o segundo autovetor destaque
algum tipo de influência particular das observações nas estimativas. O maior
autovalor da matriz B pode ser obtido pelo comando abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor abso-
luto é obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Gráficos alternativos, tais como de C`i contra a ordem das observações, em
que `i denota um vetor n × 1 de zeros com um na i-ésima posição têm sido
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
Nesse caso deve-se padronizar Ci = Ci / nj=1 Cj . Uma sugestão é olhar com
P

mais atenção aqueles pontos tais que Ci > C̄ + kDP{Ci )}, para k = 1, 2, 3
dependendo do tamanho amostral, em que C̄ = n1 ni=1 Ci .
P

Por outro lado, se o interesse está num subvetor θ 1 de θ = (θ > > >
1 , θ2 ) ,

57
então a curvatura normal na direção ` fica dada por

C` (θ 1 ) = 2|`> ∆> (L̈−1


θ̂θ̂
− B1 )∆`|,

sendo !
0 0
B1 = −1 ,
0 L̈θ̂ θ̂
2 2

com −L̈θ̂2 θ̂2 denotando a matriz de informação observada para θ 2 . O gráfico


do maior autovetor de ∆> (L̈−1
θ̂θ̂
− B1 )∆ contra a ordem das observações pode
revelar os pontos com maior influência local em θ̂ 1 .
Poon e Poon (1999) propoêm uma variação da medida de curvatura nor-
mal de Cook, a qual denominam curvatura normal conformal, que é invariante
com mudanças de escala e é definida no intervalo unitário. Vários gráficos
novos de influência são propostas, em particular uma forma de agregar as
direções de maior curvatura em medidas resumo de influência.

Ponderação de casos
Para ilustrar uma aplicação particular considere o modelo normal linear com
σ 2 conhecido e esquema de perturbação ponderação de casos, em que
n
1 X
L(β|δ) = − 2 δi (yi − x>
i β)
2
2σ i=1

com 0 ≤ δi ≤ 1. A matriz ∆ nesse caso fica dada por X> D(r)/σ 2 em que
D(r) = diag{r1 , . . . , rn } com ri = yi −ŷi . Logo, desde que L̈ββ = −σ −2 (X> X)
a curvatura normal na direção unitária ` fica dada por
2 >
C` (β) = |` D(r)HD(r)`|,
σ2
com H = X(X> X)−1 X> . Portanto, `max é o autovetor correspondente ao
maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se for

58
considerada a direção `i correspondente à i-ésima observação, a curvatura
2
normal assume a forma simplificada Ci = h r2 .
σ 2 ii i
Os gráficos de ı́ndices de
`max e Ci podem revelar aquelas observações mais sensı́veis ao esquema de
perturbação adotado.
Cálculos similares para σ 2 desconhecido levam ao seguinte ∆ = (∆> > >
1 , ∆2 )

em que ∆1 = X> D(r)/σ̂ 2 e ∆2 = r(2)> /2σ̂ 4 com r(2)> = (r12 , . . . , rn2 ) e


−L̈θ̂θ̂ = diag{X> X/σ̂ 2 , n/2σ̂ 4 }. Logo, a curvatura normal na direção unitária
` fica dada por
2 >
C` (θ) = 2
|` {D(r)HD(r) + r(2) r(2)> /2nσ̂ 2 }`|.
σ̂
Quando o interesse é verificar a influência local das observações na esti-
mativa de um coeficiente particular β1 deve-se considerar a curvatura normal
C` (β1 ) = 2|`> B`|, em que

B = D(r)X{(X> X)−1 − B1 }X> D(r)

sendo B1 = diag{0, (X> −1


2 X2 ) } com X2 saindo da partição X = (X1 , X2 ).

Aqui X1 é um vetor n × 1 correspondente à variável explicativa sob estudo e


X2 é uma matriz n × (p − 1) correspondente às demais variáveis explicativas.
Cook (1986) mostra que `max , nesse caso, assume a forma
!
vr v r
`>
max = p 1 1 ,..., pn n ,
C`max C`max
em que v1 , . . . , vn são os resı́duos ordinários da regressão linear de X1 sobre as
colunas de X2 , ou seja, o vetor v = (v1 , . . . , vn )> é dado por v = (In −H2 )X1 ,
H2 = X2 (X> −1 >
2 X2 ) X2 . Aqui, a matriz B tem posto m = 1. Logo, há

apenas um autovalor diferente de zero. Nesse caso, pode-se tanto utilizar


o procedimento descrito acima para calcular `max como obtê-lo diretamente
sem precisar calcular a matriz H2 . Como ilustração, supor que os resultados

59
do ajuste estão armazenados em fit.model. Para extrair o vetor r pode-se
aplicar o comando
r = resid(fit.model).
Se o modelo tem as covariáveis cov1 e cov2 além dos fatores A e B, o vetor
`max correspondente, por exemplo à covariável cov1, sai de
fit = lm(cov1 ∼ A + B + cov2 - 1)
v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).

1.9.8 Gráfico da variável adicionada


Supor novamente o modelo de regressão dado em (1.12), em que ω é agora
uma variável adicional quantitativa. Definindo Z = (X, ω), pode-se mostrar
facilmente que a estimativa de mı́nimos quadrados de θ = (β > , γ)> é dada
por θ̂ = (Z> Z)−1 Z> y. Em particular obtém-se, após alguma álgebra, que

ω > (In − H)y


γ̂ =
ω > (In − H)ω
ω>r
= .
ω > (In − H)ω
Isto é, γ̂ é o coeficiente da regressão linear passando pela origem do vetor de
resı́duos r = (In − H)y sobre o novo resı́duo υ = (In − H)ω, dado por

γ̂ = (υ > v)−1 υ > r


= {ω > (In − H)(In − H)ω}−1 ω > (In − H)(In − H)y
ω > (In − H)y
= .
ω > (In − H)ω

60
Portanto, um gráfico de r contra υ pode fornecer informações sobre a evidência
dessa regressão, indicando quais observações que estão contribuindo para a
relação e quais observações que estão se desviando da mesma. Esse gráfico,
conhecido como gráfico da variável adicionada, pode revelar quais pontos que
estão influenciando (e de que maneira) a inclusão da nova variável no modelo.
Para ilustrar a construção do gráfico da variável adicionada, supor nova-
mente o modelo com duas covariáveis e dois fatores. O gráfico da variável
adicionada para avaliar a influência das observações no coeficiente de cov1,
pode ser construı́do com os comandos
fit = lm(resp ∼ cov2 + A + B)
r = resid(fit)
fit1 = lm(cov1 ∼ cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= ‘‘residuo v’’, ylab= ‘‘residuo r’’).

1.9.9 Técnicas gráficas


Os seguintes gráficos são recomendados para avaliar afastamentos importan-
tes das suposições feitas para o modelo normal linear, bem como a presença de
observações atı́picas: (i) pontos aberrantes, o gráfico de t∗i contra a ordem das
observações e o gráfico normal de probabilidades para t∗i ; (ii) variância não
constante, o gráfico de t∗i contra ŷi (valor ajustado); (iii) pontos influentes,
gráficos de Di , Ci , DFFITSi , hii ou |`max | contra a ordem das observações; (iv)
falta de algum termo extra numa variável explicativa quantitativa, gráfico da
variável adicionada; (v) correlação entre as observações, gráfico de t∗i contra
o tempo ou contra a ordem em que há suspeita de correlação, e (vi) afasta-
mentos da normalidade, gráfico normal de probabilidades. Esse último é o
gráfico dos valores dos quantis amostrais t∗(1) ≤ · · · ≤ t∗(n) contra os valores

61
0
esperados das estatı́sticas de ordem da normal padrão, Z(i) s. Tem-se que
i − 38
 

E(Z(i) ) = Φ −1
,
n + 14
em que Φ(·) é a função de distribuição acumulada da N(0, 1). Portanto, na
prática, é o gráfico dos quantis amostrais do resı́duo t∗(i) contra os quantis
teóricos da normal padrão.
Há também o gráfico meio-normal de probabilidades, definido como sendo
o gráfico de |t∗(i) | contra os valores esperados de |Z(i) |. Tem-se a aproximação
 
∼ −1 n + i + 1/2
E(|Z(i) |) = Φ .
2n + 9/8
Em particular, o gráfico de Ai contra E(|Z(i) |) pode ser indicado para detec-
tarmos simultaneamente pontos aberrantes e/ou influentes. O gráfico normal
de probabilidades com a reta ajustada pode ser construı́do com os comandos
dados abaixo
qqnorm(tsi , ylab= ‘‘Residuo Studentizado’’)
qqline(tsi).
O comando qqline() traça uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resı́duos e da distribuição normal padrão. Devido
à dificuldade de avaliar se o gráfico normal de probabilidades se afasta efetiva-
mente da reta ajustada, a construção de um tipo de banda de confiança para
os resı́duos pode ser muito útil para detectar afastamentos importantes da
normalidade. Esse gráfico pode também ser informativo sobre a existência
de pontos discrepantes ou mesmo sobre a falta de linearidade. Todavia,
como a distribuição conjunta das estatı́sticas de ordem dos resı́duos t∗(i) 0 s
é bastante complicada e o uso simples das variâncias dos t∗i 0 s para a cons-
trução de tais bandas pode introduzir algum viés no cálculo do coeficiente de
confiança, Atkinson (1985) sugere a construção de um tipo de banda de con-
fiança através de simulações, a qual denominou envelope. O procedimento

62
consiste basicamente em gerar resı́duos que tenham média zero e matriz de
variância-covariância (In − H). O método é descrito a seguir.

1. Gerar n observações N(0, 1) as quais são armazenadas em y = (y1 , . . . , yn )> .

2. Ajustar y contra X e obter ri = yi − ŷi . Tem-se que E(ri ) = 0, Var(ri ) =


1 − hii e Cov(ri , rj ) = −hij , para i, j = 1, . . . , n.

3. Obter t∗i = √ ri , i = 1, . . . , n.
1−hii

4. Repetir os passos (1)-(3) m vezes. Logo, tem-se os resı́duos gerados t∗ij ,


i = 1, . . . , n e j = 1, . . . , m.

5. Colocar cada grupo de n resı́duos em ordem t∗(1)j ≤ · · · ≤ t∗(n)j , j =


1, . . . , m.

6. Obter os limites t∗(i)I = min{t∗(i)1 , . . . , t∗(i)m } e t∗(i)S = max{t∗(i)1 , . . . , t∗(i)m } e


a mediana t∗(i)M = mediana{t∗(i)1 , . . . , t∗(i)m }. Assim, os limites e a medi-
ana correspondentes ao i-ésimo resı́duo serão, respectivamente, dados
por t∗(i)I , t∗(i)S e t∗(i)M , i = 1, . . . , n.

7. Juntar (t∗(1)I , . . . , t∗(n)I ), (t∗(1)M , . . . , t∗(n)M ) e (t∗(1)S , . . . , t∗(n)S ) formando, res-


pectivamente, o limite superior, a mediana e o limite inferior do enve-
lope.

A sugestão de Atkinson (1985) é gerar m = 19 vezes. Desse modo, a


probabilidade do maior resı́duo de um envelope particular exceder o limite
superior fica sendo ∼
= 1/20. Programa descrito em Everitt (1994) é adaptado
para a geração dos envelopes de um modelo de regressão normal linear consi-
derando m = 100. Para rodar o programa é preciso apenas colocar o modelo
ajustado em fit.model. Daı́, deve-se fazer
source(‘‘envel norm’’)

63
em que envel norm é o nome do arquivo externo onde deve estar o programa
para geração dos gráficos (ver Apêndice B).

1.10 Técnicas de diagnóstico MLGs


1.10.1 Pontos de alavanca
Como já foi mencionado na Seção 1.9.2 a ideia principal que está por trás do
conceito de ponto de alavanca é de avaliar a influência de yi sobre o próprio
valor ajustado ŷi . Essa influência pode ser bem representada pela derivada
∂ ŷi /∂yi que coincide, como foi visto na Seção 1.9.2, com hii no caso normal
linear. Wei et al.(1998) propuseram uma forma geral para a obtenção da
matrix (∂ ŷ/∂y> )n×n quando a resposta é contı́nua e que pode ser aplicada
em diversas situações de estimação. No caso de MLGs, para φ conhecido, a
matriz ∂ ŷ/∂y> pode ser obtida da forma geral

c = ∂ ŷ = {Dβ (−L̈ββ )−1 L̈βy }| ,


GL β̂
∂y>
em que Dβ = ∂µ/∂β, L̈ββ = ∂ 2 L(β)/∂β∂β > e L̈βy = ∂ 2 L(β)/∂β∂y> . Tem-
se que
Dβ = NX e L̈βy = φX> V−1 N,

em que N = diag{dµ1 /dη1 , . . . , dµn /dηn }. Substituindo −L̈ββ pelo seu valor
esperado φ(X> WX), obtém-se aproximadamente

c ∼
GL = N̂X(X> ŴX)−1 X> V̂−1 N̂.

Assim, o elemento GL
c ii pode ser expresso na forma

c ii ∼
GL = ω̂i x> > −1
i (X ŴX) xi ,

em que ωi = (dµi /dηi )2 /Vi . Em particular, para ligação canônica em que


−L̈ββ = φ(X> VX) obtém-se exatamente GL c = V̂X(X> V̂X)−1 X> .

64
Outra definição de pontos de alavanca que tem sido utilizada na classe
dos MLGs, embora não coincida exatamente com a expressão acima, exceto
no caso de resposta contı́nua e ligação canônica, é construı́da fazendo uma
analogia entre a solução de máxima verossimilhança para β̂ num MLG e a
solução de mı́nimos quadrados de uma regressão normal linear ponderada.
Considerando a expressão para β̂ obtida na convergência do processo itera-
tivo dado em (1.5), tem-se que

β̂ = (X> ŴX)−1 X> Ŵẑ,


1 1
com ẑ = η̂ + Ŵ− 2 V̂− 2 (y − µ̂). Portanto, β̂ pode ser interpretado como
1
sendo a solução de mı́nimos quadrados da regressão linear de Ŵ 2 ẑ contra as
1
colunas de Ŵ 2 X. A matriz de projeção da solução de mı́nimos quadrados
da regressão linear de ẑ contra X com pesos Ŵ fica dada por
1 1
Ĥ = Ŵ 2 X(X> ŴX)−1 X> Ŵ 2 ,

que sugere a utilização dos elementos ĥii da diagonal principal de Ĥ para


detectar a presença de pontos de alavanca nesse modelo de regressão nor-
mal linear ponderada. Essa extensão para MLGs foi proposta por Pregibon
(1981). Pode-se verificar facilmente que ĥii = GL
c ii , ou seja, para grandes
amostras GL
c e Ĥ coincidem. No caso de ligação canônica essa igualdade
vale para qualquer tamanho amostral. Como em geral ĥii depende de µ̂ii é
sugerido para detectar pontos de alavanca o gráfico de ĥii contra os valores
ajustados.
Moolgavkar et al.(1984) estendem a proposta de Pregibon para modelos
não lineares e sugerem o uso dos elementos da diagonal principal da matriz
de projeção no plano tangente à solução de máxima verossimilhança µ(β̂)
para detectar pontos de alavanca. Hosmer et al.(2013) mostram, contudo,
que o uso da diagonal principal da matriz de projeção Ĥ deve ser feito com

65
algum cuidado em regressão logı́stica e que as interpretações são diferentes
daquelas do caso normal linear.

1.10.2 Resı́duos
A definição de um resı́duo studentizado para os MLGs pode ser feita analo-
gamente à regressão normal. Todavia, não necessariamente as propriedades
continuam valendo. Assim, torna-se importante a definição de outros tipos
de resı́duo cujas propriedades sejam conhecidas ou pelo menos estejam mais
próximas das propriedades de t∗i .
Uma primeira proposta seria considerar o resı́duo ordinário da solução
de mı́nimos quadrados da regressão linear ponderada de ẑ contra X, que é
definido por

1 1
r∗ = Ŵ 2 (ẑ − η̂) = V̂− 2 (y − µ̂).

Assumindo que Var(z) ∼


= Ŵ−1 φ−1 , tem-se aproximadamente

Var(r∗ ) ∼
= φ−1 (In − Ĥ).

Logo, pode-se definir o resı́duo padronizado



φ(yi − µ̂i )
tSi = q ,
V̂i (1 − ĥii )

em que hii é o i-ésimo elemento da diagonal principal da matriz H. Fica fácil


mostrar que r∗ = (In − Ĥ)Ŵ1/2 ẑ, isto é, Ĥ desempenha o papel de matriz
de projeção ortogonal local, como na regressão normal linear em que W é
identidade.
No entanto, na prática, η̂ não é fixo nem conhecido, bem como z não
segue distribuição normal. Uma implicação disso é que as propriedades de t∗i

66
não são mais verificadas para tSi . Williams (1984) mostra através de estudos
de Monte Carlo que a distribuição de tSi é em geral assimétrica, mesmo para
grandes amostras.
Outros resı́duos cujas distribuições poderiam estar mais próximas da nor-
malidade têm sido sugeridos para os MLGs. Por exemplo, o resı́duo de Ans-
combe √
φ{ψ(yi ) − ψ(µ̂i )}
tAi = q ,
ψ 0 (µ̂i ) V̂ (µ̂i )
em que ψ(·) é uma transformação utilizada para normalizar a distribuição de
Y . Para os MLGs essa transformação é definida por
Z µ
1
ψ(µ) = V − 3 (t)dt.
0

Em particular, para os principais MLGs a transformação ψ(µ) é descrita na


tabela dada abaixo.

Distribuição
Normal Binomial Poisson Gama N. Inversa
R µ −1 − 1 3 32 1
ψ(µ) µ 0
t 3 (1 − t) 3 dt 2
µ 3µ 3 log(µ)

Contudo, um dos resı́duos mais utilizados MLGs é definido a partir dos


componentes da função desvio. A versão padronizada (ver McCullagh, 1987;
Davison e Gigli, 1989) é a seguinte:

d∗ (yi ; µ̂i ) φd(yi ; µ̂i )
tDi =p = p ,
1 − ĥii 1 − ĥii
√ 1
em que d(yi ; µ̂i ) = ± 2{yi (θ̃i − θ̂i ) + (b(θ̂i ) − b(θ̃i ))} 2 . O sinal de d(yi ; µ̂i )
é o mesmo de yi − µ̂i . Williams (1984) verificou através de simulações que
a distribuição de tDi tende a estar mais próxima da normalidade do que as

67
distribuições dos demais resı́duos. McCullagh (1987, p. 214) mostra para os
MLGs que a distribuição de probabilidade de
d∗ (Yi ; µi ) + ρ3i /6
p
1 + (14ρ23i − 9ρ4i )/36

é aproximadamente N(0, 1), em que ρ3i e ρ4i são os coeficientes de assi-


metria e curtose de ∂L(ηi )/∂ηi , respectivamente, e d∗ (Yi ; µi ) é o i-ésimo
componente do desvio D∗ (y; µ̂) avaliado no parâmetro verdadeiro. Pode-
se mostrar usando resultados de Cox e Snell (1968) que E{d∗ (Yi ; µi )} = 0 e
Var{d∗ (Yi ; µi )} = 1 − hii , em que os termos negligenciados são de O(n−1 ).
p
Esses resultados reforçam o uso da padronização 1 − ĥii para d∗ (yi ; µ̂i ).
Um quarto resı́duo foi definido por Williams (1987) e pode ser interpre-
tado como uma média ponderada entre tSi e tDi ,
1
tGi = sinal(yi − µ̂i ){(1 − ĥii )t2Di + ĥii t2Si } 2 .

Williams (1987) verificou através de simulações e para alguns MLGs que


tGi tem esperança ligeiramente diferente de zero, variância excedendo um,
assimetria desprezı́vel e alguma curtose.

O R solta os resı́duos di = d(yi ; µ̂i ) e r̂Pi sem o termo φ. Precisa,
para padronizá-los, calcular os correspondentes ĥ0ii s bem como extrair φ̂ nos
casos em que φ 6= 1. Inicialmente, é ilustrado como calcular ĥii . Supor um
modelo com duas covariáveis e dois fatores e que os resultados do ajuste são
armazenados em fit.model. A matriz X é obtida com um dos comandos
abaixo
X = model.matrix( ∼ cov1 + cov2 + A + B)
X = model.matrix(fit.model).
Em V pode-se armazenar a matriz V̂. Os elementos da diagonal principal de
V devem ser obtidos dos valores ajustados do modelo, os quais por sua vez

68
são extraı́dos através do comando fitted(fit.model). Como exemplo, a
matriz com as funções de variância estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
Em particular, a matriz Ŵ também depende dos valores ajustados, no en-
tanto, como é a matriz de pesos, pode ser obtida diretamente fazendo
w = fit.model$weights
W = diag(w).
Assim, uma vez obtida a matriz Ŵ pode-se obter os elementos ĥii com
os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa φ̂ (o R solta φ̂−1 ), os componentes do
desvio e os resı́duos studentizados são obtidos da seguinte maneira:
rd = resid(fit.model, type= ‘‘deviance’’)
td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= ‘‘pearson’’)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligações canônicas W e V coincidem.
Por fim, tem-se o resı́duos quantı́lico (Dunn e Smyth, 1996) que é definido
para variáveis contı́nuas por

rqi = Φ−1 {F (yi ; θ̂)},

em que Φ(·) e F (yi ; θ) denotam, respectivamente, as funções de distribuição


acumuladas da N (0, 1) e da distribuição postulada para a resposta, i =

69
1, . . . , n. Para n grande os resı́duos rq1 , . . . , rqn são independentes e igual-
mente distribuı́dos N (0, 1). Assim, o gráfico entre os quantis amostrais
rq(1) ≤ · · · ≤ rq(n) contra os quantis teóricos da normal padrão é recomen-
dado para avaliar afastamentos da distribuição postulada para a resposta
bem como a presença de observações aberrantes. Esse resı́duo é estendido
para o caso discreto, contudo o resı́duo não é único, e a sugestão é trabalhar
com resı́duos aleatorizados.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo. Além desse
painel gráfico, o GAMLSS também disponibiliza o worm plot que é o gráfico
entre rq(i) − E(Z(i) ) contra E(Z(i) ). Esse gráfico pode ser interpretado como
um refinamento do gráfico normal de probabilidades, podendo ser acionado
para variáveis contı́nuas através do comando
wp(ajuste).
No caso de variáveis discretas, a sugestão é gerar m gráficos, que são avaliados
conjuntamente. Por exemplo para m = 8 o gráfico pode ser realizado através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).

A construção de bandas emprı́ricas de confiança para o gráfico normal de


probabilidades com o resı́duo quantı́lico seria recomendada no caso de amos-
tras pequenas e moderadas, uma vez que os resı́duos são correlacionados.
Embora o resı́duo quantı́lico tenha uma distribuição assintótica conhecida,
sob o modelo postulado, tendo portanto aplicação direta em modelagem de
regressão, o resı́duo componente do desvio pode continuar sendo aplicado

70
de forma complementar por tratar-se de um resı́duo condicional. Ou seja,
tem-se o componente do desvio para a localização fixando a dispersão, e de
forma similar pode-se ter o resı́duo componente do desvio para a dispersão
fixando a localização. Isso se estende para outros modelos de regressão em
que há mais de dois tipos de parâmetros para serem modelados.

1.10.3 Influência
Supondo φ conhecido, o afastamento pela verossimilhança quando elimina-se
a i-ésima observação é denotado por

LDi = 2{L(β̂) − L(β̂ (i) )},

sendo portanto uma medida que verifica a influência da retirada da i-ésima


observação em β̂. Não sendo possı́vel obter uma forma analı́tica para LDi , é
usual utilizar a segunda aproximação por série de Taylor de L(β) em torno
de β̂, obtendo-se L(β) ∼
= L(β̂) + 1 (β − β̂)> {−L̈ββ (β̂)}(β − β̂). Essa expansão
2
leva ao seguinte resultado:

LDi ∼
= (β − β̂)> {−L̈ββ (β̂)}(β − β̂).

Substituindo −L̈ββ (β̂) pelo correspondente valor esperado e β por β̂ (i) , obtém-
se
LDi ∼
= φ(β̂ − β̂ (i) )> (X> ŴX)(β̂ − β̂ (i) ). (1.17)

Assim, tem-se uma boa aproximação para LDi quando L(β) for aproxima-
damente quadrática em torno de β̂.
Como em geral não é possı́vel obter uma forma fechada para β̂ (i) , a apro-
ximação de um passo tem sido utilizada (ver, por exemplo, Cook e Weisberg,
1982), que consiste em tomar a primeira iteração do processo iterativo pelo
método escore de Fisher quando o mesmo é iniciado em β̂.

71
Essa aproximação, introduzida por Pregibon (1981), é dada por
1 1 1
β̂ (i) = β̂ + (X> ∆ŴX)−1 X> ∆Ŵ 2 V̂− 2 (y − µ̂),

em que ∆ = diag{δ1 , . . . , δn } com δi = 0 e δj = 1 para j 6= i. Após algumas


manipulações algébricas obtém-se
p
1 r̂Pi ω̂i φ−1
β̂ (i) = β̂ − (X> ŴX)−1 xi (1.18)
(1 − ĥii )
e, finalmente, substituindo a expressão acima em (1.17) tem-se que
( )

LDi ∼
ii
= t2Si .
(1 − ĥii )
A distância de Cook aproximada fica facilmente obtida com o comando
LD = h*(ts2 )/(1 - h).
A validade da aproximação de um passo tem sido investigada por alguns
pesquisadores. A constatação é que a mesma em geral subestima o verdadeiro
valor de LDi , no entanto é suficiente para chamar a atenção dos pontos
influentes.

1.10.4 Influência local


A metodologia de influência local pode ser facilmente estendida para a classe
de MLGs. Em particular, considerando φ conhecido e perturbação de casos
em que L(β|δ) = ni=1 δi Li (β) com 0 ≤ δi ≤ 1, a matriz ∆ assume a forma
P

p 1
∆ = φX> Ŵ 2 D(r̂P ),
√ p
em que D(r̂P ) = diag{r̂P1 , . . . , r̂Pn } e r̂Pi = φ(yi − µ̂i )/ V̂i é o i-ésimo
resı́duo de Pearson estimado. Assim, substituindo −L̈ββ por φ(X> WX)
tem-se que a curvatura normal na direção unitária ` assume a forma

C` (β) = 2|`> D(r̂P )ĤD(r̂P )`|.

72
Se o interesse é calcular a curvatura normal na direção `i da i-ésima ob-
servação, então pode-se avaliar o gráfico de ı́ndices de Ci = 2ĥii r̂P2 i .
Em particular, o vetor `max para avaliar a influência local das observações
nas estimativas dos parâmetros é o autovetor correspondente ao maior auto-
valor da seguinte matriz n × n:

B = D(r̂P )ĤD(r̂P ).

Para obter `max , a maneira mais simples é construir a matriz B e extrair o seu
autovetor correspondente ao maior autovalor. Os comandos são os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se há interesse em detectar observações influentes na estima-
tiva de um coeficiente particular, associado por exemplo à variável explicativa
X1 , o vetor `max fica dado por
!
v r̂ v r̂
`>
max = p1 P1 , . . . , pn Pn ,
C`max C`max
em que v1 , . . . , vn são agora obtidos da regressão linear de X1 contra as
1 1
colunas de X2 com matriz de pesos V̂, isto é v = V̂ 2 X1 − V̂ 2 X2 (X>
2

V̂X2 )−1 X>


2 V̂X1 .

Para ligação não canônica os resultados continuam valendo desde que a


matriz observada seja substituı́da pela matriz de informação de Fisher.

1.10.5 Gráfico da variável adicionada


A seguir é apresentada a versão do gráfico da variável adicionada para os
MLGs. Supor um MLG com p parâmetros, β1 , . . . , βp , φ conhecido, e que

73
um coeficiente adicional γ relacionado a uma variável quantitativa Z está
sendo incluı́do no modelo. O interesse é testar H0 : γ = 0 contra H1 : γ 6= 0.
Seja η(β, γ) o preditor linear com p + 1 parâmetros, isto é

η(β, γ) = X> β + γZ.

A função escore para γ é dada por


∂L(β, γ) 1 1
Uγ = = φ 2 Z > W 2 rP ,
∂γ

em que Z = (z1 , . . . , zn )> . De resultados anteriores segue que


1 1
Var(γ̂) = φ−1 [Z> W 2 MW 2 Z]−1 ,

em que M = In − H. Logo, Var(γ̂) = φ−1 (R> WR)−1 com R = Z − XC e


C = (X> WX)−1 X> WZ.
Portanto, a estatı́stica de escore para testar H0 : γ = 0 contra H1 : γ 6= 0
fica dada por
1 1 1
ξSR = (r̂> 2 >
P Ŵ Z) /(Z Ŵ M̂Ŵ Z),
2 2 2

em que Ŵ, r̂P e M̂ são avaliados em β̂ (sob H0 ). Sob H0 , ξSR ∼ χ21 quando
n → ∞.
Wang (1985) mostra que a estatı́stica de escore acima coincide com a
estatı́stica F de uma regressão linear ponderada para testar a inclusão da
variável Z no modelo. Nessa regressão linear, o gráfico da variável adicionada
1 1
é formado pelos resı́duos r̂P e υ = φ 2 (In − Ĥ)Ŵ 2 Z. O resı́duo υ pode ser
obtido facilmente após a regressão linear ponderada (com pesos Ŵ) de Z
contra X. Tem-se que γ̂ = (υ > υ)−1 υ > r.
Logo, o gráfico de r̂P contra υ pode revelar quais observações estão con-
tribuindo mais na significância de γ. A principal dificuldade para construir o
gráfico da variável adicionada em MLGs é a obtenção do resı́duo υ, uma vez

74
que o resı́duo r̂P é obtido facilmente como visto anteriormente. Para ilustrar
o cálculo de υ num modelo particular, supor duas covariáveis e dois fatores e
que o interesse é construir o gráfico da variável adicionada correspondente à
covariável cov1. É preciso inicialmente ajustar o modelo com os dois fatores
e a outra covariável e calcular a matriz Ŵ cujos valores serão armazenados
em W. Lembrando que Ŵ é a matriz estimada de pesos. Supondo, por
exemplo, que tem-se um modelo de Poisson com ligação canônica, os passos
para construir o gráfico são os seguintes:
fit.poisson = glm( resp ∼ cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =‘‘pearson’’)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=‘‘Residuo v’’, ylab=‘‘Residuo rp’’).

1.10.6 Técnicas gráficas


As técnicas gráficas mais recomendadas para os MLGs são as seguintes: (i)
pontos aberrantes, gráfico de tDi ou rqi (ou algum outro resı́duo) contra a
ordem das observações ou gráfico normal de probabilidades de cada resı́duo
com banda de confiança; (ii) variabilidade, gráfico de tDi ou rqi contra o
valor ajustado µ̂i ; (iii) correlação, gráfico de tDi ou rqi contra o tempo ou
alguma ordem em que há suspeita de correlação entre as observações; (iv)
afastamento da distribuição postulada para a resposta, gráfico normal de pro-
babilidades para tDi (com envelope) ou rqi com o worm plot; (v) adequação

75
da ligação, gráfico de ẑi contra η̂i (uma tendência linear indica adequação
da ligação) (exceto para o caso binomial); (vi) pontos influentes, gráficos de
LDi , Ci ou |`max | contra a ordem das observações e (vii) falta de alugm termo
extra numa variável explicativa quantitativa, gráfico da variável adicionada.
Os envelopes, no caso de MLGs com distribuições diferentes da normal, são
construı́dos com os resı́duos gerados a partir do modelo ajustado (ver, por
exemplo, Williams, 1987). No Apêndice B são relacionados programas para
gerar envelopes em alguns MLGs.

1.11 Seleção de modelos


1.11.1 Modelo normal linear
Há vários procedimentos para a seleção de modelos de regressão, embora ne-
nhum deles seja consistente. Ou seja, mesmo para amostras grandes nenhum
procedimento seleciona com probabilidade um as variáveis explicativas com
coeficiente de regressão não nulo. Os procedimentos mais conhecidos são os
métodos que consideram todas as regressões possı́veis, tais como maior R2p ,
menor s2p , Cp e Press, bem como os métodos sequenciais forward, backward,
stepwise, AIC e BIC (ver, por exemplo, Montgomery et al., 2021, Cap.10),
além de outros métodos que usam computação intensiva.
Alguns desses métodos serão descritos brevemente a seguir.

Método forward
Inicia-se o método pelo modelo µ = α. Ajustar então para cada variável
explicativa o modelo

µ = α + βj xj , (j = 1, . . . , q).

76
Testar H0 : βj = 0 contra H1 : βj 6= 0. Seja P o menor nı́vel descritivo dentre
os q testes. Se P ≤ PE , a variável correspondente entra no modelo. Supor
que X1 tenho sido escolhida. Então, no passo seguinte ajusta-se os modelos

µ = α + β1 x1 + βj xj , (j = 2, . . . , q).

Testar H0 : βj = 0 contra H1 : βj 6= 0. Seja P o menor nı́vel descritivo dentre


os (q − 1) testes. Se P ≤ PE , a variável correspondente entra no modelo.
Repetir o procedimento até que ocorra P > PE .

Método backward
Iniciar o procedimento pelo modelo

µ = α + β1 x1 + · · · + βq xq .

Testar H0 : βj = 0 contra H1 : βj 6= 0 para j = 1, . . . , q. Seja P o maior


nı́vel descritivo dentre os q testes. Se P > PS , a variável correspondente sai
do modelo. Supor que X1 tenho saı́do do modelo. Então, ajustar o modelo

µ = α + β2 x2 + · · · + βq xq .

Testar H0 : βj = 0 contra H1 : βj 6= 0 para j = 2, . . . , q. Seja P o maior nı́vel


descritivo dentre os (q −1) testes. Se P > PS , então a variável correspondente
sai do modelo. Repetir o procedimento até que ocorra P ≤ PS .

Método stepwise
É uma mistura dos dois procedimentos anteriores. Iniciar o processo com o
modelo µ = α. Após duas variáveis terem sido incluı́das no modelo, verificar
se a primeira não sai do modelo. O processo continua até que nenhuma
variável seja incluı́da ou seja retirada do modelo. Geralmente adota-se 0, 15 ≤
PE , PS ≤ 0, 25. Uma sugestão seria usar PE = PS = 0, 20.

77
Método de Akaike
O método proposto por Akaike (1974) basicamente se diferencia dos procedi-
mentos anteriores por ser um processo de minimização que não envolve testes
estatı́sticos. A ideia básica é selecionar um modelo que seja parcimonioso, ou
em outras palavras, que esteja bem ajustado e tenha um número reduzido
de parâmetros. Como o logaritmo da função de verossimilhança L(β) cresce
com o aumento do número de parâmetros do modelo, uma proposta razoável
seria encontrar o modelo com menor valor para a função

AIC = −2L(β̂) + 2p,

em que p denota o número de parâmetros. No caso do modelo normal linear


pode-se mostrar que AIC fica expresso, quando σ 2 é desconhecido, na forma

AIC ∝ nlog{D(y; µ̂)/n} + 2p,


Pn
em que D(y; µ̂) = i=1 (yi − µ̂i )2 .

Método de Schwartz
O método de Schwartz (1978) consiste em maximizar L(β) também minimi-
zando o número de coeficientes da regressão, porém com uma penalização
diferente. O método é equivalente a minimizar a função abaixo

BIC = −2L(β̂) + p log(n).

Para a regressão linear múltipla tem-se que BIC ∝ nlog{D(y; µ̂)/n}+p log(n).

1.11.2 Extensão para os MLGs


Os métodos de seleção de modelos descritos na seção anterior podem ser
estendidos diretamente para os MLGs. Algumas observações, contudo, são

78
necessárias. Nos casos de regressão logı́stica e de Poisson o teste da razão
de verossimilhanças, pelo fato de ser obtido pela diferença de duas funções
desvio, aparece como o mais indicado. Para os casos de regressão normal,
normal inversa e gama o teste F, por não exigir a estimativa de máxima
verossimilança do parâmetro de dispersão, é o mais indicado. Isso não impede
que outros testes sejam utilizados.
Já o método de Akaike pode ser expresso numa forma mais simples em
função do desvio do modelo. Nesse caso, o critério consiste em encontrar o
modelo tal que a quantidade abaixo seja minimizada

AIC = D∗ (y; µ̂) + 2p,

em que D∗ (y; µ̂) denota o desvio do modelo e p o número de parâmetros. Os


métodos stepwise e de Akaike estão disponı́veis no R. O método stepwise
está disponı́vel apenas para modelos normais lineares. O comando stepwise
é definido por stepwise(Xvar, resposta), em que Xvar denota a matriz
com os valores das variáveis explicativas e resposta denota o vetor com as
respostas.
Para rodar o critério de Akaike é preciso usar antes o comando require(MASS).
Uma maneira de aplicar o critério de Akaike é partindo do maior modelo cu-
jos resultados são guardados no objeto fit.model. Daı́, então, deve-se usar
o comando stepAIC(fit.model).

1.12 Aplicações
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extraı́do do censo do IBGE de
2000, apresenta para cada unidade da federação o número médio de anos de
estudo e a renda média mensal (em reais) do chefe ou chefes do domicı́lio.

79
Esses dados estão também armazenados no arquivo censo.txt. O arquivo
pode ser lido no R através do comando
censo= read.table(‘‘censo.txt’’, header=TRUE).
Propor inicialmente um modelo normal linear simples em que Y denota a
renda e X a escolaridade. O modelo fica portanto dado por

yi = α + βxi + i ,

iid
em que i ∼ N(0, σ 2 ), para i = 1, . . . , 27. Supor que a amostra da Tabela 1.6
é um corte transversal, isto é, as informações sobre renda e escolaridade das
unidades da federação são referentes a um determinado instante do tempo.
Nesse caso, os erros são devidos à variabilidade da renda (dada a escolaridade)
nos diversos instantes do tempo. Assume-se que a relação funcional entre yi
e xi é a mesma num determinado intervalo do tempo.

Tabela 1.6
Escolaridade e renda média
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499

80
0.30
DF

0.25
1200

0.20
Medida h
Renda

0.15
800

0.10
600

0.05
400

4 5 6 7 8 0 5 10 15 20 25
Escolaridade Índice
(a) (b)

DF DF
2.5

Resíduo Studentizado
4
Distância de Cook
2.0
1.5

2
1.0

0
0.5
0.0

−2

0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)

Figura 1.5: Reta ajustada do modelo normal linear e gráficos de diagnóstico


para o exemplo sobre renda e escolaridade.

As estimativas dos parâmetros (erro padrão) são dadas por α̂ = −381, 28


(69, 40) e β̂ = 199, 82 (13, 03), indicando que o coeficiente angular da reta é
altamente significativo. Essa estimativa pode ser interpretada como o incre-
mento esperado na renda média domiciliar de uma unidade da federação se
o tempo de escolaridade médio domiciliar naquela unidade for acrescido de
um ano. A estimativa de σ é dada por s = 77, 22, enquanto que o coeficiente
de determinação foi de R2 = 0, 904. O ajuste do modelo e a exibição dos
resultados podem ser obtidos com os comandos abaixo
attach(censo)
fit1.censo = lm(renda ∼ escolar)

81
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo num arquivo do tipo
data.frame, através dos comandos
censo = data.frame(censo)
fit1.censo = lm(renda ∼ escolar, data=censo)
summary(fit1.censo).

0.30
DF

0.25
1200

0.20
Medida h
Renda

0.15
800

0.10
600

0.05
400

4 5 6 7 8 400 600 800 1000 1200 1400


Escolaridade Valor Ajustado
(a) (b)
0.5

MA
2
Resíduo Studentizado
0.4
Distância de Cook

1
0.3

0
0.2

−1
0.1

−2
0.0

0 5 10 15 20 25 0 5 10 15 20 25
Índice Índice
(c) (d)

Figura 1.6: Curva ajustada do modelo gama log-linear e gráficos de di-


agnóstico para o exemplo sobre renda e escolaridade.

Pela Figura 1.5, onde são apresentados alguns gráficos de diagnóstico,


além da reta ajustada aos dados, nota-se uma forte discrepância do Distrito
Federal que aparece como ponto de alavanca, influente e aberrante. Além
disso, nota-se pela Figura 1.5d indı́cios de variância não constante, ou seja,

82
um aumento da variabilidade com o aumento da escolaridade. Isso pode
também ser notado na Figura 1.5a. Assim, pode-se propor um modelo alter-
nativo, por exemplo, com efeitos multiplicativos conforme dado abaixo

µi = eα+βxi ei ,

iid
em que i ∼ G(1, φ), i = 1, . . . , 27. Pode-se ajustar esse modelo no R através
dos comandos
fit2.censo = glm(renda ∼ escolar, family=Gamma(link=log))
summary(fit1.censo).

Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observações mais discrepantes são excluı́das do modelo gama.
Estimativa Com todos Excluı́do Excluı́do Excluı́dos
os pontos DF MA DF e MA
α̂ 4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
β̂ 0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
φ̂ 192(52) 188(52) 223(62) 223(63)

Na Figura 1.6 tem-se o ajuste do modelo gama aos dados, bem como
alguns gráficos de diagnóstico que destacam DF como ponto de alavanca e
MA como ponto influente, enquanto na Tabela 1.7 tem-se uma análise confir-
matória em que verifica-se poucas variações nas estimativas dos parâmetros
com a eliminação dessas unidades da federação. Finalmente, na Figura 1.7
tem-se o gráfico normal de probabilidades para o modelo normal linear e
para o modelo gama log-linear. Nota-se uma melhor acomodação e distri-
buição dos pontos dentro do envelope gerado no segundo modelo. Pelo valor
da estimativa do parâmetro de dispersão conclui-se que o modelo gama log-
linear aproxima-se bem de um modelo normal de média µ e variância φ−1 µ2 .

83
Portanto, o modelo final ajustado fica dado por

ŷ = e4,98+0,28x .

Desse modelo pode-se extrair a seguinte intrepretação: eβ̂ = e0,28 = 1, 32(32%)


é o aumento relativo esperado para a renda aumentando-se em 1 ano a esco-
laridade média.

3
2
4

1
Componente do Desvio
Resíduo Studentizado
2

0
0

−1
−2
−2

−3

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 1.7: Gráfico normal de probabilidades para os modelos ajustados


normal linear (esquerda) e gama log-linear (direita) aos dados sobre renda e
escolaridade.

1.12.2 Processo infeccioso pulmonar


A seguir serão utilizados os dados referentes a um estudo de caso-controle rea-
lizado no Setor de Anatomia e Patologia do Hospital Heliópolis em São Paulo,
no perı́odo de 1970 a 1982 (Paula e Tuder, 1986) (ver arquivo canc3.txt).
Um total de 175 pacientes com processo infecioso pulmonar atendido no hos-
pital no perı́odo acima foi classificado segundo as seguintes variáveis: Y,

84
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da célula histiócitos-linfócitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da célula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). O arquivo
pode ser lido no R através do comando
canc3 = read.table(‘‘canc3.txt’’, header=TRUE).
Deve-se informar o sistema que as variáveis SEXO, HL e FF são qualitativas,
isto é, deve-se transformá-las em fatores. Os comandos são os seguintes:
attach(canc3)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que é optativo, cria uma variável binária
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variáveis binárias para os
nı́veis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformar todo fator
de k nı́veis em k − 1 variáveis binárias, denominado casela de referência, é
padrão em MLGs, porém pode não ser a modelagem mais conveniente em
outras situações de interesse prático. A casela de referência seria, nesses dois
casos, o nı́vel ausente.
Considere, como exemplo, a aplicação do modelo logı́stico com resposta
Bernoulli apenas com os efeitos principais, em que

Pr{Y = 1 | η} = {1 + exp(−η)}−1 ,

85
P4 P4
com η = β1 + β2 IDADE + β3 SEXO + i=1 β4i HLi + i=1 β5i FFi , SEXO, HLi
e FFi sendo variáveis binárias correspondentes aos nı́veis de SEXO, HL e FF,
respectivamente. Assume-se que β41 = β51 = 0. Uma observação importante
é que devido ao fato da amostragem ter sido retrospectiva, o uso do modelo
acima para fazer previsões somente é válido se a estimativa do intercepto
(β1 ) ser corrigida (ver, por exemplo, McCullagh e Nelder, 1989, p. 113). Isso
será discutido na Seção 3.6.6. Para ajustar o modelo acima, os passos são
dados abaixo
fit1.canc3 = glm( tipo ∼ sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).

Tabela 1.8
Estimativas dos parâmetros referentes ao modelo logı́stico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito Estimativa Efeito Estimativa Efeito Estimativa
Constante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)
Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)
Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)

As estimativas dos parâmetros (erro padrão aproximado) são apresenta-


das na Tabela 1.8. O desvio do modelo foi de D(y; µ̂) = 157, 40 (166 graus
de liberdade), indicando um ajuste adequado. Como pode-se observar, há
indı́cios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Nota-se também que a chance
de processo maligno aumenta significativamente com a idade e há indicações
de que tanto para a célula FF quanto para HL a chance de processo maligno
diminui à medida que aumenta a intensidade da célula. Esse exemplo será
reanalizado no Capı́tulo 3.

86
1.12.3 Sobrevivência de bactérias
Na Tabela 1.9, extraı́da de Montgomery et al.(2001, pgs. 201-202), tem-se o
número de bactérias sobreviventes em amostras de um produto alimentı́cio
segundo o tempo (em minutos) de exposição do produto a uma temperatura
de 300o F . Na Figura 1.8a é apresentado o gráfico do número de bactérias so-
breviventes contra o tempo de exposição. Nota-se uma tendência decrescente
e quadrática.
Supondo que as amostras do produto enlatado submetidos à temperatura
ind
de 300o F têm o mesmo tamanho, pode-se pensar, em princı́pio, que Yi ∼
P(µi ), com Yi denotando o número de bactérias sobreviventes na i-ésima
amostra i = 1, . . . , 12. Para µi grande é razoável supor que Yi se aproxima
de uma distribuição normal (ver Seção 4.2.1). Assim, tem-se como proposta
inicial, os seguintes modelos:

yi = α + βtempoi + i e

yi = α + βtempoi + γtempo2i + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , 12.

Tabela 1.9
Número de bactérias sobreviventes e tempo de exposição.
Número 175 108 95 82 71 50 49 31 28 17 16 11
Tempo 1 2 3 4 5 6 7 8 9 10 11 12

As estimativas dos parâmetros são apresentadas na Tabela 1.10. Pelos


gráficos de envelope (Figuras 1.8b e 1.8c) nota-se indı́cios de que a distri-
buição dos erros pode estar incorrretamente especificada. A maioria dos
resı́duos assume valor negativo. Nota-se a presença de um ponto aberrante,
observação #1.

87
8

8
150

6
Resíduo Studentizado

Resíduo Studentizado
4
Sobreviventes

4
100

2
0
50

0
−2

−2
2 4 6 8 10 12 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Tempo Quantil da N(0,1) Quantil da N(0,1)
(a) (b) (c)

3
6

2
4

Componente do Desvio
Resíduo Studentizado

Resíduo Studentizado
2

1
2

0
0

−1
0

−2
−2
−2

−3
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Quantil da N(0,1) Quantil da N(0,1) Quantil da N(0,1)
(d) (e) (f)

Figura 1.8: Diagrama de dispersão e gráficos normais de probabilidade refe-


rentes aos modelos ajustados aos dados sobre sobrevivência de bactérias.

Uma outra tentativa seria aplicar à resposta a transformação raiz qua-


drada que é conhecida no caso da Poisson como estabilizadora da variância,
além de manter a aproximação normal (ver Seção 4.2.1). Logo, pode-se pen-
sar em adotar os seguintes modelos alternativos:

yi = α + βtempoi + i e

yi = α + βtempoi + γtempo2i + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , 12. As estimativas dos parâmetros são
apresentadas na Tabela 1.10.

88
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivência
√ de bactérias.√
Parâmetro Linear-Y Quadrático-Y Linear- Y Quadrático- Y
α 142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51)
β -12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18)
γ 1,29(0,31) 0,04(0,01)
2
R 86,9% 95,5% 96,1% 97,8%
Nota-se uma melhora na qualidade do ajuste, particularmente no segundo
caso. Porém, ainda há indı́cios pelos gráficos de envelope (Figuras 1.8d e 1.8e)
de violação nas suposições para os modelos, além da presença da observação
#1 como ponto aberrante. Finalmente, propôem-se um modelo log-linear de
Poisson, em que
ind
• Yi |tempoi ∼ P(µi )

• log(µi ) = α + βtempoi ,

i = 1, . . . , 12. As estimativas dos parâmetros são apresentadas na Tabela


1.11. Pelo gráfico de envelope (Figura 1.8f) não há evidências de que o modelo
esteja mal ajustado. Nota-se também que a observação #1 foi acomodada
dentro do envelope gerado. Parece, portanto, que esse último modelo é o que
melhor se ajusta aos dados dentre os modelos propostos.

Tabela 1.11
Estimativas dos parâmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivência de bactérias.
Parâmetro Estimativa E/E.Padrão
α 5,30 88,34
β -0,23 -23,00
Desvio 8,42 (10 g.l.)

89
O modelo Poisson log-linear ajustado aos dados fica então dado por

µ̂(x) = e5,30−0,23x ,

em que x denota o tempo de exposição. Logo, diminuindo de uma unidade


o tempo de exposição a variação no valor esperado fica dada por
µ̂(x − 1)
= e0,23 = 1, 259.
µ̂(x)

Ou seja, o número esperado de sobreviventes aumenta 25,9%.

1.12.4 Estudo seriado com ratos


O exemplo a seguir provém de um estudo seriado com um tipo de tumor
maligno para avaliar a influência da série (passagem do tumor) na morte
(caquexia) de um certo tipo de rato (Paula et al., 1992). Os dados estão
descritos no arquivo canc4.txt. Um total de 204 animais teve o tumor
inoculado num determinado momento da série. Para cada animal, além do
grupo de passagem, foram observadas as variáveis presença de massa tumoral,
caquexia e o tempo de observação (em dias). Esses dados são resumidos na
Tabela 1.12.

Tabela 1.12
Número de ratos caquéticos (O) e ratos dias de
observação (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa Grupo de passagem
tumoral P0-P6 P7-P18 P19-P28
Sim O 6 13 8
R-D 2597 3105 2786

Não O 12 3 1
R-D 1613 411 232

90
Para ler os dados diretamente no R deve-se usar o comando
canc4a= scan(what=list(obs=0,rd=0))
1: 6 2597 13 3105 8 2786
2: 12 1613 3 411 1 232.
Agora, é necessário introduzir os fatores grupo de passagem e massa tumoral
fnames = list(gp=c(‘‘P0-P6’’, ‘‘P7-P18’’, ‘‘P19-P28’’),
mt=c(‘‘Sim’’, ‘‘N~
ao’’)).
Para informar o sistema a ordem em que os dados foram lidos, pode-se usar
o comando fac.design. Em seguida, é feito o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a)
rato.df = data.frame(obs,rd,rato.design).
As informações completas sobre os dados estão armazenadas no arquivo
rato.df. Para uma verificação basta usar o comando
rato.df.
Pode-se agora (opcionalmente) criar uma matriz modelo no padrão dos MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Supor que Oij , o número de ratos caquéticos no nı́vel i de massa tumoral
e grupo de passagem j, segue uma distribuição de Poisson de média λij tij ,
i = 1, 2 e j = 1, 2, 3. Tem-se que λij denota a taxa de caquexia (número
médio de mortes por unidade de tempo) e tij o total de ratos-dias no nı́vel
(i, j). Considere inicialmente o seguinte modelo de Poisson:
ind
• Oij ∼ P(λij tij )

• log(λij ) = α + βi + γj ,

91
em que i = 1, 2 e j = 1, 2, 3, β1 = 0 e γ1 = 0. A suposição do compo-
nente aleatório equivale à suposição de tempos exponenciais, como será visto
na Seção 4.2.2. Com essa notação, α será o efeito correspondente à classe
P0 − P6 com desenvolvimento de massa, β2 a diferença entre os efeitos dos
grupos sem e com o desenvolvimento de massa tumoral, γ2 a diferença entre
os efeitos das classes P7 − P18 e P0 − P6 e γ3 a diferença entre os efeitos das
classes P19 − P28 e P0 − P6. Em particular, quando os valores esperados de
mortes para tij são expressos na forma de um modelo log-linear, tem-se um
offset dado por log(tij ). Ou seja, o modelo que será ajustado no R tem parte
sistemática dada por log(µij ) = log(tij ) + α + βi + γj . Logo, é necessário
definir o offset no ajuste.
Os passos são os seguintes:
logt0 = log(rd)
canc4a.fit = glm(obs ∼ gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parâmetros (erro padrão aproximado) são dadas por
α̂ = −5, 875 (0, 312), γ̂2 = 0, 334 (0, 365), γ̂3 = −0, 040 (0, 434) e β̂2 =
0, 860 (0, 343). O desvio do modelo é dado por D(y; µ̂) = 0, 84 com 2 graus
de liberdade. Pelas estimativas acima nota-se que o fator grupo de passagem
não é significativo. O ajuste do modelo sem esse efeito levou às estimativas
α̂ = −5, 750 (0, 192) e β̂2 = 0, 802 (0, 315) com um desvio de D(y; µ̂) = 1, 99
(4 graus de liberdade). Logo, o teste da razão de verossimilhanças para testar
H0 : γ2 = γ3 = 0 vale 1, 99 − 0, 84 = 1, 15 com 2 graus de liberdade, o que
implica em não rejeitar a hipótese H0 .
Assim, o modelo adotado inclui somente o efeito massa tumoral. Tem-se
que β2 é significativamente diferente de zero. A estimativa β̂2 = 0, 802 indica

92
que os ratos que desenvolvem massa tumoral (tumor maligno) sobrevivem
mais do que os ratos que não desenvolvem o tumor! Esse resultado pode
parecer em princı́pio contraditório, todavia deve-se lembrar que todos os
ratos tiveram tumor inoculado mas nem todos desenvolveram massa tumoral.
Assim, pode ser razoável supor que aqueles ratos que não desenvolveram
massa tumoral teriam resistido muito para que a mesma não se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo médio de vida menor do que o tempo médio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliar a suposição de distribuição de Pois-
son para Oij com média λij tij é através da inclusão do termo log(tij ) como
covariável, em vez de offset. Isto é, supor a parte sistemática

log(µij ) = α + δ log(tij ) + βi + γj .

Assim, pode-se testar H0 : δ = 1 contra H1 : δ 6= 1. A não rejeição de


H0 indica que a suposição de distribuição de Poisson para Oij parece ser
razoável. No exemplo acima obtém-se δ̂ = 1, 390(0, 439), com valor-z dado
por z = (1, 390 − 1)/0, 439 = 0, 89, levando portanto à não rejeição de H0 .

1.12.5 Consumo de combustı́vel


No arquivo reg2.txt(Gray, 1989) são apresentadas as siglas dos 48 esta-
dos norte-americanos contı́guos juntamente com as seguintes variáveis: taxa
(taxa do combustı́vel no estado em USD), licença (proporção de motoristas
licenciados), renda (renda per capita em USD), estradas (ajuda federal para
as estradas em mil USD) e consumo (consumo de combustı́vel por habitante).
O interesse nesse estudo é tentar explicar o consumo médio de combustı́vel
pelas variáveis taxa, licença, renda e estradas. O arquivo pode ser lido no R
através do comando

93
reg2 = read.table(‘‘reg2.txt’’, header=TRUE).
O modelo proposto é o seguinte:

yi = α + β1 taxai + β2 licencai + β3 rendai + β4 estradasi + i ,

em que yi denota o consumo anual de combustı́vel (por habitante) no i-ésimo


iid
estado, enquanto i ∼ N(0, σ 2 ), i = 1, . . . , 48.
O modelo acima é ajustado no R com os resultados sendo colocados no
objeto fit1.reg2. Daı́ então é aplicado o método de Akaike para selecionar
o submodelo com menor AIC. Para tal, aplica-se os comandos
require(MASS)
stepAIC(fit1.reg2).
A variável estradas foi eliminada. Os resultados do modelo selecionado são
apresentados na Tabela 1.13. Portanto, pode-se dizer que para cada aumento
de uma unidade na renda, o consumo médio de combustı́vel diminui 0,07 uni-
dades. Para cada aumento de 1% na porcentagem de motoristas licenciados
o consumo médio de combustı́vel aumenta 13,75 unidades, e para cada au-
mento de 1% no imposto do combustı́vel o consumo médio diminui 29,48
unidades.

Tabela 1.13
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustı́vel.
Efeito Estimativa E/E.Padrão
Constante 307,33 1,96
Taxa -29,48 -2,78
Licença 1374,77 7,48
Renda -0,07 -4,00
R2 0,675
s 8,12

94
CT NY
WY
TX
0.20

0.3
SD NV

Distância de Cook
0.15
Medida h

0.2
0.10

0.1
0.05

0.0
0 10 20 30 40 0 10 20 30 40
Índice Índice
(a) (b)

WY WY
4

4
Resíduo Studentizado

Resíduo Studentizado
3

3
2

2
1

1
0

0
−1

−1

0 10 20 30 40 400 500 600 700


Índice Valor Ajustado
(c) (d)

Figura 1.9: Gráficos de diagnóstico referentes ao modelo normal linear ajus-


tado aos dados sobre consumo de combustı́vel.

Na Figura 1.9 tem-se alguns gráficos de diagnóstico e como pode-se notar


há um forte destaque para o estado de WY, que aparece como influente (Figura
1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY, SD, TX
e NV (Figura 1.9a) aparecem como remotos no subespaço gerado pelas colunas
da matrix X, embora não sejam confirmados como influentes. Não há indı́cios
pela Figura 1.9d de variância não constante.
Pelo gráfico normal de probabilidades descrito na Figura 1.10 (esquerda)
não há indı́cios fortes de afastamentos da suposição de normalidade para os

95
erros, apesar da influência no gráfico do estado de WY. O gráfico sem esse
estado apresentado na Figura 1.10 (direita) confirma esse suposição.

3
4

2
1
2
Resíduo Studentizado

Resíduo Studentizado
0
0

−1
−2
−2

−3
−4

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 1.10: Gráfico normal de probabilidades com todos os pontos (es-


querda) e sem o estado de WY (direita), referentes ao modelo normal linear
ajustado aos dados sobre consumo de combustı́vel.

Analisando os dados referentes ao estado de WY nota-se que o mesmo tem


uma taxa de 7% (abaixo da média de 7,67%), uma renda per capita anual de
USD 4345 (ligeiramente acima da média de USD 4241,83), uma proporção
de motoristas licenciados de 0,672 (acima da média de 0,570), porém um
consumo médio de combustı́vel muito alto 968 (média nacional de 576,77).
Talvez as longas distâncias do estado tenham obrigado os motoristas a um
consumo alto de combustı́vel. A eliminação desse estado muda substacial-
mente algumas estimativas, embora não mude a inferência. A estimativa da
variável licença cai 13,2%, a estimativa do intercepto aumenta 27,8%, o s2
cai 17,1% e o R2 aumenta 4,1%. As demais estimativas não sofrem grandes
variações.
Assim, a inclusão de alguma variável que leve em conta a densidade de-

96
mográfica de cada estado, conforme sugerido por Gray (1989), poderia expli-
car melhor o estado de WY pelo modelo proposto. Uma outra possibilidade
seria a inclusão no modelo de uma variável binária referente a esse estado.

1.12.6 Salário de executivos


Considere os dados descritos no arquivo salarios.txt sobre o salário anual
(em mil USD) de uma amostra aleatória de 220 executivos (145 homens e 75
mulheres)(Foster et a., 1998, pgs.180-188). O salário será relacionado com
as seguintes variáveis explicativas: sexo (1: masculino; 0: feminino), anos de
experiência no cargo e posição na empresa (varia de 1 a 9), quanto maior o
valor mais alta a posição. O arquivo pode ser lido no R através do comando
salarios = read.table(‘‘salarios.txt’’, header=TRUE).
A seguir é apresentada a comparação dos salários médios segundo o sexo.
Sexo Amostra Média E.Padrão
Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferença Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padrão 1,77
O valor-P indica diferença ao nı́vel de 5%. Ou seja, ignorando as de-
mais variáveis nota-se que os executivos ganham em média mais do que as
executivas.
Pela Figura 1.11 nota-se indı́cios de aumento do salário com o aumento
da posição e com o aumento da experiência para ambos os sexos, sugerindo
inicialmente um modelo linear do tipo

yi = α + β1 sexoi + β2 experi + β3 posici + i ,


iid
em que yi denota o salário do i-ésimo executivo da amostra e i ∼ N(0, σ 2 ),
i = 1, . . . , 220.

97
Tabela 1.14
Estimativas dos parâmetros referentes
ao modelo normal linear ajustado aos
dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 115,262 82,25
Experiência -0,472 -4,17
Sexo -2,201 -2,04
Posição 6,710 21,46
R2 0,71
s 6,77
170

170
160
Salário Mulheres
Salário Homens
150

150
140
130

130
120
110

5 10 15 20 25 5 10 15 20
Experiência Homens Experiência Mulheres
170

170
160
Salário Mulheres
Salário Homens
150

150
140
130

130
120
110

2 3 4 5 6 7 8 9 2 4 6 8
Posição Homens Posição Mulheres

Figura 1.11: Gráficos de dispersão entre salário e as variáveis explicativas


experiência e posição.

98
Tabela 1.15
Testes F para avaliar a inclusão
de cada interação de 1a ordem no
modelo normal linear ajustado aos
dados sobre salário de executivos.
Interação F-valor valor-P
Sexo*Exper 1,615 0,20
Sexo*Posicão 0,001 0,97
Exper*Posição 7,594 0,00

191 30
0.10

0.05

213 144
0.04
0.08

139 178 4
Distância de Cook

30
Medida h

0.03
0.06

0.02
0.04

0.01
0.02

0.00

0 50 100 150 200 0 50 100 150 200


Índice Índice
(a) (b)
2

2
Resíduo Studentizado

Resíduo Studentizado
1

1
0

0
−1

−1
−2

−2

0 50 100 150 200 120 130 140 150 160 170


Índice Valor Ajustado
(c) (d)

Figura 1.12: Gráficos de diagnóstico referentes ao modelo normal linear ajus-


tado aos dados sobre salário de executivos.
Aplicando o método AIC nenhuma variável é retirada do modelo. As esti-
mativas são apresentadas na Tabela 1.14. Nota-se portanto que na presença

99
de experiência e posição as mulheres ganham em média mais do que os ho-
mens. Quando essas variáveis são ignoradas, ocorre o contrário, como foi
visto na análise descritiva. Experiência e posição são variáveis importantes
e devem também permanecer no modelo.
Verifica-se a seguir se é possı́vel incluir alguma interação de 1a ordem.
Essas interações são de interesse e também interpretáveis. Por exemplo,
presença de interação entre os fatores sexo e experiência significa que a dife-
rença entre os salários médios de executivos e executivas não é a mesma
à medida que varia o tempo de experiência. Na Tabela 1.15 são apre-
sentados os valores da estatı́stica F bem como o valor-P correspondente
para testar a ausência das interações sexo*experiência, sexo*posição e ex-
periência*posição, respectivamente, dado que estão no modelo constante +
sexo + experiência + posição. Portanto, será incluı́da no modelo apenas
a interação experi^ ao. As estimativas do modelo final com a
encia*posiç~
interação experiência*posição são apresentadas na Tabela 1.16.
Na Figura 1.12 são apresentados os gráficos de diagnóstico. Algumas ob-
servações aparecem como pontos de alavanca (Figura 1.12a), três observações
são destacadas como possivelmente influentes (Figura 1.12b) e não há indı́cios
de pontos aberrantes e variância não constante (Figuras 1.12c e 1.12d). Reti-
rando as observações mais influentes, #4 e #30, nota-se variações despropor-
cionais em algumas estimativas, embora não ocorram mudanças inferencias.
Esses pontos causam variações, respectivamente, de -14% e 11% na estima-
tiva do coeficiente de sexo. A observação #4 é uma executiva com salário
anual de USD 139 mil, posição 7 e 13,9 anos de experiência (salário rela-
tivamente baixo para essa posição e experiência) e a observação #30 é de
um executivo com salário anual de USD 110 mil, posição 2 e 2,4 anos de
experiência (menor salário entre os executivos).

100
Tabela 1.16
Estimativas dos parâmetros referentes
ao modelo normal linear final ajustado
aos dados sobre salário de executivos.
Efeito Estimativa E/E.Padrão
Constante 108,042 36,48
Experiência 0,336 1,07
Sexo -2,811 -2,58
Posição 8,096 13,73
Exper*Posição -0,135 -2,75
2
R 0,72
s 6,67
2
Resíduo Studentizado
0
−2
−4

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 1.13: Gráfico normal de probabilidades referente ao modelo normal


linear final ajustado aos dados sobre salário de executivos.

O modelo final ajustado é portanto dado por

ŷ = 108, 042 + 0, 336 × exper − 2, 811 × sexo


+8, 096 × posic − 0, 135 × posic × exper.

101
Por exemplo, desse modelo, qual o salário previsto para executivos com
5 anos de experiência e posição 4?

• Executiva: USD 139,406 mil

• Executivo: USD 136,595 mil.

O modelo ajustado para o grupo de mulheres é dado por

ŷ = 108, 042 + 8, 096 × posic + (0, 336 − 0, 135 × posic) × exper.

Examinando a equação acima nota-se que as executivas com posição alta e


muita experiência tendem a ganhar menos do que executivas com posição
alta e menos experiência. Isso quer dizer que aquelas executivas que perma-
neceram menos tempo no cargo tendem a ganhar mais do que aquelas que
ficarem mais tempo no cargo. Mesmo resultado para os homens.
Nota-se neste exemplo a importância da interação na interpretação dos
resultados. Ignorando as variáveis posição e experiência tem-se que o salário
médio dos executivos é significativamente maior do que o salário médio
das executivas. Porém, quando essas variáveis entram no modelo ocorre
o contrário, para uma mesma posição e mesma experiência as executivas
ganham em média mais. Pela Figura 1.13 nota-se que não há indı́cios de
afastamentos da suposição de normalidade para os erros.

1.13 Exercı́cios
1. Se Y pertence à famı́lia exponencial de distribuições, então a função
densidade ou função de probabilidades de Y pode ser expressa na forma

f (y; θ, φ) = exp[φ{yθ − b(θ)} + c(y; φ)],

102
em que b(·) e c(·; ·) são funções diferenciáveis. Supondo φ conhecido
seja L(θ) = log{f (y; θ, φ)} o logaritmo da função de verossimilhança.
Se L(θ) é pelo menos duas vezes diferenciável em θ mostre que
   2  ( 2 )
∂L(θ) ∂ L(θ) ∂L(θ)
E =0 e E = −E .
∂θ ∂θ2 ∂θ

2. Seja Y ∼ ES(µ, φ) (distribuição estável) cuja função densidade de pro-


babilidade é dada por

f (y; θ, φ) = a(y, φ)exp[φ{θ(y + 1) − θ log(θ)}],

em que θ > 0, −∞ < y < ∞, φ−1 > 0 é o parâmetro de dispersão


e a(·, ·) é uma função normalizadora. Mostre que essa distribuição
pertence à famı́lia exponencial de distribuições. Encontre a função de
variância e os componentes da função desvio d∗2 (yi ; µ̂i ).
ind
3. Supor agora que Yij ∼ ES(µi , φ), para i = 1, 2 e j = 1, . . . , m, em que
µ1 = η1 = α − ∆ e µ2 = η2 = α + ∆. Mostre que µ̂1 = ȳ1 e µ̂2 = ȳ2 .
Como ficam as matrizes X e W? Obter as variâncias e covariância
ˆ e Cov(α̂, ∆).
assintóticas Var(α̂), Var(∆) ˆ Mostre que a estatı́stica do
teste de Wald para testar H0 : α − ∆ = 0 contra H1 : α − ∆ 6= 0 pode
ser expressa na forma
ξW = mφ̂ȳ12 eȳ1 .

Qual a distribuição nula assintótica da estatı́stica do teste?

4. Seja Y o número de ensaios independentes até a ocorrência do r-ésimo


sucesso, em que π é a probabilidade de sucesso em cada ensaio. Denote
Y ∼ Pascal(r, π) (distribuição de Pascal) cuja função de probabilidade
é dada por  
y−1 r
f (y; r, π) = π (1 − π)(y−r) ,
r−1

103
y
para y = r, r +1, . . . e 0 < π < 1. Mostre que Y ∗ = r
pertence à famı́lia
exponencial de distribuições. Encontre a função de variância V (µ), em
ind
que µ = E(Y ∗ ). Supor agora que Yi ∼ Pascal(r, πi ) para i = 1, . . . , n.
Obtenha os componentes d∗2 (yi ; π̂i ) da função desvio.

5. Considere a seguinte função densidade de probabilidade:


φa(y, φ) 1
f (y; θ, φ) = 1 exp[φ{yθ + (1 − θ2 ) 2 }],
π(1 + y 2 ) 2

em que 0 < θ < 1, −∞ < y < ∞, φ−1 > 0 é o parâmetro de dispersão


e a(·, ·) é uma função normalizadora. Mostre que essa distribuição per-
tence à famı́lia exponencial. Encontre a função de variância. Obtenha
a função desvio supondo uma amostra de n variáveis aleatórias inde-
pendentes de médias µi e parâmetro de dispersão φ−1 , i = 1, . . . , n.
Obter R2 .

6. Mostre que a distribuição logarı́tmica, com função de probabilidade

f (y; ρ) = ρy /{−ylog(1 − ρ)},

em que y = 1, 2, . . . e 0 < ρ < 1, pertence à famı́lia exponencial.


Calcule µ e V (µ). Obtenha a função desvio supondo uma amostra de
n variáveis aleatórias independentes de parâmetros ρi , i = 1, . . . , n.
Obter R2 .
ind
7. Supor que Yi ∼ LG(ρi ), para i = 1, . . . , n, em que ρi = eα /(1 + eα ) e
LG denota distribuição logarı́tmica. Mostre que a variância assintótica
de α̂ pode ser expressa na forma Var(α̂) = τ 2 (α)/neα {τ (α) − eα }, em
que τ (α) = (1 + eα )log(1 + eα ). Como fica a estatı́stica do teste de
escore para testar H0 : α = 0 contra H1 : α 6= 0? Qual a distribuição
nula assintótica da estatı́stica do teste?

104
iid
8. Supor Yi ∼ Ge(π) em que π = exp(α)/{1 + exp(α)}, para i = 1, . . . , k.
Obter a estimativa de máxima verossimilhança α
b e a respectiva variância
assintótica Var(b
α). Mostre que a estatı́stica do teste da razão de veros-
similhanças para testar H0 : α = 0 contra H1 : α 6= 0 pode ser expressa
na forma   
2
ξRV = 2n αb + ȳ log .
1 + eαb
Qual a distribuição nula assintótica da estatı́stca do teste? A função
de probabilidade de Yi é dada por f (yi ; π) = π(1 − π)(yi −1) , para yi =
1, 2, . . ., 0 < π < 1 e tem-se que E(Yi ) = 1/π = {1 + exp(α)}/exp(α).
Sugestão: expressar inicialmente o logaritmo da função de verossimi-
lhança em função de α, denote por L(α). Obter Uα e Kαα .
ind
9. Suponha o MLG em que Yi |xi ∼ FE(µi , φ) e parte sistemática dada por
g(µi ; λ) = ηi = x>
i β, com λ escalar desconhecido. Encontre as funções

escore Uβ e Uλ , as funções de informação de Fisher Kββ , Kβλ e Kλλ e


descreva o processo iterativo escore de Fisher para obter a estimativa
de máxima verossimilhança de θ = (β > , λ)> . Como iniciar o processo
iterativo? Sugestão de notação: Λ = ∂η/∂λ, em que η = (η1 , . . . , ηn )> .

10. Suponha agora o modelo de regressão normal linear simples

yi = α + βxi + i ,
iid
em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Mostre a equivalência entre as
estatı́sticas ξRV , ξW e ξSR para testar H0 : β = 0 contra H1 : β 6= 0.
Supor σ 2 conhecido.

11. Suponha duas populações normais com médias µ1 e µ2 , mesma variância,


e que amostras independentes de tamanhos n1 e n2 foram, respectiva-
mente, obtidas das duas populações. Para o modelo com parte sis-

105
temática µ1 = α + β e µ2 = α − β, mostre que a estatı́stica F para
testar H0 : β = 0 contra H1 : β 6= 0 pode ser expressa na forma
simplificada
(n − 2) n1nn2 (ȳ1 − ȳ2 )2
F= P ,
(yi − ȳ)2 − n1nn2 (ȳ1 − ȳ2 )2
em que ȳ, ȳ1 , ȳ2 são as respectivas médias amostrais.

12. Supor o modelo de regressão linear múltipla yi = x>


i β + i , em que
iid
i ∼ N(0, σ 2 ), para i = 1, . . . , n. Mostre que uma estimativa intervalar
de menor comprimento para σ 2 pode ser expressa na forma
(n − p)s2 (n − p)s2
 
; ,
a b

em que a e b são constantes tais que a2 g(n−p) (a) = b2 g(n−p) (b) com
g(n−p) (t) denotando a função densidade de probabilidade da distribuição
χ2(n−p) . Sugestão: minimizar (derivando em b) o comprimento do inter-
valo `(b) = (n − p)s2 [1/b − 1/a] e derivar em ambos os lados (em b) a
Rb
equação a g(n−p) (t)dt = (1 − α) com a = a(b).

13. Considere agora o modelo de regressão linear múltipla yi = x>


i β + i ,
iid
em que i ∼ N(0, σ 2 ), xi = (1, xi2 , . . . , xip )> e β = (β1 , . . . , βp )> , para
i = 1, . . . , n. Mostre que a estatı́stica F para testar H0 : β2 = · · · = βp
contra H1 : βj 6= 0, para pelo menos algum j = 2, . . . , p, pode ser
expressa na forma
R2 (n − p)
F= .
(p − 1)(1 − R2 )
14. Suponha um MLG com ligação canônica e parte sistemática dada por
g(µ1j ) = α1 +βxj e g(µ2j ) = α2 +βxj , j = 1, . . . , r. Interprete esse tipo
de modelo. Obtenha a matriz X correspondente. Como fica o teste de
escore para testar H0 : β = 0? O que significa testar H0 ?

106
15. Sejam Yij , i = 1, 2, 3 e j = 1, . . . , m, variáveis aleatórias mutuamente
independentes pertencentes à famı́lia exponencial tais que E(Yij ) = µij ,
Var(Yij ) = Vij φ−1 e parte sistemática dada por g(µ1j ) = α, g(µ2j ) =
α + ∆ e g(µ3j ) = α − ∆. Responda às seguintes questões:

(i) como fica a matriz modelo X?

(ii) O que significa testar H0 : ∆ = 0? Qual a distribuição nula


assintótica das estatı́sticas ξRV , ξW e ξSR ?
ˆ Var(∆).
(iii) Calcular a variância assintótica de ∆, ˆ

(iv) Mostre que a estatı́stica do teste de escore para testar H0 : ∆ = 0


contra H1 : ∆ 6= 0 fica dada por
φm(ȳ2 − ȳ3 )2
ξSR = .
2V̂0

16. Mostre (1.14) e (1.15). Use o seguinte resultado de álgebra linear:

(A−1 U)(V> A−1 )


(A + UV> )−1 = A−1 − ,
1 + V> A−1 U
em que A é uma matriz não singular e U e V são vetores coluna.
Mostre primeiro que X> ∆X = X> X − (1 − δ)xi x> > >
i e X ∆y = X y −

(1 − δ)xi yi , em que ∆ é uma matriz de 10 s com δ na i-ésima posição.

17. (Cook e Weisberg, 1982). Suponha o modelo de regressão dado em


(1.12). Mostre que γ̂ ∼ N(γ, σ 2 /(1 − hii )). Mostre também que, sob a
hipótese H1 : γ 6= 0, a estatı́stica F tem uma distribuição F1,(n−p−1) (λ),
1 γ 2 (1−hii )
em que λ = 2 σ2
é o parâmetro de não centralidade. Comente
sobre o poder desse teste para 0 ≤ hii < 1. Use o resultado: se
Y ∼ Nn (µ, σ 2 I) então y> y/σ 2 ∼ χ2n (λ), em que λ = 21 µ> µ/σ 2 .

107
18. (Pregibon, 1982). Mostre que a estatı́stica de escore para testar que o i-
ésimo ponto é aberrante num MLG com φ conhecido e parte sistemática
g(µi ) = x> 2
i β é dada por tSi , em que

φ(yi − µ̂i )
tSi = q ,
V̂i (1 − ĥii )

sendo µ̂i , V̂i e ĥii = ω̂i x> > −1


i (X ŴX) xi avaliados em β̂. Qual a dis-

tribuição nula assintótica de t2Si ? Como seria interpretado o gráfico de


t2Si contra a ordem das observações? Sugestão : chame η = Xβ + γz,
em que z é um vetor n × 1 de zeros com 1 na i-ésima posição, calcule
Var(γ̂) e Uγ e teste H0 : γ = 0 contra H1 : γ 6= 0.

19. Em dados de contagem muitas vezes o interesse está apenas nas conta-
gens positivas e nesses casos a distribuição de Poisson truncada em zero
pode ser aplicada para ajustar os dados. A função de probabilidade da
Poisson truncada é expressa na forma
e−λ λy
f (y; λ) = ,
y!(1 − e−λ )
para y = 1, 2, . . ., em que λ > 0. Mostre que Y pertence à famı́lia expo-
nencial de distribuições. Obter E(Y ), a função de variância e Var(Y ).
ind
Supor agora que Yi ∼ PoissonTruncada(λi ) e obtenha os componentes
d∗2 (yi ; λ̂i ) da função desvio, para i = 1, . . . , n.

20. No arquivo reg3.txt são descritas as seguintes variáveis referentes a


50 estados norte-americanos: (i) estado (nome do estado), (ii) pop
(população estimada em julho de 1975), (iii) percap (renda percapita
em 1974 em USD), (iv) analf (proporção de analfabetos em 1970), (v)
expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de
criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem

108
de estudantes que concluem o segundo grau 1970), (viii) ndias (número
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (área do estado em milhas
quadradas). Para ler o arquivo no R use o comando

reg3 = read.table(‘‘reg3.txt’’, header=TRUE).

O objetivo do estudo é tentar explicar a expvida média usando um mo-


delo de regressão normal linear dadas as variáveis explicativas percap,
analf, crime, estud, ndias e dens, em que dens=pop/area.

Inicialmente faça uma análise descritiva dos dados, por exemplo com
boxplot e a densidade da variável resposta e com diagramas de dis-
persão com as respectivas tendências entre a variável resposta e as
variáveis explicativas. Comente essa parte descritiva. Posteriormente,
ajuste o modelo de regressão normal linear com todas as variáveis ex-
plicativas e através do método stepwise (com PE=PS=0,15) faça uma
seleção de variáveis. Uma vez selecionado o modelo faça uma análise
de diagnóstico e apresente as interpretações dos coeficientes estimados
do modelo final.

21. (Wood, 1973). No arquivo reg4.txt estão os dados referentes à produção


de gasolina numa determinada refinaria segundo três variáveis obser-
vadas durante o processo e uma quarta variável que é uma combinação
das três primeiras. A resposta é o número de octanas do produto pro-
duzido. A octanagem é a propriedade que determina o limite máximo
que a gasolina, junto com o ar, pode ser comprimida na câmara de
combustão do veı́culo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas têm uma octanagem alta. Em gran-
des refinarias, o aumento de um octana na produção de gasolina pode

109
representar um aumento de alguns milhões de dolares no custo final da
produção. Assim, torna-se importante o controle dessa variável durante
o processo de produção. Para ler o arquivo no R use o comando

reg4 = read.table(‘‘reg4.txt’’, header=TRUE).

Fazer inicialmente uma análise dscritiva dos dados. Use o método


stepAIC para selecionar as variáveis explicativas significativas. Faça
uma análise de diagnóstico com o modelo selecionado. Comente.

22. (Ryan e Joiner, 1994). No arquivo trees.txt é apresentado um con-


junto de dados que tem sido analisado sob diversos pontos de vista por
vários pesquisadores (ver, por exemplo, Jørgensen, 1989). As variáveis
observadas são o diâmetro (d), a altura (h) e o volume (v) de uma
amostra de 31 cerejeiras numa floresta do estado da Pensilvânia, EUA.
Para ler o arquivo no R use o comando

trees = read.table(‘‘trees.txt’’, header=TRUE).

A relação entre diâmetro, altura e volume de uma árvore depende da


forma da mesma e pode-se considerar duas possibilidades
1
v = πd2 h
4
para forma cilı́ndrica e
1 2
v= πd h
12
para forma cônica. Em ambos os casos a relação entre log(v), log(d) e
log(h) é dada por log(v) = a+b log(d)+c log(h). Supor inicialmente um
modelo linear em que  ∼ N(0, σ 2 ). Faça uma análise de diagnóstico e
verifique se é possı́vel melhorar o modelo, por exemplo incluindo algum
termo quadrático.

110
23. No arquivo fuel2001.txt (Weisberg, 2014, Cap.3) são descritas as se-
guintes variáveis referentes aos 50 estados norte-americanos mais o Dis-
trito de Columbia no ano de 2001: (i) UF, unidade da federação, (ii)
Drivers, número de motoristas licenciados, (iii) FuelC, total de gaso-
lina vendida (em mil galões), (iv) Income, renda per capita em 2000
(em mil USD), (v) Miles, total de milhas em estradas federais, (vi) MPC,
milhas per capita percorridas, (vii) Pop, população ≥ 16 anos e (viii)
Tax, taxa da gasolina (em cents por galão). A fim de possibilitar uma
comparação entre as UFs duas novas variáveis são consideradas Fuel =
1000*FuelC/Pop e Dlic = 1000*Drivers/Pop, além da variável Miles
ser substituı́da por log(Miles). Para ler o arquivo no R use o comando

fuel2001 = read.table(‘‘fuel2001.txt’’, header=TRUE).

Considere como resposta a variável Fuel e como variáveis explicativas


Dlic, log(Miles), Income e Tax. Faça inicialmente uma análise descri-
tiva dos dados. Apresente a matriz de correlação entre as variáveis
e diagramas de dispersão entre cada variável explicativa e a variável
resposta. Comente. Aplique o procedimento stepAIC para selecio-
nar as variáveis explicativas. Verifique se é possı́vel incluir alguma
interação de 1a ordem. Com o modelo selecionado faça uma análise de
diagnóstico: análise de resı́duos e distância de Cook. Avalie o impacto
dos pontos destacados. Interprete os coeficientes estimados.

24. No arquivo capm.txt estão os seguintes dados (Ruppert, 2004, Cap.7):


Tbill (taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno
do mercado), retorno GE e retorno FORD de janeiro de 2002 a abril de
2003. Todos os retornos são diários e estão em porcentagem. Construir
inicialmente os diagramas de dispersão (com tendência) entre o excesso
de retorno (yrt −rf t ) de cada uma das empresas Microsoft, GE e FORD

111
e o excesso de retorno do mercado (rmt − rf t ), em que yrt denota o
retorno da ação da empresa, rmt é o retorno do mercado e rf t indica a
taxa livre de risco durante o t-ésimo perı́odo. Posteriormente, ajustar
o seguinte modelo de regressão linear simples para cada ação:

yt = α + βxt + t ,

iid
em que yt = yrt − rf t , xt = rmt − rf t e t ∼ N(0, σ 2 ). No modelo
acima, o parâmetro β é denominado risco sistemático com a seguinte
interpretação: se β = 1 o excesso de retorno é equivalente ao mercado
(volatilidade similar ao mercado), se β > 1 o excesso de retorno é
maior do que o excesso de retorno do mercado (ação mais volátil do
que o mercado), e se β < 1 o excesso de retorno é menor do que o
excesso de retorno do mercado (ação menos volátil do que o mercado).
O intercepto é incluı́do para controlar eventuais precificações incorretas,
porém em geral α = 0 não é rejeitado.

Para ler o arquivo no R use os comandos

capm = read.table("capm.txt", header=TRUE).

Para deixar o arquivo disponı́vel use o comando

attach(capm).

Por exemplo, para ajustar o excesso de retorno da Microsoft use os


comandos

ymsf = rmsf - tbill

xmerc = sp500 - tbill

ajuste.msf = lm(ymsf ∼ xmerc)

summary(ajuste.msf).

112
Verifique se os modelos estão bem ajustados através de análise de
resı́duos. Para cada ação encontre uma estimativa intervalar de 95%
para o risco sistemático e classifique o excesso de retorno em relação ao
mercado. Finalmente, construa para cada ação a banda de confiança
de 95% para prever o excesso de retorno num determinado dia, dado o
excesso de retorno do mercado.

25. No arquivo wine.txt (Montgomery et al., 2021, Tabela B.11) são des-
critas caracterı́sticas de uma amostra aleatória de 38 vinhos da marca
“Pinot Noir”. O objetivo do estudo é relacionar a qualidade do vi-
nho com as seguintes variáveis explicativas: (i) claridade, (ii) aroma,
(iii) corpo, (iv) sabor, (v) aromac, aroma do tonel de carvalho e (vi)
regiao (1: região 1, 2: região 2 e 3: região 3). Para ler o arquivo no
R use os comandos

wine = read.table("wine.txt", header=TRUE).

A variável região é categórica com três nı́veis. Assim é possı́vel através


do comando factor do R transformá-la em duas variáveis binárias:
regiao2 = 1 para região 2 e 0 caso contrário e regiao3 = 1 para
região 3 e 0 em caso contrário. A casela de referência será a região 1.
Para acionar o procedimento use o comando

regiao = factor(regiao).

Faça inicialmente uma análise descritiva dos dados com boxplot ro-
busto para a variável resposta e diagramas de dispersão entre a variável
resposta e variáveis explicativas. Selecione incialmente um submodelo
através através do procedimento stepwise usando PE=PS=0,15. Apli-
car análise de resı́duos e de sensibilidade. Interpretar os coeficientes
estimados.

113
Capı́tulo 2

Modelos para Dados Positivos


Assimétricos

2.1 Introdução
A classe de modelos para a análise de dados positivos assimétricos é bastante
ampla incluindo distribuições conhecidas para os erros, tais como gama, nor-
mal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders, dentre ou-
tras. Essas distribuições têm sido particularmente aplicadas na análise de
tempos de sobrevivência (ou duração) com forte ênfase nas áreas médica e
de engenharia (ver, por exemplo, Lawless, 2003). Todavia, dados positivos
assimétricos têm sido também comuns em outras áreas do conhecimento,
como por exemplo pesca, meteorologia, finanças, seguros e atuária (ver, por
exemplo, Jong e Heller, 2008). Um componente importante no estudo de
dados de sobrevivência é a possibilidade de incorporação nas análises de ob-
servações para as quais não foi possı́vel observar a falha (dados censurados).
Com os recentes avanços tecnológicos ocorridos principalmente na fabricação
de equipamentos, os tempos até a ocorrência de falhas estão ficando cada vez
mais longos, aumentando assim a porcentagem de dados censurados. Isso
também pode ser notado na área médica com os avanços nos tratamentos e

114
medicamentos. Todavia, a inclusão de dados censurados nos modelos envolve
um tipo de análise mais especı́fica que está além das metodologias discutidas
neste texto. Sugere-se ao leitor mais interessado consultar textos de análise
de dados de sobrevivência, como por exemplo os livros de Cox e Oakes (1978),
Lawless (2003), Collett (2003), Colosimo e Giolo (2006) e Leiva et al.(2009).
Portanto, neste capı́tulo será discutido apenas dados positivos assimétricos
não censurados sob modelos com resposta gama e normal inversa, os quais
já foram introduzidos no Capı́tulo 1.

2.2 Distribuição gama


Conforme assumido na Seção 1.2.1, supor que Y é uma variável aleatória
1
com distribuição gama de média µ e coeficiente de variação φ− 2 , denota-se
Y ∼ G(µ, φ), e cuja função densidade é expressa na forma
 φ  
1 φy φy 1
f (yi ; µ, φ) = exp −
Γ(φ) µ µ y
= exp[φ{(−y/µ) − log(µ)} − log{Γ(φ)} + φ log(φy) − log(y)],
R∞
em que y > 0, φ > 0, µ > 0 e Γ(φ) = 0
tφ−1 e−t dt é a função gama. Na
Figura 2.1 tem-se a densidade da distribuição gama variando o parâmetro
de precisão para µ fixado. Pode-se notar que à medida que φ aumenta a
distribuição gama fica mais simétrica em torno da média. Pode ser mostrado
que à medida que φ aumenta Y se aproxima de uma distribuição normal de
média µ e variância µ2 φ−1 . Portanto, a distribuição gama torna-se atrativa
para o estudo de variáveis aleatórias assimétricas e também simétricas em que
a variância depende de forma quadrática da média. Os momentos centrais
de Y são expressos na seguinte forma:
(r − 1)!µr
E(Y − µ)r = ,
φ(r−1)

115
para r = 1, 2, . . .. Assim, expandindo log(Y ) em série de Taylor em torno de
µ até 2a ordem, obtém-se
1 1
log(Y ) ∼
= log(µ) + (Y − µ) − 2 (Y − µ)2 .
µ 2µ
Portanto, para φ grande tem-se que
1
E{log(Y )} ∼
= log(µ) − 2 E(Y − µ)2

1 µ2
= log(µ) − 2
2µ φ
= log(µ) − (2φ)−1 e
Var{log(Y )} ∼
= φ−1 .

Ou seja, a transformação log(Y ) estabiliza a variância à medida que o coefi-


ciente de variação de Y fica pequeno. Uma outra transformação dada por
(  1 )
Y 3
3 −1
µ

se aproxima da distribuição normal padrão no caso gama (vide McCullagh e


Nelder, 1989, p. 289).

A função de sobrevivência e a função de risco são quantidades usuais na


análise de dados de sobrevivência sendo definidas, respectivamente, por

S(t) = P r{Y ≥ t} e
P r{t ≤ Y < t + δ|Y ≥ t}
h(t) = lim .
δ→0 δ
Em particular, tem-se que a função de risco pode ser expressa na forma
h(t) = f (t)/S(t) com f (y) denotando a função densidade de Y . No caso

116
φ = 0.5 φ=1 φ=2
1.5

0.8

0.6
0.6
1.0

0.4
fdp

fdp

fdp
0.4
0.5

0.2
0.2

0.0
0.0
0.0

0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y

1.2
1.0
0.8

φ=4 φ=6 φ=8

1.0
0.8

0.8
0.6

0.6

0.6
fdp

fdp

fdp
0.4

0.4

0.4
0.2

0.2

0.2
0.0

0.0

0.0

0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
y y y

Figura 2.1: Densidades da distribuição gama para alguns valores do


parâmetro de precisão e supondo µ = 1.

da distribuição gama de média µ e parâmetro de dispersão φ−1 a função de


sobrevivência é expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) = 1 − Iλt (φ),

em que Iλt (φ) é a função gama incompleta, dada por


Z λt
1
Iλt (φ) = uφ−1 e−u du,
Γ(φ) 0
com λ = µφ . A função de risco h(t) para a distribuição gama é crescente para
φ > 1 e decrescente para φ < 1. Em particular, quando t → ∞ tem-se que
h(t) → λ.

117
2.3 Modelos com resposta gama
Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ G(µi , φ).
Ou seja, está sendo assumido que essas variáveis possuem médias diferentes
1
e mesmo coeficiente de variação φ− 2 . Ademais, supor que g(µi ) = ηi com
ηi = x > >
i β, xi = (xi1 , . . . , xip ) contendo valores de variáveis explicativas e

β = (β1 , . . . , βp )> sendo o vetor de parâmetros de interesse. As ligações mais


usadas no caso gama são identidade (µi = ηi ), logarı́tmica (log(µi ) = ηi ) e
recı́proca (µi = ηi−1 ), esta última sendo a ligação canônica.
O processo iterativo para estimação de β, como foi visto na Seção 1.6.1,
é dado por
β (m+1) = (X> W(m) X)−1 X> W(m) z(m) ,
1 1
m = 0, 1, . . ., variável dependente modificada z = η + W− 2 V− 2 (y − µ), η =
(η1 , . . . , ηn )> , y = (y1 , . . . , yn )> , µ = (µ1 , . . . , µn )> , V = diag{µ1 , . . . , µn } e
W = diag{ω1 , . . . , ωn } com ωi = (dµi /dηi )2 /µi , i = 1, . . . , n.
É interessante notar que sob ligação logarı́tmica os pesos do processo
µ2i
iterativo para a obtenção de β̂ ficam dados por ωi = µ2i
= 1, de modo que o
processo iterativo assume a forma simplificada

β (m+1) = (X> X)−1 X> z(m) ,

em que z = (z1 , . . . , zn )> com zi = ηi = (yi − µi )/µi e µi = exp(ηi ), i =


1, . . . , n. A variância assintótica de β̂ fica dada por Var(β̂) = φ−1 (X> X)−1 .
Em particular, se as colunas da matriz X são ortogonais, isto é X> X = Ip , em
que Ip é a matriz identidade de ordem p, então Var(β̂j ) = φ−1 e Cov(β̂j , β̂` ) =
0, para j 6= `, ou seja, βj e β̂` são assintoticamente independentes.
Portanto, a ligação logarı́tmica tem um atrativo especial de possibili-
tar o desenvolvimento de experimentos ortogonais como são bem conhecidos

118
em modelos de regressão normal linear. Pode-se escolher formas apropria-
das para a matriz X, de modo que X> X = Ip , e assim obter estimativas
mutuamente independentes e de variância constante para os coeficientes do
preditor linear. Myers et al.(2002, Cap.6) discutem experimentos ortogonais
em MLGs e apresentam alguns exemplos. As ligações identidade (µ = η),
√ √
raiz quadrada ( µ = η) e arcoseno (sen−1 µ = η) produzem o mesmo efeito
em MLGs com resposta normal, Poisson e binomial, respectivamente.
Aplicando, para φ suficientemente grande, a transformação logarı́tmica
na resposta e ajustando E{log(Yi )} = x>
i β, tem-se de forma equivalente

log(µi ) = x> −1
i β + 2φ , ou seja, a menos da constante 2φ
−1
obtém-se as
mesmas estimativas para β de um modelo com resposta gama e ligação lo-
garı́tmica.

2.3.1 Qualidade do ajuste


Como foi visto na Seção 1.4 o desvio de um modelo gama é dado por
D∗ (y; µ̂) = φD(y; µ̂), em que
n
X
D(y; µ̂) = 2 {log(µ̂i /yi ) + (yi − µ̂i )/µ̂i }, (2.1)
i=1

com µ̂i = g −1 (η̂i ) e η̂i = x>


i β̂. Pode ser mostrado facilmente para ligação
Pn
logarı́tmica que o termo i=1 (yi − µ̂i )/µ̂i = 0 se a parte sistemática ηi

contém um intercepto. Nesse caso, a função desvio fica dada por D∗ (y; µ̂) =
2φ ni=1 log(µ̂i /yi ). O parâmetro φ pode ser estimado por máxima verossi-
P

milhança, que equivale a resolver a seguinte equação:

2n{log(φ̂) − ψ(φ̂)} = D(y; µ̂),

em que ψ(φ) = Γ0 (φ)/Γ(φ) é a função digama (vide Seção 1.6.2)¿ Outra


opção é utilizar a estimativa consistente φ̂−1 = (n − p)−1 ni=1 (yi − µ̂i )2 /µ̂2i
P

119
que será discutida no Capı́tulo 5. Supondo que o modelo postulado está
correto tem-se, para φ grande, que o desvio D∗ (y; µ̂) segue distribuição qui-
quadrado com (n − p) graus de liberdade. Assim, valores altos para o desvio
podem indicar inadequação do modelo ou falta de ajuste.
Quando todas as observações são positivas o desvio D∗ (y; µ̂) deve ser
utilizado para avaliar a qualidade do ajuste e estimação de φ. Contudo, se
pelo menos uma observação for igual a zero D∗ (y; µ̂) torna-se inapropriado.
A estimativa para φ nesse caso fica indeterminada. Como foi mencionado na
Seção 1.4, McCullagh e Nelder (1989) sugerem substituir D∗ (y; µ̂) por
n
X n
X
D∗ (y; µ̂) = 2φ{C(y) + log(µ̂i ) + yi /µ̂i },
i=1 i=1

em que C(y) é uma função arbitrária, porém limitada. Se a parte sistemática


do modelo contém um intercepto o desvio acima fica dado por D∗ (y; µ̂) =
2φ{n + C(y) + ni=1 log(µ̂i )}. Na prática φ deve ser estimado.
P

2.3.2 Técnicas de diagnóstico


O resı́duo componente do desvio padronizado assume para os modelos gama
a forma s
2φ̂ 1
tDi = ± {log(µ̂i /yi ) − (yi − µ̂i )/µ̂i } 2 ,
1 − ĥii
em que yi > 0 e hii é o i-ésimo elemento da diagonal principal da matriz
1 1
H = W 2 X(X> WX)−1 X> W 2 com ωi = (dµi /dηi )2 /µ2i , i = 1, . . . , n. Em
particular quando há um intercepto em ηi o resı́duo componente do desvio
tDi assume a forma reduzida
s
2φ̂ 1
tDi = ± {log(µ̂i /yi )} 2 .
1 − ĥii
Estudos de simulação indicam que o resı́duo tDi se aproxima da normalidade,
particularmente para φ grande.

120
Quando a i-ésima observação é excluı́da a distância de Cook aproximada
fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i
Gráficos de tDi e ĥii contra os valores ajustados µ̂i como também gráficos de
ı́ndices de LDi são recomendados para a análise de diagnóstico.

2.4 Aplicações
2.4.1 Comparação de cinco tipos de turbina de avião
Na Tabela 2.1 são descritos os resultados de um experimento conduzido para
avaliar o desempenho de cinco tipos de turbina de alta velocidade para moto-
res de avião (ver Lawless 1982, p. 201). Foram considerados dez motores de
cada tipo nas análises e foi observado para cada um o tempo (em unidades de
milhões de ciclos) até a perda da velocidade. Esses dados estão disponı́veis
no arquivo turbina.txt.

Tabela 2.1
Tempo até a perda da velocidade de cinco
tipos de turbina de avião.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03 3,19 3,46 5,88 6,43
5,53 4,26 5,22 6,74 9,97
5,60 4,47 5,69 6,90 10,39
9,30 4,53 6,54 6,98 13,55
9,92 4,67 9,16 7,21 14,45
12,51 4,69 9,40 8,14 14,72
12,95 5,78 10,19 8,59 16,81
15,21 6,79 10,71 9,80 18,39
16,04 9,37 12,58 12,28 20,84
16,84 12,75 13,41 25,46 21,51

121
Denote por Tij o tempo até a perda da velocidade para o j-ésimo motor
de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo são apresentadas
as médias, desvios padrão e coeficientes de variação amostrais para os cinco
tipos de turbina. Nota-se que os coeficientes de variação parecem variar
menos do que os desvios padrão.
0.08
0.06
Densidade
0.04
0.02
0.00

0 5 10 15 20 25 30
Tempo

Figura 2.2: Densidade aproximada para o tempo até a perda da velocidade


para todos os tipos de turbina de avião.

Estatı́stica Tipo I Tipo II Tipo III Tipo IV Tipo V


Média 10,69 6,05 8,64 9,80 14,71
D.Padrão 4,82 2,91 3,29 5,81 4,86
C. Variação 45,09% 48,10% 38,08% 59,29% 33,04%

Ignorando o tipo de turbina tem-se na Figura 2.2 a densidade aproxi-


iid
mada para o tempo até a perda da velocidade. Assumindo que Tij ∼ G(µ, φ)

122
25
20
15
Tempo
10
5

I II III IV V
Tipo

Figura 2.3: Boxplots robustos do tempo até a perda de velocidade para os


5 tipos de turbina de avião.

obtém-se as estimativas de máxima verossimilhança µ̂ = 9, 98 (0, 73) e φ̂ =


4, 01 (0, 77), confirmando pela estimativa de φ a assimetria à direita para a
distribuição do tempo até a perda da velocidade. Contudo, pelos boxplots
robustos (Hubert e Vandervierin, 2008) correspondentes aos tempos dos
cinco grupos (ver Figura 2.3), nota-se distribuições mais assimétricas para
os tipos II, III e IV e medianas e variabilidades distintas com algumas ob-
servações destoando como aberrantes. Assim, como o coeficiente de variação
parece ser o menos heterogêneo dentre as medidas de variabilidade, sugere-se
inicialmente distribuição gama de médias diferentes e coeficiente de variação
constante para explicar o tempo médio até a perda da velocidade.
ind
Assume-se então para o componente aleatório do modelo que Tij ∼
G(µi , φ), i = 1, . . . , 5 e j = 1, . . . , 10. A fim de facilitar as interpretações
dos resultados ou mesmo fazer comparações com o modelo normal linear,

123
propõem-se um modelo gama com ligação identidade, sendo a parte sis-
temática dada por
µi = µ + βi ,

em que β1 = 0 (casela de referência). Para ler os dados no R e ajustar o


modelo gama deve-se aplicar os comandos

turbina = read.table("turbina.txt", header=TRUE)


attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo ∼ tipo, family=Gamma(link=identity))
summary(fit1.turbina)
require(MASS)
gamma.shape(fit1.turbina).

As estimativas de máxima verossimilhança ficam dadas por µ̂ = 10, 693 (1, 543),
β̂2 = −4, 643 (1, 773), β̂3 = −2, 057 (1, 983), β̂4 = −0, 895 (2, 093) e β̂5 =
4, 013 (2, 623) indicando para o tipo II um tempo médio de sobrevivência sig-
nificativamente menor do que o tipo I ao nı́vel de 5%. Para o tipo V nota-se
um tempo médio maior do que o tipo I, enquanto que os outros três tipos
apresentam tempos médios pouco diferentes do tipo I. Esses resultados con-
firmam a análise descritiva apresentada na Figura 2.3. O desvio do modelo
foi de D∗ (y; µ̂) = 8, 862 × 5, 804 = 51, 43, com 45 graus de liberdade, que
leva a P = 0, 236 e indica um ajuste adequado.
Tem-se que D∗ (y; ȳ) = 12, 945, logo o coeficiente de determinação fica
8,862
dado por R2 = 1− 12,945 = 0, 3154. Levando-se em conta que é raro encontrar
MLGs (exceto caso normal) com R2 > 0, 40, tem-se indicação de um ajuste
adequado.
A estimativa de máxima verossimilhança (erro padrão aproximado) do

124
47

0.8
0.6
49
Distância de Cook
0.4
0.2
0.0

0 10 20 30 40 50
Índice

Figura 2.4: Gráfico da distância de Cook aproximada referente ao modelo


gama ajustado ao dados sobre desempenho de turbinas de avião.

parâmetro de precisão é dada por φ̂ = 5, 804 (1, 129), indicando que as


distribuições dos tempos até a perda da velocidade não devem ser muito
assimétricas. Pode-se tentar avaliar através de um teste apropriado se os
indı́cios observados pelas estimativas individuais das médias são verificados
conjuntamente. As hipóteses apropriadas são dadas por H0 : β4 = β3 = 0
contra H1 : β4 6= 0 e/ou β3 6= 0, que equivalem a testar o agrupamento dos
tipos I, III e IV. Como φ̂ é relativamente alto pode-se aplicar a estatı́stica F
dada na Seção 1.7. Assim, sob H0 obtém-se D(y; µ̂) = 9, 091 para 47 graus
de liberdade e sob a hipótese alternativa D(y; µ̂) = 8, 861 para 45 graus de
liberdade. A estatı́stica F fica então dada por
(9, 091 − 8, 861)/2
F =
8, 861/45
= 0, 584,

que leva a P = 0, 562, ou seja, pela não rejeição de H0 . As novas estimativas

125
são dadas por µ̂ = 9, 71 (0, 81), β̂2 = −3, 66 (1, 19) e β̂5 = 5, 00 (2, 27).
Obtém-se φ̂ = 5, 66 (1, 10) e D∗ (y; µ̂) = 51, 47 para 47 graus de liberdade
com P = 0, 30.

3
2
Resíduo Componente do Desvio
1
0
−1
−2

6 8 10 12 14
Valor Ajustado

Figura 2.5: Resı́duo componente do desvio contra o valor ajustado referente


ao modelo gama ajustado aos dados sobre desempenho de turbinas de avião.

Na Figura 2.4 tem-se o gráfico de ı́ndices da distância de Cook aproxi-


mada. Nota-se um forte destaque para a observação #49 seguida da ob-
servação #47 que correspondem, respectivamente, aos valores 25,46 e 12,75
para o tempo até a perda da velocidade de um dos motores de tipo IV e
tipo II. O valor 25,46, como é mostrado na Tabela 2.1, destoa dos demais
tempos. A eliminação dessa observação aumenta a significância marginal de
β4 , embora esse efeito continue não significativo a 10%. Não há mudanças
inferenciais nos demais resultados.

O gráfico do resı́duo componente do desvio contra o valor ajustado (Fi-

126
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.6: Gráfico normal de probabilidades referente ao modelo gama ajus-


tado aos dados sobre desempenho de turbinas de avião.

gura 2.5) indica que a variabilidade foi controlada, ou seja, é adequado supor
homogeneidade do coeficiente de variação nos 5 grupos. Já o gráfico normal
de probabilidades com envelope para o resı́duo componente do desvio é apre-
sentado na Figura 2.6 e pode-se notar que não há indı́cios de afastamentos
importantes da suposição de distribuição gama para os tempos até a perda
da velocidade dos motores. Portanto, pode-se concluir neste exemplo que
não há diferença significativa entre os tipos I, III e IV, enquanto os tipos II
e V aparecem de forma significativa com o menor e maior tempo médio até
a perda da velocidade, respectivamente.

2.4.2 Espinhel de fundo


O espinhel de fundo é definido como um método de pesca passivo, sendo
utilizado em todo o mundo em operações de pesca de diferentes magnitudes,

127
da pesca artesanal a modernas pescarias mecanizadas. É adequado para
capturar peixes com distribuição dispersa ou com baixa densidade, além de
ser possı́vel utilizá-lo em áreas irregulares ou em grandes profundidades. É
um dos métodos que mais satisfazem às premissas da pesca responsável,
com alta seletividade de espécies e comprimentos, alta qualidade do pescado,
consumo de energia baixo e pouco impacto sobre o fundo oceânico. No
arquivo pesca.txt estão parte dos dados de um estudo sobre a atividade
das frotas pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no
litoral paulista (vide Paula e Oshiro, 2001). A espécie de peixe considerada é
o peixe-batata pela sua importância comercial e ampla distribuição espacial.
Uma amostra de n = 156 embarcações foi analisada no perı́odo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos.
0.004
0.003
Densidade
0.002
0.001
0.000

0 200 400 600


cpue

Figura 2.7: Densidade aproximada da cpue para todas as embarcações.

As variáveis consideradas para cada embarcação são as seguintes: frota

128
(Santos ou Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude (sul)1 (de
23,25o a 28,25o ), longitude (oeste)2 (de 41,25o a 50,75o ), dias de pesca, cap-
tura (quantidade de peixes batata capturados, em kg) e cpue (captura por
unidade de esforço, kg/dias de pesca). Um dos objetivos desse estudo é ten-
tar explicar a cpue méida pelas variáveis frota, ano, trimestre, latitude e
longitude. Estudos similares realizados em outros paı́ses verificaram que é
bastante razoável supor que a cpue tem distribuição assimétrica à direita,
como é o caso da distribuição gama (vide, por exemplo, Goni et al.,1999).
600
500
400
cpue
300
200
100

Santos Ubatuba
Frota

Figura 2.8: Boxplots da cpue segundo a frota.

Para ler o arquivo pesca.txt no R deve-se fazer o seguinte:

pesca = read.table("pesca.txt", header=TRUE)


frota = factor(frota)
ano = factor(ano)
1
distância ao Equador medida ao longo do meridiano de Greenwich
2
distância ao meridiano de Greenwich medida ao longo do Equador

129
600
500
400
cpue
300
200
100

95 96 97 98 99
Ano

Figura 2.9: Boxplots da cpue segundo o ano.

trimestre = factor(trimestre).

Tabela 2.2
Medidas resumo para a distribuição da cpue segundo a frota e o ano.
Frota Estatı́stica 95 96 97 98 99
Média 229,37 193,19 262,67 210,29 197,22
Santos D.Padrão 148,07 132,55 153,60 122,95 103,45
C. Variação 64,55% 68,61% 58,48% 58,44% 52,45 %
n 19 8 17 27 46

Média 47,08 96,09 210,56 174,43 140,85


Ubatuba D. Padrão 4,73 59,19 77,51 99,16 71,59
C. Variação 10,05% 61,60 % 36,81% 56,85% 50,83%
n 3 12 6 5 13

Antes de propor um modelo para tentar explicar a cpue média pelas


variáveis explicativas, será apresentada uma análise descritiva dos dados. Na
Figura 2.7 tem-se a distribuição da cpue para todas as embarcações e pode-se

130
600
500
400
cpue
300
200
100

1 2 3 4
Trimestre

Figura 2.10: Boxplots da cpue segundo o trimestre.

notar uma assimetria acentuada à direita, confirmando constatações de estu-


dos anteriores. Já nas Figuras 2.8, 2.9 e 2.10 são apresentados os boxplots
robustos da cpue segundo os fatores frota, ano e trimestre, respectivamente.
Nota-se uma superioridade da frota de Santos em relação à frota de Ubatuba,
porém poucas diferenças entre os nı́veis dos fatores ano e trimestre, embora
o ano de 97 tenha uma mediana um pouco superior aos demais anos.
Pela Figura 2.11 nota-se que a frota de Santos prefere latitudes e lon-
gitudes maiores do que a frota de Ubatuba. Pelos diagramas de dispersão
entre cpue e latitude e cpue e longitude, apresentados na Figura 2.12, há
indı́cios de um ligeiro crescimento da cpue com a latitude, porém não está
bem definida a tendência da cpue com a longitude.
Na Tabela 2.2 são apresentadas as médias, desvios padrão e coeficientes de
variação amostrais para as frotas de Santos e Ubatuba referentes ao perı́odo
95-99. Nota-se que o coeficiente de variação é mais homogêneo na frota de

131
48
28

47
27

46
LOngitude
26
Latitude

45
44
25

43
24

42
41
Santos Ubatuba Santos Ubatuba
Latitude Longitude

Figura 2.11: Boxplots da latitude e longitude segunda a frota.

Santos e em geral, exceto para os anos de 95 e 97 para a frota de Ubatuba, fica


entre 50% e 70%. Porém deve-se levar em conta que para a frota de Ubatuba
as amostras são pequenas. Como todas essas análises são marginais, somente
através de um modelo apropriado é que será possı́vel conhecer o efeito de cada
variável explicativa na presença das demais na variação da cpue média. Será
então assumido inicialmente um modelo de regressão com resposta gama
modelando-se a média com coeficiente de variação constante.
Definindo então Yijk` como sendo a cpue observada para a i-ésima em-
barcação da j-ésima frota, (Santos, j = 1; Ubatuba j = 2), no k-ésimo ano
ind
e `-ésimo trimestre (k, ` = 1, 2, 3, 4), supor que Yijk` ∼ G(µijk` , φ) com parte
sistemática dada por

log(µijk` ) = α + βj + γk + θ` + δ1 Latitudeijk` + δ2 Longitudeijk` , (2.2)

em que βj , γk e θ` denotam, respectivamente, os efeitos da j-ésima frota, k-


ésimo ano e `-ésimo trimestre. Como está sendo assumindo parametrização

132
casela de referência tem-se as restrições β1 = 0, γ1 = 0 e θ1 = 0. Latitudeijk`
e longitudeijk` denotam, respectivamente, a latitude e longitude da i-ésima
embarcação da frota j no k-ésimo ano e trimestre `.
600

600
500

500
400

400
cpue

cpue
300

300
200

200
100

100

24 25 26 27 28 41 42 43 44 45 46 47 48
Latitude Longitude

Figura 2.12: Diagramas de dispersão da cpue contra latitude e contra longi-


tude.

Ajustando aos dados o modelo gama com parte sistemática dada por
(2.2) e aplicando o método de Akaike (vide Seção 1.11.2) retira-se o fator
trimestre, permanecendo no modelo os fatores frota e ano além das variáveis
quantitativas latitude e longitude. Para ajustar o modelo e selecionar as
variáveis explicativas deve-se aplicar os seguintes comandos:

attach(pesca)
fit1.pesca = glm(cpue ∼ frota + ano + trimestre + latitude +
longitude, family=Gamma(link=log))
summary(fit1.pesca)
require(MASS)

133
stepAIC(fit1.pesca).

Tabela 2.3
Estimativas dos parâmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Efeito Estimativa E/E.Padrão
Constante 6,898 3,00
Latitude 0,204 2,81
Longitude -0,150 -1,97
Frota-Ubatuba -1,359 -3,68
Ano96 -0,064 -0,26
Ano97 0,141 0,74
Ano98 -0,043 -0,25
Ano99 -0,009 -0,06
FrotaUb*Ano96 0,806 1,77
FrotaUb*Ano97 1,452 3,20
FrotaUb*Ano98 1,502 3,32
FrotaUb*Ano99 1,112 2,76
φ 3,67 9,17

O procedimento stepAIC assume que o parâmetro φ é constante, ou seja,


não muda de um modelo para o outro. Como isso, em geral, não é satisfeito
deve-se aplicar algum procedimento alternativo a fim de confirmar o modelo
escolhido pelo método AIC. Então foi aplicado o mesmo procedimento através
da estatı́stica da razão de versossimilhanças, confirmando-se a retirada do
fator trimestre.
O teste da razão de verossimilhanças para incluir a interação entre os
dois fatores que permaneceram no modelo, frota e ano, foi de ξRV = 14, 26
para 4 graus de liberdade, obtendo-se P = 0, 0065. Portanto, a interação
será incluı́da no modelo. As estimativas do modelo final que inclui os efeitos
principais latitude, longitude, frota e ano além da interação entre ano e frota
são apresentadas na Tabela 2.3. O desvio do modelo foi de D∗ (y; µ̂) = 162, 66

134
com 144 graus de liberdade e P = 0, 14, indicando um modelo bem ajustado.
D(y;µ̂)
Tem-se ainda que R2 = 1 − D(y;ȳ) = 49,464
59,362
= 0, 1667.
250
200
cpue estimada

150
100

Santos
Ubatuba
50

95 96 97 98 99

Ano

Figura 2.13: Estimativas da cpue média para as frotas de Santos e Ubatuba


segundo o ano de operação fixando-se a latitude em 26o e a longitude em 46o
através do modelo gama.

Nota-se que à medida que aumenta a latitude aumenta a cpue, ocorrendo


tendência contrária à medida que aumenta a longitude. Logo, para latitudes
altas e longitudes baixas (dentro dos limites amostrais), espera-se valores
maiores para a captura por unidade de esforço. Com relação à frota e ao ano,
como foi incluı́da interação entre esses fatores, a interpretação das estimativas
deve ser feita com um pouco mais de cuidado. Para isso, é exibido na Figura
2.13 os valores esperados da cpue fixando latitude e longitude nos valores,
respectivamente, 26o e 46o . Nota-se que até 96 os valores preditos para a
frota de Ubatuba são bem menores do que os valores preditos para a frota de

135
Santos. Contudo, a partir de 97 as diferenças entre os valores preditos para
as duas frotas diminuem. Os valores preditos para a frota de Santos variam
pouco no perı́odo 95-99, diferentemente dos valores preditos para a frota de
Ubatuba.

2
Componente do Desvio
1
0
−1
−2

50 100 150 200 250 300


Valor Ajustado

Figura 2.14: Gráfico do resı́duo componente do desvio contra o valor ajustado


referente ao modelo gama ajustado aos dados sobre espinhel de fundo.

Na Figura 2.14 tem-se o gráfico do resı́duo componente do desvio con-


tra o valor ajustado, indicando que a variabilidade foi controlada, ou seja,
é razoável supor coeficiente de variação constante. No gráfico da distância
de Cook aproximada (Figura 2.15) Três observações aparecem como possi-
velmente influentes, as embarcações #8, #17 e #52. A retirada de cada
embarcação individualmente não muda a inferência, porém a retirada da ob-
servação #17 aumenta a significância da latitude e longitude. A embarcação
#17 é da frota de Santos, obteve uma cpue de 450 (valor médio 195,5) numa
latitude de 24,75o (valor médio 26,22o ) e longitude de 46,25o (valor médio

136
1.2
8

1.0
17

52

0.8
Distância de Cook
0.6
0.4
0.2
0.0

0 50 100 150
Índice

Figura 2.15: Gráfico da distância de Cook aproximada referente ao modelo


gama ajustado aos dados sobre espinhel de fundo.

46,26o ) no ano de 99. Esperava-se para essa embarcação um valor menor


para a cpue levando-se em conta os valores da latitude e longitude. Trata-se
portanto de uma embarcação atı́pica. O gráfico normal de probabilidades
com envelope gerado (Figura 2.16) não apresenta indı́cios fortes de que a
distribuição gama seja inadequada para explicar a cpue.

2.4.3 Aplicação em seguros


A fim de ilustrar uma aplicação na área de seguros, considere parte dos da-
dos descritos em de Jong e Heller (2008, pgs. 14-15) referentes aos valores
pagos de seguros individuais (em dólares australianos) por danos com aci-
dentes pessoais no perı́odo de julho de 1989 a junho de 1999. As análises
serão restritas ao perı́odo de janeiro de 1998 a junho de 1999, um total de
769 seguros pagos. Além do valor pago ao segurado serão consideradas as se-

137
3
2
1
Componente do Desvio
0
−1
−2
−3
−4

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.16: Gráfico normal de probabilidades referente ao modelo gama


ajustado aos dados sobre espinhel de fundo.

guintes variáveis explicativas: legrep, representação legal (0: não, 1: sim) e


optime, tempo operacional para pagamento do seguro. Essa última variável
assume valores no intervalo (0, 100) e por exemplo um valor 23 significa que
23% dos seguros foram pagos antes do seguro em análise. Como está sendo
considerado apenas parte dos dados (referentes aos últimos 18 meses), os va-
lores de optime irão variar de 0,1 a 31,9. O subconjunto de dados analisado
está descrito no arquivo insurance.txt.
Na Figura 2.17 tem-se o diagrama de dispersão entre o logaritmo do valor
pago e o tempo operacional para os grupos sem representação legal e com
representação legal. Nota-se para as apólices sem representação legal um
crescimento aproximadamente quadrático do logaritmo do valor pago com
o tempo operacional, contudo a variablidade parece ser maior para valores
baixos do tempo operacional. Já para as apólices com representação legal

138
11
10

10
log(Valor do Seguro)

log(Valor do Seguro)
8

9
8
6

7
6
4

5
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Tempo Operacional Tempo Operacional

Figura 2.17: Diagrama de dispersão entre o valor pago de seguro e o tempo


operacional para os grupos sem representação legal (esquerda) e com repre-
sentação legal (direita).

nota-se que o logaritmo do valor pago cresce linearmente com o tempo ope-
racional enquanto a variabilidade se mantém aproximadamente constante.
Nota-se também que os valores pagos de seguro são em geral maiores para o
grupo com representação legal.
Na Figura 2.18 tem-se a distribuição aproximada do valor pago de seguro
para os dois grupos, sem representação legal e com representação legal. Em
ambos os gráficos pode-se notar que a distribuição é fortemente assimétrica à
direita, sugerindo distribuições gama ou normal inversa para explicar o valor
pago de seguro.
Denote por Yij o valor pago de seguro para o j-ésimo indivı́duo do i-
ésimo grupo (i = 0, sem representação legal e i = 1 com representação
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pela
ind
Figura 2.18 será assumido inicialmente Yij ∼ G(µij , φi ) com componentes

139
0.00012
0.00012

0.00010
0.00010

0.00008
0.00008
Densidade

Densidade
0.00006
0.00006

0.00004
0.00004

0.00002
0.00002
0.00000

0.00000
0 10000 20000 30000 40000 50000 0 20000 40000 60000 80000 100000 120000
Valor do Seguro Valor do Seguro

Figura 2.18: Distribuição do valor de seguro para os grupos sem repre-


sentação legal (esquerda) e com representação legal (direita).

sistmáticos dados por

log(µ0j ) = α0 + β10 optimej + β20 optime2j e


log(µ1j ) = α1 + β11 optimej .

Para ler os dados no R e ajustar o modelo deve-se aplicar os comandos

insurance = read.table("insurance.txt", header=TRUE)


attach(insurance)
fit0.insurance = glm(amount0 ∼ optime0 + I(optime02 ),
family=Gamma(link=log))
summary(fit0.insurance)
fit1.insurance = glm(amount1 ∼ optime1, family=Gamma(link=log))
summary(fit1.insurance)
require(MASS)

140
gamma.shape(fit0.insurance)
gamma.shape(fit1.insurance).

Tabela 2.4
Estimativas dos parâmetros referentes
aos modelos com resposta gama ajustados
aos dados sobre seguro.
Parâmetro Estimativa E/E.Padrão
α0 7,223 44,13
β10 0,204 6,72
β20 -0,005 -5,08
φ0 0,779 12,55

α1 8,805 140,50
β11 0,023 5,48
φ1 2,225 17,66
As estimativas dos parâmetros dos modelos propostos, que foram ajusta-
dos separadamente, são descritas na Tabela 2.4. Nota-se pelas estimativas
que as tendências observadas na Figuras 2.17 foram confirmadas de forma
significativa. Contudo, pelos gráficos normais de probabilidade (Figura 2.19)
nota-se indı́cios de afastamentos da distribuição gama para o valor pago de
seguro, principalmente para o grupo com representação legal. Para o grupo
sem representação legal nota-se que os menores valores do seguro foram su-
perestimados pelo modelo.
Os desvios dos dois modelos foram, respectivamente, de D∗ (y; µ̂) = 0, 779×
347, 15 = 270, 70 com 224 graus de liberdade e D∗ (y; µ̂) = 2, 225 × 261, 45 =
581, 73 com 540 graus de liberdade. Embora as estimativas de φ0 e φ1 se-
jam relativamente pequenas, há indı́cios pelos valores dos desvios de que
os modelos não estão bem ajustados. Os coeficientes de determinação ficam,
261,45
respectivamente, dados por R2 = 1− 347.15
419,59
= 0, 173 e R2 = 1− 283,83 = 0, 079,
confirmando um ajuste mais adequado para o grupo sem representação legal.

141
4
2

2
Componente do Desvio

Componente do Desvio
0

0
−2

−2
−4
−4

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantil da N(0,1) Quantil da N(0,1)

Figura 2.19: Gráfico normal de probabilidades para os modelos com resposta


gama ajustados aos dados de seguro para os grupos sem representação legal
(esquerda) e com representaçõa legal (direita).

Analisando os gráficos da distância de Cook e resı́duo componente do


desvio contra o valor ajustado (Figrua 2.20) apenas para o grupo sem re-
presentação legal, nota-se que não há indı́cios de observações aberrantes,
contudo algumas observações aparecem como possivelmente influentes. Es-
sas observações em geral correspondem a valores altos para o valor pago de
seguro. A eliminação das observações destacadas não muda a inferência,
todos os coeficientes continuam altamente significativos.
Para o grupo com representação legal a utilização de outras ligações
ou mesmo outras distribuições são alternativas a fim de tentar melhorar
a qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos
com resposta gama com modelos com respostas Birnbaum-Saunders (BS)
e Birnbaum-Saunders-t (BS-t) para explicar o valor pago de seguro para o
grupo com representação legal, obtendo um ajuste satisfatório com o modelo

142
0.35

42

2
0.30
0.25

1
Componente do Desvio
Distância de Cook
0.20

46
221

0
207
0.15

−1
0.10
0.05

−2
0.00

0 50 100 150 200 2000 4000 6000 8000 10000


Índice Valor Ajustado

Figura 2.20: Gráficos de diagnóstico para o modelo com resposta gama ajus-
tado aos dados de seguro para o grupo sem representação legal.

BS-t. Essa distribuição acomoda melhor as observações aberrantes que cor-


respondem a valores altos de seguro. Recentemente, Cardozo et al. (2022)
ajustaram os dados do valor de seguro pago para o grupo sem representação
legal através de modelo log-linear com componente aditivo ao invés de com-
ponente quadrático e resposta gama generalizada, obtendo um ajuste mais
adequado para explicar o valor pago de seguro..

2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estimação
da elasticidade entre a demanda de um produto e seu preço unitário. Como
ilustração, supor que Y denota a demanda e X o preço unitário. É usual em
Econometria (ver, por exemplo, Gujarati, 2006, Seção 6.4) assumir que

Y = β 1 xβ 2 e u , (2.3)

143
em que u é um erro aleatório, em geral assumido N(0, σ 2 ). Isso implica em
2 /2 2 2
eu seguir distribuição log-normal de média eσ e variância eσ (eσ − 1). Em
vez de uma log-normal pode-se assumir, alternativamente, outra distribuição
com resposta positiva. Por exemplo, eu ∼ G(1, φ). Assim, tem-se que a
média de Y dado x fica dada por

µ(x) = β1 xβ2 ,

ou seja log(µ(x)) = log(β1 )+β2 log(x), um MLG com resposta gama e ligação
logarı́tmica.
Para entender a elasticidade entre a demanda e o preço do produto, supor
que o preço aumente r × 100% de modo que o novo preço seja dado por
xN = (1 + r)x, para 0 < r < 1. O novo valor esperado para a demanda fica
dado por
µ(xN ) = β1 xβN2

e a razão entre as demandas médias assume a forma


µ(xN )
= eβ2 log(1+r)
µ(x)
= (1 + r)β2 .

Para r pequeno tem-se a aproximação


µ(xN ) ∼
= (1 + rβ2 ),
µ(x)

de modo que se o preço aumentar 1% (r = 0, 01) a demanda aumenta β2 %,


ou seja,  
µ(xN ) β2
= 1+ .
µ(x) 100
O parâmetro β2 é conhecido como elasticidade entre a demanda e o preço do
produto.

144
2.5.1 Modelo de Cobb-Douglas
O modelo (2.3) pode ser estendido para duas ou mais variáveis explicativas
as quais poderão representar outros tipos de preço ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equação para explicar a demanda
de um produto pelos insumos de mão de obra e capital:

Y = β1 xβ2 2 xβ3 3 eu , (2.4)

em que Y denota a demanda, x2 o valor do insumo de mão de obra, x3 o


valor do insumo de capital e u o erro aleatório. Para x3 fixado (x2 fixado) o
parâmetro β2 (β3 ) mede a elasticidade parcial entre a demanda e o insumo
de mão de obra (capital). A soma β2 +β3 mede os retornos de escala, ou seja,
se β2 + β3 = 1 significa que os retornos são proporcionais, dobrando o uso
de insumos a demanda esperada aumenta duas vezes, triplicando os insumos
há aumento de três vezes para a demanda esperada, e assim por diante. Se
β2 + β3 < 1 os retornos de escala serão menores, dobrando os insumos espera-
se demanda menor do que o dobro, e se β2 + β3 > 1 os retornos de escala
serão maiores, dobrando os insumos espera-se que a demanda aumente mais
que duas vezes.
Para mostrarmos esses resultados suponha que os novos insumos de mão
de obra e de capital sejam dados por x1N = rx1 e x2N = rx2 , ou seja,
aumentam r vezes. Assim, a nova demanda esperada será dada por

µ(x1N , x2N ) = β1 (rx2 )β2 (rx3 )β3


= r(β2 +β3 ) β1 xβ2 2 xβ3 3
= rβ2 +β3 µ(x1 , x2 ),

em que µ(x1 , x2 ) é a demanda esperada inicial. Logo, se β2 + β3 = 1 então


µ(x1N , x2N ) = rµ(x1 , x2 ), ou seja, a demanda esperada aumenta r vezes. Por

145
outro lado, se β2 + β3 < 1 tem-se que µ(x1N , x2N ) < rµ(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se β2 + β3 > 1 tem-se que
a demanda esperada aumenta mais que r vezes, µ(x1N , x2N ) > rµ(x1 , x2 ).
Obviamente que existem várias distribuições candidatas para explicar eu ,
sendo as distribuições gama e normal inversa as candidatas naturais na classe
dos MLGs. Pode-se também assumir que log(u) tenha distribuição normal.
Contudo, somente através de uma análise de diagnóstico é que pode-se avaliar
a adequação de cada distribuição.

2.5.2 Aplicação
Como ilustração conside um experimento aleatorizado descrito em Griffiths
et al.(1993, Seção 11.8.1c) em que a produtividade de milho (libras/acre) é
estudada segundo várias combinações de nitrogênio e fosfato (40, 80, 120,
160, 200, 240, 280 e 320 libras/acre). Os dados estão descritos no arquivo
milho.txt. Na Figura 2.21 tem-se os diagramas de dispersão entre a produ-
tividade de milho e as quantidades de nitrogênio e fosfato, respectivamente,
e pode-se notar nessas figuras há indı́cios de uma tendência crescente da pro-
dutividade com o aumento dos insumos. Nota-se também um aumento da
variabilidade com o aumento das quantidades de nitrogênio e fostato, suge-
rindo que a suposição de distribuição gama ou normal inversa para log(u) no
modelo de Cobb-Douglas pode levar a um ajuste adequado. Denote por Yi a
produtividade de milho dada a combinação (x1i , x2i ) de nitrogênio e fosfato
ind
correspondente à i-ésima condição experimental e supor que Yi ∼ G(µi , φ)
com parte sistemática dada por log(µi ) = α + β1 log(x1i ) + β2 log(x2i ), para
i = 1, . . . , 30. A leitura dos dados em R e os comandos para o ajuste do
modelo gama log-linear são dados abaixo
milho = read.table(‘‘milho.txt’’, header=TRUE)

146
summary(milho)
attach(milho)
fit.milho = glm(produtividade ∼ log(nitrogenio) + log(fostato),
family Gamma(link=log))
summary(fit.milho).
120

120
100

100
Produtividade

Produtividade
80

80
60

60
40

40

50 100 150 200 250 300 50 100 150 200 250 300
Nitrogênio Fosfato

Figura 2.21: Diagramas de dispersão entre a quantidade de nitrogênio e a


produtividade de milho (esquerda) e a quantidade de fosfato e a produtivi-
dade de milho (direita).

As estimativas são descritas na Tabela 2.5 e como pode-se notar os coe-


ficientes são altamente significativos, confirmando as tendências observadas
na Figura 2.21. Na Figura 2.22 tem-se os gráficos do resı́duo componente
do desvio contra o valor ajustado, indicando que a variabilidade está con-
trolada, e da distância de Cook em que duas observações aparecem como
possivelmente influentes. A eliminação de cada observação individualmente
não altera de forma substancial os coeficentes estimados nem muda a in-
ferência, ambos continuam altamente significativos. Porém, o intercepto fica

147
significativo a 5% com a eliminação da observação #28, indicando que essa
observação pode estar mascarando o efeito do intercepto. A estimativa da
precisão (relativamente alta) indica que um modelo com erros log-normal
também poderia levar a um ajuste adequado. Já o gráfico normal de pro-
babilidades (Figura 2.23) indica que a suposição de erros gama leva a um
ajuste adequado não havendo observações aberrantes. A principal diferença
em assumir erros gama ao invés de erros log-normal é a possibilidade de
maior controle da variabilidade.

Tabela 2.5
Estimativas dos parâmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
Parâmetro Estimativa E/E.Padrão
α 0,469 1,67
β1 0,350 8,30
β2 0,410 10,07
φ 46,59 11,99

A fim de verificar como ocorrem os retornos de produtividade de milho


com as aplicações de fosfato e nitrogênio será obtida a estimativa intervalar
para β1 + β2 . Deve-se obter inicialmente

V̂ar(β̂1 + β̂2 ) = Var(β̂1 ) + Var(β̂2 ) + 2Cov(β̂1 , β̂2 )


= 0, 001776 + 0, 001656 − 2 ∗ 0, 000145
= 0, 003142.

Essas quantidades são obtidas através do comando


vcov(fit.milho).
Assim uma estimativa intervalar de coeficiente de confiança de 95% fica dada

por [0, 35 + 0, 41 ± 1, 96 ∗ 0, 003142] = [0, 65; 0, 87] que não cobre o valor

148
1.0
1
2

0.8
1
Componente do Desvio

28

0.6
Distância de Cook
0

0.4
−1

0.2
−2

0.0
40 60 80 100 120 0 5 10 15 20 25 30
Valor Ajustado Índice

Figura 2.22: Gráfico do resı́duo componente do desvio contra o valor ajus-


tado (esquerda) e distância de Cook (direita) referentes ao modelo de Cobb-
Douglas ajustado aos dados do experimento sobre produtividade de milho.

1,0. Portanto, dobrando as aplicações de insumos de nitrogênio e fosfato os


retornos esperados de produtividade devem aumentar menos do que duas
vezes.

2.6 Distribuição normal inversa


Supor que Y é uma variável aleatória com distribuição normal inversa de
média µ e parâmetro de dispersão φ−1 . Denota-se Y ∼ NI(µ, φ), cuja função
densidade de probabilidade é expressa na forma
s
φ(y − µ)2
 
φ
f (y; µ, φ) = exp −
2πy 3 2µ2 y
    
y 1 1 3 φ
= exp φ − 2 + − log(2πy /φ) + ,
2µ µ 2 y
em que y > 0, µ > 0 e φ > 0.

149
3
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 2.23: Gráfico normal de probabilidades referente ao modelo de Cobb-


Douglas ajustado aos dados do experimento sobre produtividade de milho.

Na Figura 2.24 tem-se a densidade da distribuição normal inversa vari-


ando o parâmetro de precisão para µ fixado. Nota-se que para valores pe-
quenos do parâmetro de precisão a distribuição normal inversa é fortemente
assimétrica à direita, contudo à medida que φ aumenta a distribuição normal
inversa fica mais simétrica em torno da média. Pode-se mostrar que à me-
dida que φ aumenta Y se aproxima de uma distribuição normal de média µ
e variância µ3 φ−1 . Logo, similarmente à distribuição gama, a normal inversa
torna-se atrativa para o estudo de variáveis aleatórias assimétricas e também
simétricas em que a variância depende de forma cúbica da média. Uma dis-
cussão sobre as suposições teóricas para a construção da distribuição normal
inversa pode ser encontrada, por exemplo, em Leiva et al.(2009, Cap. 2).
A função de sobrevivência da distribuição normal inversa de média µ e
parâmetro de dispersão φ−1 (ver, por exemplo, Collett, 2003, pp. 198-199) é

150
0.5
0.5
φ=1 φ=2 φ=3
0.6

0.4
0.4

0.3
0.3
0.4
fdp

fdp

fdp
0.2
0.2
0.2

0.1
0.1
0.0

0.0
0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y
0.5

0.5

0.5
φ=4 φ=6 φ = 10
0.4

0.4

0.4
0.3

0.3

0.3
fdp

fdp

fdp
0.2

0.2

0.2
0.1

0.1

0.1
0.0

0.0

0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
y y y

Figura 2.24: Densidades da distribuição normal inversa para alguns valores


do parâmetro de dispersão e supondo µ = 2.

dada por
p p
S(t) = Φ{(1 − tµ−1 ) φt−1 − exp(2φ/µ)Φ{−(1 + tµ−1 ) φt−1 }.

A função de risco fica expressa na forma h(t) = f (t)/S(t) em que f (y) denota
a função densidade da NI(µ, φ).

2.7 Modelos com resposta normal inversa


Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ).
Esta sendo assumido que essas variáveis possuem médias diferentes e mesma
dispersão φ−1 . Ademais, supor que g(µi ) = ηi em que ηi = x>
i β com xi =

151
(xi1 , . . . , xip )> contendo valores de variáveis explicativas e β = (β1 , . . . , βp )>
sendo o vetor de parâmetros de interesse. As ligações mais usadas no caso
normal inversa são identidade (µi = ηi ), logarı́tmica (logµi = ηi ) e recı́proca
quadrática (µi = ηi−2 ), esta última sendo a ligação canônica.

2.7.1 Qualidade do ajuste


Como foi visto na Seção 1.4 o desvio de um modelo com resposta normal
inversa é dado por D∗ (y; µ̂) = φD(y; µ̂) em que
n
X
D(y; µ̂) = (yi − µ̂i )2 /(yi µ̂2i ), (2.5)
i=1

com µ̂i = g −1 (η̂i ), η̂i = x>


i β̂ e yi > 0. Como φ é desconhecido devemos

estimá-lo, por exemplo através de máxima verossimilhança, cuja solução é


dada por φ̂ = n/D∗ (y; µ̂). Supondo que o modelo postulado está correto tem-
se, para φ grande, que o desvio D∗ (y; µ̂) segue distribuição qui-quadrado com
(n − p) graus de liberdade. Assim, valores altos para o desvio podem indicar
inadequação do modelo ou falta de ajuste.

2.7.2 Técnicas de diagnóstico


O resı́duo componente do desvio padronizado para os modelos com resposta
normal inversa assumem a forma
s
2φ̂ (yi − µ̂i )
tDi = √ ,
1 − ĥii µ̂i yi
em que yi > 0 e hii é o i-ésimo elemento da diagonal principal da matriz
1 1
H = W 2 X(X> WX)−1 X> W 2 com ωi = (dµi /dηi )2 /µ3i . Na expressão para
tDi no caso da distribuição normal inversa o sinal do resı́duo é o mesmo de
(yi − µ̂i ). Estudos de simulação indicam que o resı́duo tDi se aproxima da
distribuição normal, particularmente para φ grande.

152
Similarmente aos modelos com resposta gama pode-se obter uma ex-
pressão aproximada para a distância de Cook quando a i-ésima observação é
excluı́da. Essa expressão fica dada por
φ̂ĥii (yi − µ̂i )2
LDi = .
(1 − ĥii )2 µ̂2i

Aqui também são sugeridos gráficos de tDi e ĥii contra os valores ajustados
µ̂i e gráficos de ı́ndices de LDi .

2.8 Aplicação
Considerar parte dos dados de um experimento desenvolvido no Departa-
mento de Nutrição da Faculdade de Saúde Pública da USP em que 5 formas
diferentes de um novo tipo de snack, com baixo teor de gordura saturada
e de ácidos graxos, foram comparados ao longo de 20 semanas. Neste novo
produto a gordura vegetal hidrogenada, responsável pela fixação do aroma
do produto, foi substituı́da, totalmente ou parcialmente, por óleo de canola.
As formas são as seguintes: A (22% de gordura, 0% de óleo de canola), B
(0% de gordura, 22% de óleo de canola), C (17% de gordura, 5% de óleo de
canola), D (11% de gordura, 11% de óleo de canola) e E (5% de gordura,
17% de óleo de canola). O experimento foi conduzido de modo que nas se-
manas pares 15 embalagens de cada um dos produtos A, B, C, D e E fossem
analisadas em laboratório e observadas diversas variáveis (ver Paula et al.,
2004). Em particular, será inicialmente estudado o comportamento da tex-
tura dos produtos através da força necessária para o cisalhamento. Os dados
referentes a esta variável estão disponı́veis no arquivo snack.txt.
Para ler o arquivo snack.txt no R deve-se fazer o seguinte:
snack = read.table("snack.txt", header=TRUE)
grupo = factor(grupo)

153
summary(snack)
attach(snacks).
120
100
For�a de Cisalhamento
80
60
40

A B C D E
Grupo

Figura 2.25: Boxplots da força de cisalhamento segundo o grupo e para


todas as semanas.

Nota-se pela Figura 2.25, em que são apresentados os boxplots robustos


da força de cisalhamento segundo o grupo e para todas as semanas, que os
grupos A e C possuem os maiores valores, enquanto o grupo B tem valores in-
termediários e os grupos D e E têm os menores valores. Essa tendência pode
ser observada pelos valores medianos da força de cisalhamento de cada grupo.
Observa-se também que, exceto para o grupo B, todos os grupos apresentam
valores discrepantes em geral destoando como valores altos em relação aos
demais do mesmo grupo. Nota-se ainda uma assimetria à direita na distri-
buição da força de cisalhamento para todos os grupos. Esssas tendências são
confirmadas pela tabela dada a seguir em que são apresentadas as médias,
desvio padrão e coeficiente de variação para a força de cisalhamento para
cada grupo.

154
120
100
Força de Cisalhamento
80
60
40

1 2 3 4 5 6 7 8 9 10
Semanas

Figura 2.26: Boxplots da força de cisalhamento segundo a semana e para


todos os grupos.

Estatı́stica Grupo A Grupo B Grupo C Grupo D Grupo E


Média 66,201 55,294 61,632 51,027 50,257
D.Padrão 18,707 13,143 19,601 10,960 11,402
C. Variação 28,20% 23,80% 31,80% 21,50% 22,70%

Já na Figura 2.26, em que são apresentados os boxplots robustos para


todos os grupos ao longo das 20 semanas, uma tendência crescente é obser-
vada até a 14a semana seguida de um decrescimento até a última semana.
Verifica-se também, para cada semana, que a distribuição da força de cisa-
lhamento mostra-se assimétrica à direita sugerindo uma distribuição gama
ou normal inversa. Esssas tendências são confirmadas pelo gráfico de perfis
para a força de cisalhamento (vide Figura 2.27) e pela tabela dada a seguir
em que são apresentadas as médias, desvio padrão e coeficiente de variação
para a força de cisalhamento para cada semana.

155
Estatı́stica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10
Média 50,95 44,66 50,08 55,57 60,15
D.Padrão 13,12 9,76 15,97 16,28 14,72
C. Variação 25,80% 21,90% 31,90% 29,30% 24,50%

Estatı́stica Semana 12 Semana 14 Semana 16 Semana 18 Semana 20


Média 57,84 71,57 65,18 60,37 52,45
D.Padrão 13,61 20,17 16,95 10,25 12,58
C. Variação 23,50% 28,20% 26,00% 17,00% 24,00%

Assim, denote por Yijk a força de cisalhamento referente à k-ésima réplica


do i-ésimo grupo na j-ésima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20
e i =1(A),2(B),3(C),4(D) e E(5). A fim de comparar as duas distribuições
ind ind
assimétricas supor que Yijk ∼ G(µij , φ) e Yijk ∼ NI(µij , φ), respectivamente,
com parte sistemática dada por

µij = α + βi + γ1 semanaj + γ2 semana2j , (2.6)

em que β1 = 0. Portanto, α é o efeito da forma A, controlando pela se-


mana, e α + βi (i=2,3,4,5) são os efeitos das demais formas B, C, D e E,
respectivamente. Está sendo assumida a mesma tendência para os cinco ti-
pos de snack. Alternativamente, poderia ser incluı́da interação entre grupo
e semana, possibilitando o ajuste de tendências separadas para cada grupo.
Para ajustar o modelo (2.6) com resposta normal inversa sem interação
deve-se usar os comandos
s1 = semana
s2 = s1*s1
fit1.snack = glm(textura ∼ grupo + s1 + s2,
family=inverse.gaussian(link=identity))
summary(fit1.snack).

156
A
B
80

C
D
E
70
Cisalhamento

60
50
40

5 10 15 20

Semanas

Figura 2.27: Perfis da força de cisalhamento segundo as semanas e os grupos.

Abaixo seguem os comandos para o ajuste com interação


fit2.snack = glm(textura ∼ grupo + s1 + s2 + s1*grupo
+s2*grupo, family=inverse.gaussian(link=identity))
summary(fit2.snack).
Contudo a interação entre grupo e semana não é significativa. Este é
um exemplo em que há uma ligeira superioridade da distribuição normal
inversa em relação à distribuição gama. Embora a função de variância da
normal inversa seja cúbica enquanto para a gama tem-se função de variância
quadrática, nem sempre é possı́vel diferenciar de forma clara os dois ajustes.
Nota-se pela Figura 2.28 que o gráfico de resı́duos de Pearson contra os valores
ajustados apresenta uma tendência sistemática crescente sob o modelo gama,
que é amenizada sob o modelo com erros normal inversa. Os dois modelos

157
ajustam-se muito bem aos dados como pode-se notar pelo valor do desvio do
modelo gama D∗ (y; µ̂) = 756, 87 (753 g.l.) com P=0,35 e pelo gráfico normal
de probabilidades para o modelo com resposta normal inversa apresentado
na Figura 2.29.

3
3

2
2

1
Componente do Desvio

Componente do Desvio
1

0
0

−1
−1

−2
−2

−3
−3

40 45 50 55 60 65 70 40 45 50 55 60 65 70
Valor Ajustado Valor Ajustado

Figura 2.28: Gráficos do resı́duo de Pearson contra o valor ajustado referentes


aos modelos gama (esquerda) e normal inversa (direita) ajustados aos dados
sobre snacks .

Tabela 2.6
Estimativas dos parâmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Efeito Estimativa E/E.Padrão
Constante 50,564 26,32
Grupo B -10,916 -6,41
Grupo C -5,459 -3,03
Grupo D -15,357 -9,42
Grupo E -16,596 -10,30
Semana 2,727 8,18
Semana2 -0,091 -5,90
φ 1005 -

158
Na Tabela 2.6 são apresentadas as estimativas sob o modelo com resposta
normal inversa. Todos os efeitos são altamente significativos, em particular o
efeito de semana na forma quadrática. Controlando esse efeito, a maior força
média de cisalhamento ocorre com o produto sob a forma A (ausência de óleo
de canola) e a menor força média de cisalhamento ocorre com as formas D e
E, confirmando-se as tendências observadas na Figura 2.22.
4
2
Componente do Desvio
0
−2
−4

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 2.29: Gráfico normal de probabilidades referente ao modelo com res-


posta normal inversa ajustado aos dados sobre snacks.

Na Figura 2.30 tem-se os valores preditos para os 5 grupos ao longo das 20


semanas. A estimativa do parâmetro de precisão indica que a distribuição da
força de cisalhamento em cada grupo, fixando o tempo, é aproximadamente
normal. Contudo, a variância depende da média. A forma cúbica para a
variância mostrou-se ligeiramente superior à forma quadrática. Outras for-
mas para ajustar a variância podem ser testadas, como por exemplo, através
de modelos de quase-verossimilhança que serão discutidos no Capı́tulo 5. O

159
paralelismo entre as curvas apresentadas na Figura 2.30 é devido à não in-
clusão de interação entre semana e grupo. Alternativamente, poderia ser
incluı́da uma função para cada grupo, ou então, o efeito semana poderia ser
controlado através de funções aditivas.
70
60
Valor Predito

50

A
B
C
D
40

5 10 15 20

Semanas

Figura 2.30: Valores preditos para a força média de cisalhamento para as 5


formas de snacks através do modelo com resposta normal inversa.

Algumas observações foram detectadas como possivelmente influentes (vide


Figura 2.31): #2 (2a semana, grupoB), #8 (2a semana, grupo B), #10 (2a
semana, grupo B), #311 (2a semana, grupo C), #405 (14a semana, grupo
C) #465 (2a semana, grupo D) e #744 (última semana, grupo E). Embora
os valores preditos para a força de cisalhamento dessas amostras estejam
abaixo da média, os valores observados são em geral altos quando compara-
dos com os valores dos grupos e das semanas correspondentes. Também o
fato de 5 dessas observações terem ocorrido logo na segunda semana pode ser
um indı́cio de alguma dificuldade inicial com o experimento. A eliminação

160
dessas 7 observações do total de 744 observações leva a algumas variações
desproporcioanis. Por exemplo, as estimativas dos efeitos dos grupos B e C
diminuem, respectivamente, 9,1% e 14%. Todavia, não ocorrem mudanças
inferenciais entre os efetios dos grupos B, C, D e E com relação ao grupo A.

10
0.20

744
465
2
0.15

311
Distância de Cook

8
405
0.10
0.05
0.00

0 200 400 600


Índice

Figura 2.31: Gráfico da distância de Cook referente ao modelo com resposta


normal inversa ajustado aos dados sobre snacks.

2.9 Modelagem simultânea da média e da dis-


persão
Eventualmente o coeficiente de variação pode não ser constante variando com
as observações. Smyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da média e do parâmetro de precisão (ou
dispersão) e desenvolveu um processo de estimação baseado no método de
máxima verossimilhança que será descrito a seguir. Contudo, outros métodos
alternativos de estimação, tais como máxima verossimilhança restrita, foram

161
propostos mais recentemente com o intuito de reduzir o viés das estimativas
de máxima verossimilhança, particularmente dos coeficientes do componente
de dispersão. Uma discussão a respeito desses métodos pode ser encontrada
em Smyth e Verbyla (1999).
A fim de formalizar os MLGs duplos supor que Y1 , . . . , Yn são variáveis
aleatórias independentes com função densidade ou função de probabilidades
expressa na forma

f (y; θi , φi ) = exp[φi {yθi − b(θi )} + c(y, φi )],

em que c(y, φi ) = d(φi ) + φi a(y) + u(y). Essa decomposição, como visto


na Seção 1.7.2, vale somente para as distribuições normal, normal inversa e
gama da famı́lia exponencial. Além disso, supor que

g(µi ) = ηi = x> >


i β e h(φi ) = λi = zi γ,

em que xi = (xi1 , . . . , xip )> e zi = (zi1 , . . . , ziq )> contêm valores de variáveis
explicativas e β = (β1 , . . . , βp )> e γ = (γ1 , . . . , γq )> são os parâmetros a
serem estimados.
Seja θ = (β > , γ > )> , então o logaritmo da função de verossimilhança fica
dado por
n
X
L(θ) = [φi {yi θi − b(θi )} + d(φi ) + φi a(yi ) + u(yi )]
i=1
Xn
= {φi ti + d(φi ) + u(yi )}, (2.7)
i=1

em que ti = yi θi − b(θi ) + a(yi ). Portanto, se θi for fixado a expressão (2.7)


coincide com o logaritmo da função de verossimilhança de um modelo da
famı́lia exponencial com respostas independentes T1 , . . . , Tn (valores obser-
vados t1 , . . . , tn ), parâmetros canônicos φ1 , . . . , φn e parâmetro de dispersão

162
igual a 1. Pelas propriedades da famı́lia exponencial segue que

µTi = E(Ti ) = −d0 (φi ) e Var(Ti ) = −d00 (φi ).

Essas quantidades são descritas na Tabela 2.7 para as distribuições normal,


normal inversa e gama. Os resultados acima podem ser obtidos, alterna-
tivamente, aplicando-se condições usuais de regularidade no logaritmo da
verossimilhança dado em (2.7).

Tabela 2.7
Derivação de algumas quantidades para distribuições da famı́lia exponencial.
Normal Normal inversa Gama
ti yi µi − 21 (µ2i + yi2 ) −{yi /2µ2i − µ−1i + (2y i )−1
} log(yi /µi ) − yi /µi
1 1
d(φ) 2
logφ 2
logφ φlogφ − logΓ(φ)
0 −1 −1
d (φ) (2φ) (2φ) (1 + logφ) − ψ(φ)
d00 (φ) -(2φ2 )−1 -(2φ2 )−1 φ−1 − ψ 0 (φ)

Conforme observado por Verbyla (1989) para as distribuições normal e


normal inversa chamando Di = −2Ti (i = 1, . . . , n) segue que

E2 (Di )
E(Di ) = φ−1
i e Var(Di ) = ,
ν
em que ν = 12 . Portanto, a expressão (2.7) pode ser interpretada para os
modelos com resposta normal e normal inversa como um MLG de respostas
independentes D1 , . . . , Dn com distribuição gama de médias φ−1 −1
1 , . . . , φn ,

respectivamente, e parâmetro de dispersão ν −1 = 2. Assim, para θi fixado,


os parâmetros da dispersão podem ser estimados alternativamente através
de um MLG com respostas independentes gama, função de ligação h(·) e
parâmetro de dispersão igual a 2.

163
2.9.1 Estimação
A função escore e a matriz de informação de Fisher para β podem ser obtidas
facilmente seguindo os passos da Seção 1.5.1. Assim, obtém-se
1 1
Uβ = X> ΦW 2 V− 2 (y − µ) e
Kββ = X> ΦWX,

em que X é uma matriz n×p de linhas x>


i (i = 1, . . . , n), W = diag{ω1 , . . . , ωn }

com pesos ωi = (dµi /dηi )2 /Vi , V = diag{V1 , . . . , Vn }, Φ = diag{φ1 , . . . , φn },


y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> .
Para obter a função escore para o parâmetro γ, será calculado inicialmente
a derivada
n  
X dφi ∂λi 0 dφi ∂λi
∂L(θ)/∂γj = ti + d (φi )
i=1
dλi ∂γj dλi ∂γj
n  
X 1 1
= 0
zij ti + d0 (φi ) 0 zij
i=1
h (φi ) h (φi )
n
X zij
= 0
{ti + d0 (φi )},
i=1
h (φi )

em que h0 (φi ) = dλi /dφi . Portanto, em forma matricial obtém-se

Uγ = Z> H−1
γ (t − µT ),

em que Hγ = diag{h0 (φ1 ), . . . , h0 (φn )}, t = (t1 , . . . , tn )> e µT = (E(T1 ), . . . , E(Tn ))>
= (−d0 (φ1 ), . . . , −d0 (φn ))> .
Para obter a matriz de informação de Fisher para o parâmetro γ é preciso
das derivadas
n  
2
X zij 00 dφi 00 0 dφi
∂ L(θ)/∂γj ∂γ` = − d (φi )h(φi ) zi` − h (φi ){ti + d (φi )} zi`
i=1
{h0 (φi )}2 dλi dλi
n
h00 (φi )
 
X zij zi` 00 0
= − 0 (φ )}2
d (φi ) − 0 {ti + d (φi )} ,
i=10
{h i h (φi)

164
cujos valores esperados ficam dados por
n
∂ 2 L(θ) d00 (φi )
  X
E − =− zij zi` .
∂γj ∂γ` i=1
{h0 (φi )}2

Logo, em forma matricial tem-se que

Kγγ = Z> PZ,

em que P = Vγ H−2 00 00
γ , Vγ = diag{−d (φ1 ), . . . , −d (φn )}. Devido à ortogona-

lidade entre os parâmetros θi e φi , segue diretamente a ortogonalidade entre


β e γ. Assim, a matriz de informação de Fisher para θ é bloco diagonal
Kθθ = diag{Kββ , Kγγ }.
Similarmente aos MLGs pode-se desenvolver um processo iterativo escore
de Fisher para encontrar as estimativas de máxima verossimilhança β̂ e γ̂.
Após algumas manipulações algébricas chega-se ao proceso iterativo

β (m+1) = (X> Φ(m) W(m) X)−1 X> Φ(m) W(m) y∗(m) e (2.8)
γ (m+1) = (Z> P(m) Z)−1 Z> P(m) z∗(m) , (2.9)

1 1
em que y∗ = Xβ + W− 2 V− 2 (y − µ), z∗ = Zγ + Vγ−1 Hγ (t − µT ) e m =
0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo iterativo
(2.8)-(2.9) pode ser resolvido alternando-se as duas equações até a con-
vergência. Pode-se iniciar o processo iterativo (2.8) com as estimativas do
MLG com φi comum a todas as observações.
Sob as condições de regularidade apresentadas na Seção 1.6.3 segue para
−1
n grande que β̂ ∼ Np (β, Kββ ) e γ̂ ∼ Nq (γ, K−1
γγ ), respectivamente. Além

disso, devido à ortogonalidade entre β e γ segue a independência assintótica


entre β̂ e γ̂.

165
2.9.2 Métodos de diagnóstico
Nesta subseção será apresentada a derivação de alguns procedimentos de
diagnóstico para a classe dos MLGs duplos (vide Paula, 2013).

Resı́duos
Na classe dos MLGs duplos pode-se definir desvios para a média e para a
precisão, respectivamente. O desvio para a média assume a mesma expressão
da classe dos MLGs em que somente a média é ajustada, com φi no lugar
de φ. Denota-se esse desvio por D∗1 (y; µ̂, φ) = ni=1 d∗2
P
1 (yi ; µ̂i , φi ), em que

d∗2
1 (yi ; µ̂i , φi ) = 2φi [yi (θ̃i − θ̂i ) + {b(θ̂i ) − b(θ̃i )}]. Para φi grande ∀i o desvio

D∗1 (y; µ̂, φ) pode ser comparado com os quantis da distribuição qui-quadrado
com (n − p) graus de liberdade. Para o modelo normal heteroscedástico o
Pn −2
desvio para a média fica dado por D∗1 (y; µ̂, φ) = 2
i=1 σi (yi − ŷi ) . Na

prática deve-se substituir φi por φ̂i = h−1 (λ̂i ) = z>


i γ̂.

O resı́duo Studentizado, no modelo normal heteroscedástico, assume a


forma
y − ŷi
t∗i = pi ,
σ̂i 1 − ĥii
−2
em que ĥii = σ̂i2 x> > −1 −2
i (X Φ̂X) xi com Φ = diag{σ1 , . . . , σn }. Para os

demais MLGs duplos o resı́duo componente do desvio para a média fica dado
por
d∗ (yi ; µ̂i , φ̂i )
tD1i = 1p ,
1 − ĥii
q
em que d∗1 (yi ; µ̂i , φ̂i ) = ± d∗2
1 (yi ; µ̂i , φ̂i ), o sinal continua sendo o mesmo de

(yi − µ̂i ) e ĥii é o i-ésimo elemento da diagonal principal da matriz


1 1
1 1
Ĥ = Φ̂ 2 Ŵ 2 X(X> Φ̂ŴX)−1 X> Φ̂ 2 Ŵ 2 ,

166
ou seja,
ĥii = φ̂i ω̂i x> > −1
i (X Φ̂ŴX) xi .

Sugere-se o gráfico normal de probabilidades para tD1i e o gráfico de tD1i


contra os valores ajustados.
Pn
Denote por D∗2 (y; φ̂, µ) = i=1 d∗2
2 (yi ; φ̂i , µi ) o desvio para a precisão,

em que d∗2
2 (yi ; φ̂i , µi ) = 2[ti (φ̃i − φ̂) + {d(φ̃i ) − d(φ̂i )}], φ̃i é solução para φi

sob o modelo saturado sendo dada por d0 (φ̃i ) = −ti . Para os modelos com
resposta normal e normal inversa tem-se que φ̃i = −(2ti )−1 . Já para modelos
com resposta gama φ̃i é a solução da equação {ψ(φ̃i ) − logφ̃i + 1} = ti . Aqui
também para φi grande ∀i o desvio D∗2 (y; φ̂, µ) pode ser comparado com os
quantis da distribuição qui-quadrado com (n − q) graus de liberdade.
O resı́duo componente do desvio para a precisão fica dado por

d∗2 (yi ; φ̂i , µ̂i )


tD2i = √ ,
1 − r̂ii
q
em que d∗2 (yi ; φ̂i , µ̂i ) = ± d∗2
2 (yi ; φ̂i , µ̂i ), o sinal sendo o mesmo de {t̂i +

d0 (φ̂i )} e r̂ii é o i-ésimo elemento da diagonal principal da matriz


1 1
R̂ = P̂ 2 Z(Z> P̂Z)−1 Z> P̂ 2 ,

ou seja,
r̂ii = p̂i z> > −1
i (Z P̂Z) zi .

Note que pi = −d00 (φi ){h0 (φi )}−2 . Por exemplo, para ligação logarı́tmica
tem-se que h(φi ) = logφi então h0 (φi ) = φ−1
i e portanto pi = −φ2i d00 (φi ).
Assim, para os modelos com resposta normal e normal inversa segue que pi =
φ2i (2φ2i )−1 = 1
2
e para os modelos com resposta gama pi = φi {φi ψ 0 (φi ) − 1}.
Sugere-se o gráfico normal de probabilidades para tD2i e o gráfico de tD2i
contra os valores ajustados.

167
Influência
Para avaliar a sensibilidade das estimativas dos parâmetros que modelam a
média pode-se usar a medida de influência LDi definida na Seção 1.10.3 com
φ̂i no lugar de φ̂, que será definida por
( )
ĥii
LDβi = t2Si ,
1 − ĥii
em que q
φ̂i (yi − µ̂i )
tSi = q .
V̂i (1 − ĥii )
Gráficos de ı́ndices de LDβi e ĥii contra os valores ajustados são recomendados.
Para avaliar a sensibilidade da estimativa γ̂ quando a i-ésima observação
é deletada será utilizada uma aproximação de um passo, que é obtida de
forma similar à aproximação de uma passo β̂ (i) descrita na Seção 1.10.3,
dada por
(Z> P̂Z)−1 zi {ti + d0 (φ̂i )}
γ̂ (i) = γ̂ − , (2.10)
h0 (φ̂i )(1 − r̂ii )
em que r̂ii é o i-ésimo elemento da diagonal principal da matriz R.
Uma medida para avaliar a influência nas estimativas dos parâmetros da
precisão fica dada por

LDγi = (γ̂ (i) − γ̂)> (Z> P̂Z)(γ̂ (i) − γ̂)


 
r̂ii
= t2Ti ,
1 − r̂ii
em que
ti + d0 (φ̂i )
tTi = p
h0 (φ̂i ) p̂i (1 − r̂ii )
ti + d0 (φ̂i )
= q .
00
−d (φ̂i )(1 − r̂ii )

168
Gráficos de ı́ndices de LDγi e r̂ii contra os valores ajustados são recomendados.
Para os modelos com resposta normal e com resposta normal inversa o
resı́duo tTi assume a forma

ti + (2φ̂i )−1
tTi = √ √ ,
( 2φ̂i )−1 1 − r̂ii
e para modelos com resposta gama tem-se que

ti + {1 + logφ̂i − ψ(φ̂i )}
tTi = q .
{ψ 0 (φ̂i ) − φ̂−1
i }(1 − r̂ii )

Verbyla (1993) apresenta uma aproximação de uma passo para γ̂ (i) para
o caso normal usando um esquema de perturbação especı́fico para modelos
normais heteroscedásticos. Para obter a aproximação apresentada em (2.10)
usa-se a ponderação de casos usual para MLGs. Estudos sobre a qualidade
da aproximação apresentada em (2.10) ainda não foram desenvolvidos.

2.9.3 Aplicação
Pela análise descritiva apresentada na Seção 2.8.1 sobre o comportamento da
força de cisalhamento dos cinco tipos de snack ao longo das 20 semanas e
também pelo gráfico de perfis para a força de cisalhamento (Figura 2.32) nota-
se que o coeficiente de variação não parece ser constante. Assim, a modelagem
dupla da média e da precisão pode levar a um ajuste mais satisfatório para
ind
o modelo com resposta gama. Dessa forma supor que Yijk ∼ G(µij , φij ),
em que Yijk denota a força de cisalhamento referente à k-ésima réplica do
i-ésimo grupo na j-ésima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20 e
i =1(A),2(B),3(C),4(D) e E(5), com parte sistemática dada por

µij = β0 + βi + β6 semanaj + β7 semana2j e


log(φij ) = γ0 + γi + γ6 semanaj + γ7 semana2j ,

169
em que β1 = 0 e γ1 = 0. Portanto β0 e γ0 são os efeitos da forma A,
controlando-se pela semana, na média e na precisão, respectivamente, en-
quanto β0 + βi e γ0 + γi são os efeitos das demais formas B, C, D e E na
média e precisão, respectivamente.

Tabela 2.8
Estimativas dos parâmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Média Dispersão
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante 36,990 11,53 1,560 7,27
Grupo B -10,783 -6,40 0,477 2,95
Grupo C -3,487 -1,98 0,050 0,31
Grupo D -14,829 -9,18 0,815 5,05
Grupo E -15,198 -9,54 0,817 5,06
Semana 5,198 9,88 0,155 3,91
Semana2 -0,189 -8,88 -0,005 -2,99

O MLG duplo pode ser ajustado no R através dos seguintes comandos:


require(dglm)
fit3.snack = dglm(cisalhamento ∼ grupo + s1 + s2,
∼ grupo + s1 + s2, family=Gamma(link=identity))
summary(fit3.snack).
Note que a biblioteca dglm faz o ajuste de log(φ−1
i ), ou seja da dispersão,

sendo necessário fazer as adaptações nos modelos com resposta gama e normal
inversa para obter log(φi ), ajuste da precisão. Em particular no caso de
modelos normais heteroscedásticos tem-se diretamente o ajuste de log(σi2 ),
em que σi2 é a variância.
Na Tabela 2.8 são apresentadas as estimativas com os respectivos erros
padrão dos parâmetros da média e da dispersão. Pode-se notar pelas estima-
tivas dos parâmetros da média as mesmas tendências observadas na Figura

170
0.35
A
B
C
D
0.30

E
CV do Cisalhamento

0.25
0.20
0.15
0.10
0.05

5 10 15 20

Semanas

Figura 2.32: Perfis do CV da força de cisalhamento segundo as semanas e os


grupos.

2.30 para o modelo com resposta normal inversa. O grupo A tem a maior
média para a força de cisalhamento enquanto os grupos D e E têm as meno-
res médias. Com relação às estimativas dos parâmetros da dispersão nota-se
que a variabilidade (no sentido do coeficiente de variação) depende do tempo
de forma quadrática e que os grupos A e C apresentam maior variabilidade
enquanto os grupos D e E apresentam as menores variabilidades.
Nota-se ainda que os mesmos efeitos que são significativos para os parâmetros
da média são também significativos para os parâmetros da dispersão. Ape-
nas três observações, #430, #595 e #744, aparecem como possivelmente
influentes nos parâmetros da média e da dispersão, como pode ser observado
pelas Figuras 2.33 e 2.34. A eliminação desses pontos não muda a inferência.
Pelos gráficos normais de probabilidades para o resı́duo componente do des-

171
0.35
744

0.30
0.25
Distancia de Cook

0.20

553

405
0.15
0.10
0.05
0.00

0 200 400 600

Indice

Figura 2.33: Gráfico da distância de Cook para as estimativas dos coeficientes


da média referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.

vio para a média e para a dispersão apresentados nas Figuras 2.35 e 2.36,
respectivamente, não há indı́cios de inadequação do MLG duplo.

2.10 Exercı́cios
1. Seja Y ∼ G(µ, φ) e considere a variável aleatória log(Y ). Use a condição
de regularidade E(Uφ ) = 0 para mostrar que E{log(Y )} = log(µ) −
log(φ) + ψ(φ), em que Uφ = ∂L(µ, φ)/∂φ.

2. Seja Y ∼ NI(µ, φ) e considere a variável aleatória Y −1 . Use a condição


de regularidade E(Uφ ) = 0 para mostrar que E(Y −1 ) = µ−1 + φ−1 , em
que Uφ = ∂L(µ, φ)/∂φ.

3. Mostre que o desvio da distribuição gama para o caso i.i.d., ou seja

172
1.0
744

0.8
0.6
Distancia de Cook

0.4
0.2
0.0

0 200 400 600

Indice

Figura 2.34: Gráfico da distância de Cook para as estimativas dos coeficientes


da dispersão referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.

iid
Yi ∼ G(µ, φ), é dado por D∗ (y; µ̂) = 2nφlog(ȳ/ỹ), em que ỹ é a média
geométrica das observações, isto é ỹ = (Πni=1 yi )1/n .

4. Sejam Yi ∼ FE(µ1 , φ1 ), i = 1, . . . , m, e Yi ∼ FE(µ2 , φ2 ), i = m +


1, . . . , n, variáveis aleatórias mutuamente independentes. Encontre a
estimativa comum de máxima verossimilhança para φ1 e φ2 sob a
hipótese H0 : φ1 = φ2 . Particularize para os casos gama e normal
inversa.
ind
5. Supor Yi ∼ N(µ, σi2 ) com log(σi2 ) = α + γzi , para i = 1, . . . , n. Como
fica a matriz modelo Z? Obtenha a estatı́stica do teste da razão de
verossimilhanças para testar H0 : γ = 0 contra H1 : γ 6= 0? Qual a dis-
tribuição nula assintótica da estatı́stica do teste? Obtenha inicialmente
as estimativas para (µ, σi2 ) sob as hipóteses H0 e H0 ∪ H1 .

173
2
Componente do Desvio

0
−2
−4

−3 −2 −1 0 1 2 3

Quantil da N(0,1)

Figura 2.35: Gráfico normal de probabilidades para o resı́duo componente


do desvio para a média referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.

ind √
6. Supor Yij ∼ NI(µ, φi ) para i = 1, 2 e j = 1, . . . , r com φ1 = λ1 = α

e φ2 = λ2 = α + ∆. Inicialmente obter as matrizes Z e P. Em
seguida obter as variâncias e covariância assintóticas Var(b
α), Var(∆)
b e
Cov(b
α, ∆)
b deixando em função dos componentes de P. Obter α
be∆
b
(use a propriedade de invariãncia). Mostre que a estatı́stica do teste
de Wald para testar H0 : ∆ = 0 contra H1 : ∆ 6= 0 pode ser expressa
na forma q q
{ φ2 − φb1 }2
b
ξW = 2r .
φb1 + φb2
Mostre que µ
b = (φb1 ȳ1 + φb2 ȳ2 )/(φb1 + φb2 ). Qual a distribuição nula
assintótica da estatı́stica do teste?

7. (Lawless, 1982, p. 338). Na tabela abaixo são apresentados os re-

174
4
2
Componente do Desvio

0
−2
−4
−6

−3 −2 −1 0 1 2 3

Quantil da N(0,1)

Figura 2.36: Gráfico normal de probabilidades para o resı́duo componente do


desvio para a dispersão referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.

sultados de um experimento em que a resistência (em horas) de um


determinado tipo de vidro foi avaliada segundo quatro nı́veis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
estão também disponı́veis no arquivo vidros.txt. Na primeira coluna
do arquivo tem-se o tempo de resistência, na segunda coluna a volta-
gem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170o C e 2: 180o C). Seja Yijk o tempo de resistência da
k-ésima amostra de vidro submetida à i-ésima temperatura e à j-ésima
voltagem.

Faça inicialmente uma análise descritiva dos dados, por exemplo apre-
sentando os perfis médios da resistência segundo a voltagem para os
dois nı́veis de temperatura. Cacule também para cada casela algumas
medidas descritivas tais como média, desvio padrão e coeficiente de

175
variação. Comente.

Voltagem(kV)
o
Temperatura ( C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588

180 959 216 241 241


1065 315 315 241
1065 455 332 435
1087 473 380 455

O interesse principal desse estudo é comparar as resistências médias,


denotadas por µij , i = 1, 2 e j = 2, 3, 4. É usual neste tipo de estudo
assumir respostas com alguma distribuição assimétrica. Assim, supor
ind
que Yijk ∼ G(µij , φ). Considere inicialmente uma reparametrização
tipo casela de referência sem interação, em que µ11 = α, µ1j = α + βj ,
µ21 = α + γ e µ2j = α + γ + βj j = 2, 3, 4.

Verifique se é possı́vel incluir a interação entre voltagem e tempera-


tura. Procure responder com o modelo final de que forma os nı́veis
de voltagem e temperatura afetam o tempo médio de resistência dos
vidros. Apresente, por exemplo, os perfis médios ajustados e interprete
a estimativa de dispersão. Faça também uma análise de diagnóstico.
iid
8. Supor Yi ∼ NI(µ, φ), para i = 1, . . . , n. Mostre que a estatı́stica do teste
da razão de verossimilhanças para testar H0 : φ = 1 contra H1 : φ 6= 1
pode ser expressa na forma

ξRV = n(φ̂−1 − 1) + n log(φ̂),

176
e mostre que φ̂ = n/D(y; µ̂) é a estimativa de máxima verossimilhança
de φ. Qual a distribuição nula assintótica da estatı́stica do teste?

9. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ G(µi , φ)


com parte sistemática dada por log(µi ) = β0 + β1 (xi − x̄). Responda
aos itens abaixo:

(a) como fica a matriz de informação de Fisher para θ = (β0 , β1 , φ)>


e a variância assintótica de β̂0 , β̂1 e φ̂?

(b) Como fica o teste de escore para testar H0 : φ = 1 contra H1 : φ 6=


1?

(c) Mostre que a estatı́stica do teste de escore para testar as hipóteses


H0 : β0 = 1, β1 = 0 contra H1 : β0 6= 1 ou β1 6= 0 pode ser expressa
na forma
φ̂0 { ni=1 (xi − x̄)(yi − e)}2
 P 
2
ξSR = 2 n(ȳ − e) + Pn 2
.
e i=1 (xi − x̄)

Qual a distribuição nula assintótica de ξSR ?

10. Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ FE(µ, φi )


com log(φi ) = α + γzi . Responda às seguintes questões:

(i) como fica a matriz modelo Z?

(ii) Calcule a variância assintótica de γ̂.

(iii) Como fica a estatı́stica de escore para testar H0 : γ = 0 contra


H1 : γ 6= 0? Qual a distribuição nula assintótica da estatı́stica do
teste?
ind
11. Supor Yi ∼ N(µ, σi ), em que log(σi ) = γ0 + γ1 zi , em que σi denota
o desvio padrão de Yi , para i = 1, . . . , n. Obter Uγ e Kγγ . Como

177
fica a estimação de µ e γ? Obtenha a estatı́stica do teste da razão de
verossimilhanças para testar H0 : γ1 = 0 contra H1 : γ1 6= 0. Qual a
distribuição nula assintótica da estatı́stica do teste?
iid
12. Supor Yi ∼ NI(µ, φ), para i = 1, . . . , n, em que γ = log(φ). Obter a
estimativa de máxima verossimilhança γ̂ (dado φ̂) e Kγγ . Como fica a
estatı́stica do teste de Wald para testar H0 : γ = 0 contra H1 : γ 6= 0?

13. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ)


com µ−1
i = α. Encontre α̂ e Var(α̂). Como fica a estatı́stica de Wald
para testar H0 : α = 1 contra H1 : α 6= 1? Qual a distribuição nula
assintótica da estatı́stica do teste?

14. Supor Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ NI(µi , φ)



e µi = ηi−1 com ηi = α + β(xi − x̄), em que x̄ = n−1 ni=1 xi ,
P

i = 1, . . . , n. Responda às seguintes questões:

(i) como fica a matriz modelo X?


(ii) Calcule as variâncias assintóticas Var(α̂) e Var(β̂). Calcule Cov(α̂, β̂)
e comente.
(iii) Como fica a estatı́stica de Wald para testar H0 : β = 0 contra
H1 : β 6= 0? Qual a distribuição nula assintótica da estatı́stica do
teste?
ind
15. Supor Yi ∼ G(µi , σi ), em que log(µi ) = ηi = x> >
i β e log(σi ) = λi = zi γ,

em que σi denota o coeficiente de variação de Yi , para i = 1, . . . , n.


Obter Uβ , Uγ , Kββ e Kγγ e desenvolva um processo iterativo duplo
para obter as estimativas de máxima verossimilhança β̂ e γ̂.

16. (Cordeiro et al., 1994). Sejam Yi , i = 1, . . . , n, variáveis aleatórias inde-


pendentes com distribuição gama de média µi e parâmetro de precisão

178
φ. Mostre que a estatı́stica da razão de verossimilhanças para testar
H0 : φ = 1 contra H1 : φ 6= 1 vale

ξRV = 2n[log(φ̂) − logΓ(φ̂) − (φ̂ − 1){1 − ψ(φ̂)}],

em que Γ(φ) é a função gama e ψ(φ) é a função digama. Use o resultado


log(φ̂) − ψ(φ̂) = D̄/2, em que D̄ = ni=1 D(yi ; µ̂i )/n denota o desvio
P

médio do modelo correspondente.

17. Supor Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
G(µi , φ) para i = 1, 2 e j = 1, . . . , m, sendo log(µ1 ) = α − β e
log(µ2 ) = α + β. (i) Obtenha a matrix modelo X. (ii) Expresse
em forma fechada as estimativas de máxima verossimilhança α̂ e β̂.
(iii) Calcule as variâncias assintóticas Var(α̂) e Var(β̂) e mostre que
Cov(α̂, β̂) = 0. (iv) Como fica o teste de escore para testar H0 : β = 0
contra H1 : β 6= 0? Qual a distribuição nula assintótica da estatı́stica
do teste?

18. No arquivo energy.txt estão descritos os dados referentes ao consumo


de energia em 53 domicı́lios (Montgomery et al., 2001, pgs. 175-178) em
que o total de energia consumido num determinado mês (em kilowatts-
hora) é utilizado para explicar a demanda de energia na hora de pico.
Faça inicialmente uma análise descritiva dos dados. Use um modelo
de regressão normal linear (com erros homocedásticos) para explicar a
demanda média no horário de pico através do consumo mensal de ener-
gia. Proponha, alternativamente, modelos com erros heteroscedásticos.
Compare os ajustes e interprete os coeficientes estimados do modelo es-
colhido.

19. (Myers et al., 2002, p. 192). A fim de avaliar-se a qualidade de


um determinado filme utilizado em máquinas fotográficas, o tempo de

179
duração do filme (em horas) é relacionado com a densidade máxima
do filme sob três condições experimentais conforme descrito na tabela
abaixo e também no arquivo dfilme.txt.

Tempo Dmax Tempo Dmax Tempo Dmax


o o
(72 C) (82 C) (92o C)
72 3,55 48 3,52 24 3,46
144 3,27 96 3,35 48 2,91
216 2,89 144 2,50 72 2,27
288 2,55 192 2,10 96 1,49
360 2,34 240 1,90 120 1,20
432 2,14 288 1,47 144 1,04
504 1,77 336 1,19 168 0,65

Faça um diagrama de dispersão entre o tempo de duração e a densi-


dade máxima para cada condição experimental e proponha um modelo
com resposta gama para ajustar esses dados. Aplique métodos de di-
agnóstico e interprete as estimativas do modelo selecionado.

20. O arquivo claims.txt contém uma amostra aleatória de 996 apólices


de seguros de veı́culos extraı́das do livro de de Jong e Heller (2008) re-
ferente ao perı́odo 2004-2005. As variáveis do arquivo estão na seguinte
ordem : (i) valorv (valor do veı́culo em 10000 dolares australianos),
(ii) expos (exposição do veı́culo), (iii) nsinistros (número de sinis-
tros no perı́odo), (iv) csinistros (custo total dos sinistros em dolares
australianos), (v) tipov (tipo do veı́culo em 11 categorias), (vi) idadev
(idade do veı́culo em 4 categorias), (vii) sexoc (sexo do condutor prin-
cipal), (viii) areac (área de residência do condutor principal) e (ix)
idadec (idade do condutor principal em 6 categorias).

Faça inicialmente uma análise descritiva dos dados e procure agrupar


em um número menor de categorias algumas variáveis categóricas. Con-

180
sidere como variável resposta cmsinistros = csinistros/nsinistros.
Aplique numa primeira etapa modelos com resposta gama e normal
inversa com φ constante. Faça uma análise de diagnóstico. Numa se-
gunda etapa, se necessário, aplique modelos duplos com resposta gama
e normal inversa. Faça também uma análise de diagnóstico. Para o
modelo final selecionado interprete os coeficientes estimados.

21. O arquivo fluxo.txt contém parte dos dados de um experimento de-


senvolvimento em 2006 nas Faculdades de Medicina e de Filosofia, Le-
tras e Ciências Humanas da USP e analisado no Centro de Estatı́stica
Aplicada do IME-USP (CEA0P16) para avaliar o fluxo da fala de fa-
lantes do Português Brasileiro segundo o gênero, idade e escolaridade.
Uma amostra de 595 indivı́duos residentes na cidade de São Paulo com
idade entre 2 e 99 anos foi avaliada segundo a fala auto-expressiva. O
indivı́duo era apresentado a uma figura e orientado a discorrer sobre
a mesma durante um tempo mı́nimo de 3 minutos e máximo de 6 mi-
nutos. Para crianças de 2 e 3 anos, as amostras foram obtidas com a
colaboração dos pais.

As variáveis estão descritas na seguinte ordem: (i) idade, idade em


anos do indivı́duo, (ii) g^
enero, gênero do indivı́duo (1:feminino, 2:mas-
culino), (iii) interj, número de interjeições durante o discurso, (iv)
fpm, fluxo de palavras por minuto e (v) fsm, fluxo de sı́labas por mi-
nuto. Para ler o arquivo no R use os comandos

fluxo = read.table("fluxo.txt", header=TRUE)

genero = factor(genero).

Faça inicialmente uma análise descritiva dos dados, boxplots indivi-


duais e diagramas de dispersão de cada variável explicativa contra fpm

181
(que será assumida como resposta). Depois proponha um modelo linear
normal homocedástico e verifique a possibilidade de também modelar
a variância.

Ajustar um modelo normal heterocedástico usando o GAMLSS. Note que


neste caso é modelado o desvio padrão ao invés da variância, como
ocorre na biblioteca dglm. Interpretar os gráficos gerados pelos coman-
dos plot, wp e term.plot.

22. No arquivo rent do gamlss são descritas 9 variáveis observadas numa


amostra aleatória de 1967 unidades habitacionais da cidade de Munich
em 1993. Para fins de análise iremos considerar as seguintes variáveis:
(i) R (valor mensal lı́quido do alugel em DM), (ii) Fl (área útil em
m2 ), (iii) A (ano da construção), (iv) H (variável binária referente à
existência de aquecimento central, 0: sim, 1: não) e (v) loc (qualidade
da localização do imóvel, 1: abaixo da média, 2: na média e 3: acima
da média). O arquivo está disponibilizado diretamente no gamlss, no
entanto é preciso informar que a variável loc é categórica através do
comando

loc=factor(loc).

A variável explicativa A é considerada contı́nua. Fazer inicialmente


uma análise descritiva dos dados, tais como densidade da variável res-
posta, boxplots e diagramas de dispersão entre as variáveis explicativas
contı́nuas e a variável resposta. Procure selecionar um modelo gama
duplo com ligação logarı́tmica para explicar o valor médio mensal do
aluguel e o coeficiente de dispersão. Fazer uma análise de diagnóstico
e interpretar os coeficientes estimados do moelo selecionado.

23. Considere o arquivo BigMac2003 da biblioteca alr4 do R, em que

182
são descritas as seguintes variáveis de 69 cidades de diversos paı́ses:

• BigMac: minutos de trabalho para comprar um Big Mac


• Bread: minutos de trabalho para comprar 1kg de pão

• Rice: minutos de trabalho para comprar 1kg de arroz


• FoodIndex: ı́ndice de preços de alimentos
• Bus: valor da passagem de ônibus (em USD)

• Apt: valor do aluguel (em USD) de um apartamento padrão de 3


dormitórios
• TeachGI: salário bruto anual (em 1000 USD) de um professor de
ensino fundamental
• TeachNI: salário lı́quido anual (em 1000 USD) de um professor de
ensino fundamental

• TaxRate: imposto pago (em porcentagem) por um professor de


ensino fundamental
• TeachHours: carga horária semanal (em horas) de um professor
de ensino fundamental.

Para disponibilizar e visualizar um resumo dos dados use na sequência


os seguintes comandos do R:

require(alr4)

require(MASS)

attach(BigMac2003)

summary(BigMac2003).

O objetivo principal do estudo é relacionar a variável BigMac com as de-


mais variáveis explicativas. Apresente a densidade da variável resposta,

183
as correlações lineares amostrais bem como os diagramas de dispersão
(com tendência) entre a variável resposta e cada uma das variáveis ex-
plicativas. Comente. Padronize as variáveis explicativas. Por exemplo,
para padronizar a variável explicativa Bread use o comando

sBread = scale(Bread, center = TRUE, scale = TRUE).

Ajustar inicialmente um modelo com resposta gama e ligação logarı́tmica


no GAMLSS através do comando

fit1.bigmac = gamlss(BigMac ∼ ·, family=GA, data=BigMac2003).

Através do procedimento stepGAIC fazer uma seleção das variáveis ex-


plicativas

fit2.bigmac = stepGAIC(fit1.bigmac).

Para o submodelo selecionado aplicar análises de resı́duos através dos


comandos plot(fit2.bigmac) e wp(big.mac). Construir o gráfico
da distância de Cook. Comente. Classifique as variáveis explicativas
segundo o impacto na explicação da média da variável resposta. Apre-
sente e comente o term.plot(fit2.big.mac).

24. No arquivo raia.txt são descritas as seguintes variáveis observadas


numa amostra de 186 descarregamentos pesqueiros na Bahia de todos
os Santos (costa nordeste brasileira), no perı́odo de janeiro de 2012 a
janeiro de 2013, referentes à captura da raia-branca através do método
artesanal grozeira: (i) periodo (perı́odo da pesca, seco ou chuvoso), (ii)
local (local da pesca, área1, área2, área3 e área4), (iii) mare (maré,
quadratura ou sizı́gia), (iv) vvento (velocidade do vento, em m/s), (v)
tmax (temperatura máxima, em o C), (vi) tmin (temperatura mı́nima,
em o C), (vii) ins (insolação, em horas) e (viii) cpue (captura por uni-

184
dade de esforço, em kg). As variáveis (iii) a (vii) foram observadas no
local de pesca.

O objetivo principal do estudo é relacionar a cpue média com as demais


variáveis explicativas. Para ler esse arquivo no R faça o seguinte:

raia = read.table("raia.txt", header=TRUE).

Para deixar o arquivo disponı́vel use o comando

attach(raia).

Informar que as variáveis local e maré são categóricas

raia$local = factor(raia$local, levels=1:4, labels=c("área1",


"área2", "área3", "área4"))

raia$mare = factor(raia$mare, levels=1:2, labels=c("quadratura",


"sizı́gia")).

Faça inicialmente uma análise descritiva construindo boxplots robustos


e diagramas de dispersão de cada variável explicativa contı́nua contra
a variável resposta cpue. Calcule também as correlações lineares entre
as variáveis. Comente.

Proponha um modelo gama com ligação logarı́tmica com todas as


variáveis explicativas e ajuste no R usando o comando glm. Use o
comando stepAIC para selecionar um submodelo. Tente incluir in-
terações de 1a ordem ao nı́vel de significância de 10%. Obtenha φb e o
correspondente erro padrão estimado, além da função desvio e o res-
pectivo valor-P. Construa o gráfico da distância de Cook e do envelope
gerado com o resı́duo componente do desvio. Verifique o impacto das
observações atı́picas e interprete os coeficientes do modelo final.

185
Finalmente, ajustar o modelo final pelo GAMLSS. Comente os gráficos
de resı́duos quantı́licos gerados pelos comandos plot e wp.

25. (Feigl e Zelen, 1965). A seguir é descrito um conjunto de dados em


que pacientes com leucemia foram classificados segundo a ausência ou
presença de uma caracterı́stica morfológica nas células brancas. Pa-
cientes classificados de AG positivo foram aqueles com a presença da
caracterı́stica e pacientes classificados de AG negativo não apresenta-
ram a caracterı́stica. É apresentado também o tempo de sobrevivência
do paciente (em semanas) após o diagnóstico da doença e o número de
células brancas (WBC) no momento do diagnóstico. Esses dados estão
descritos no arquivo sobrev.txt.

AG Positivo AG Negativo
WBC Tempo WBC Tempo
2300 65 4400 56
750 156 3000 65
4300 100 4000 17
2600 134 1500 7
6000 16 9000 16
10500 108 5300 22
10000 121 10000 3
17000 4 19000 4
5400 39 27000 2
7000 143 28000 3
9400 56 31000 8
32000 26 26000 4
35000 22 21000 3
100000 1 79000 30
100000 1 100000 4
52000 5 100000 43
100000 65

Supondo que o tempo de sobrevivência após o diagnóstico segue uma

186
distribuição gama, proponha um modelo para explicar o tempo médio
de sobrevivência dados log(WBC) e AG(=1 positivo, =0 negativo).
Faça uma análise de diagnóstico com o modelo ajustado e interprete as
estimativas.

Ajustar o modelo no GAMLSS. Interpretar os gráficos gerados pelos co-


mandos plot, wp e term.plot.

187
Capı́tulo 3

Modelos para Dados Binários

3.1 Introdução
Neste capı́tulo serão apresentados modelos para a análise de dados com res-
posta binária, isto é, resposta que admite apenas dois resultados. Comumente
é chamado de sucesso o resultado mais importante da resposta ou aquele que
pretende-se relacionar com as demais variáveis de interesse. É comum encon-
trar situações práticas em que esse tipo de resposta aparece. Como ilustração,
seguem alguns exemplos: (i) o resultado do diagnóstico de um exame de labo-
ratório, positivo ou negativo; (ii) o resultado da inspeção de uma peça recém
fabricada, defeituosa ou não defeituosa; (iii) a opinião de um eleitor a respeito
da implantação do voto distrital, favorável ou outra opinião; (iv) o resultado
de um teste de aptidão aplicado a um estudante, aprovado ou reprovado;
(v) classificação de um cliente de uma instituição financeira com relação a
um empréstimo para financiamento imobiliário, adimplente ou inadimplente;
(vi) o resultado de uma promoção de uma rede de lojas enviando para cada
cliente um cupom com desconto, cupom utilizado ou cupom não utilizado
num determinado perı́odo, etc. Há também situações em que apenas duas
possibilidades são consideradas de interesse para uma variável contı́nua, valo-

188
res menores do que um valor de referência v0 e valores maiores ou iguais a v0 .
Nesses casos, pode-se considerar uma nova variável binária para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v0
pode ser a nota mı́nima para ser aprovado no exame, ou o valor mı́nimo para
um exame de laboratório ser considerado alterado. Assim, variáveis binárias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, uma resenha dos principais métodos clássicos para a análise
de tabelas de contingência do tipo 2 × 2 será apresentada neste capı́tulo. Em
seguida, será descrito o modelo de regressão logı́stica para a análise de tabelas
de contingência 2×2. Também serão discutidos procedimentos para a seleção
de variáveis em modelos logı́sticos, métodos de diagnóstico, alguns tipos de
modelos de dose-resposta, sobredispersão e regressão logı́stica condicional.

3.2 Métodos clássicos: uma única tabela 2 × 2


Métodos clássicos em tabelas de contingência 2 × 2 são datados da década de
1950. Os primeiros trabalhos foram motivados pelo interesse na inferência
de certos parâmetros com grande aplicabilidade na área biomédica, espe-
cialmente em Epidemiologia, tais como risco relativo e razão de chances.
Vários trabalhos foram publicados durante as décadas de 1950 e 1960 e até
hoje as técnicas desenvolvidas têm sido utilizadas, particularmente na análise
descritiva dos dados, antes de um tratamento mais sofisticado através de mo-
delagem estatı́stica de regressão. Nesta seção será apresentada uma resenha
das principais técnicas segundo o ponto de vista inferencial clássico. Embora
a metodologia apresentada possa ser aplicada em qualquer área do conhe-
cimento, será dado ênfase para a área biomédica em que tem ocorrido um
número maior de aplicações.

189
3.2.1 Risco relativo
Supor que os indivı́duos de uma determinada população sejam classificados
segundo um fator com dois nı́veis, A e B, e a presença ou ausência de uma
certa doença, denotados por D e D̄, respectivamente. As proporções popu-
lacionais ficam, nesse caso, descritas conforme a tabela abaixo.

Fator
Doença A B
D P 1 P3
D̄ P 2 P4

Portanto, pode-se definir as seguintes quantidades:

P1 /(P1 + P2 ) : proporção de indivı́duos classificados como doentes no grupo


Ae

P3 /(P3 + P4 ) : proporção de indivı́duos classificados como doentes no grupo


B.

A razão entre as duas proporções acima foi denominada por Cornfield (1951)
como sendo o risco relativo de doença entre os nı́veis A e B, ou seja
P1 /(P1 + P2 ) P1 (P3 + P4 )
RR = = . (3.1)
P3 /(P3 + P4 ) P3 (P1 + P2 )

Cornfield (1951) também notou que se a doença for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
P1 P4
ψ= , (3.2)
P3 P2
a qual denominou odds ratio, que será denominada razão de chances. Muitas
vezes é comum ψ ser chamado de risco relativo, embora isso somente seja
válido quando P1 e P3 forem muito pequenos. A grande vantagem do uso de ψ

190
é a facilidade inferencial tanto na abordagem tradicional como na abordagem
através de regressão.
Como em geral a porcentagem de indivı́duos doentes é muito menor do
que a porcentagem de não doentes, é bastante razoável num estudo cujo ob-
jetivo é avaliar a associação entre algum fator particular e uma certa doença,
que a quantidade de doentes na amostra seja a maior possı́vel. Assim, a amos-
tragem retrospectiva, em que os indivı́duos são escolhidos separadamente nos
estratos D e D̄, pode ser mais conveniente do que os demais procedimentos
amostrais. Um cuidado, entretanto, deve-se ter nesses estudos. É impor-
tante que os doentes (casos) sejam comparáveis aos não doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doença. Nos estudos prospectivos, em que a amostragem é
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessário um longo perı́odo até a obtenção de um número
suficiente de doentes para uma análise estatı́stica mais representativa.
As inferências para os estudos retrospectivos e prospectivos são idênticas,
assim será descrito apenas o caso retrospectivo. Assim, assume-se que no es-
trato D são amostrados n1 indivı́duos e que no estrado D̄ são amostrados n2
indivı́duos. O número observado de indivı́duos com presença de A nos estra-
tos D e D̄ será denotado por y1 e y2 , respectivamente. Os dados resultantes
dessa amostragem podem ser resumidos conforme a tabela abaixo.

Fator
Doença A B Total
D y1 n1 − y1 n1
D̄ y 2 n2 − y 2 n2

Esse tipo de abordagem pode ser estendida para quaisquer situações


práticas em que pretende-se comparar dois estratos de uma determinada

191
população segundo a ocorrência de algum evento de interesse. Por exemplo,
A poderia denotar os condutores do sexo masculino com apólice de seguro
de automóvel de uma seguradora, enquanto B denotaria os condutores do
sexo feminino da mesma seguradora. O evento D poderia ser a utilização da
apólice para cobrir alguma sinistralidade num determinado perı́odo. Assim,
pode-se estimar a razão de chances entre condutores do sexo masculino e con-
dutores do sexo feminino de utilização da apólice para cobrir sinistralidade.
Como o evento D neste caso não deve ser raro, risco relativo e razão de chan-
ces devem ser quantidades diferentes. A seguir será discutida a abordagem
clássica para analisar a tabela acima.

3.2.2 Modelo probabilı́stico não condicional


Denota-se por Y1 e Y2 o número de indivı́duos com presença de A nos estratos
D e D̄, respectivamente. Será também assumido que essas variáveis são bino-
miais independentes, isto é Y1 ∼ B(n1 , π1 ) e Y2 ∼ B(n2 , π2 ), respectivamente.
Logo, a função de probabilidade conjunta de (Y1 , Y2 ) fica dada por
  
n1 n2 y1 y2
f (y1 , y2 ; π1 , π2 ) = π1 π2 (1 − π1 )n1 −y1 (1 − π2 )n2 −y2 . (3.3)
y1 y2
Seguindo a notação da seção anterior, tem-se que π1 = P1 /(P1 +P3 ), 1−π1 =
P3 /(P1 + P3 ), π2 = P2 /(P2 + P4 ) e 1 − π2 = P4 /(P2 + P4 ). Assim, mostra-se
que
P1 P 4 π1 (1 − π2 )
ψ= = ,
P3 P2 π2 (1 − π1 )
e consequentemente que π1 = π2 ψ/{π2 ψ + 1 − π2 }. A expressão (3.3) pode
então ser expressa apenas em função de (ψ, π2 ),
     
n1 n2 π2
f (y1 , y2 ; ψ, π2 ) = exp log + y1 log(ψ) + (y1 + y2 ) log ×
y1 y2 1 − π2
(1 − π2 )n
× , (3.4)
(ψπ2 + 1 − π2 )n1

192
em que n = n1 + n2 . O logaritmo da função de verossimilhança fica portanto
dado por
    
n1 n2 π2
L(ψ, π2 ) = log + y1 log(ψ) + (y1 + y2 ) log +
y1 y2 1 − π2
+n log(1 − π2 ) + n1 log(ψπ2 + 1 − π2 ).

Pode-se mostrar que a maximização de L(ψ, π2 ) leva às estimativas de máxima


y2 y1 (n2 −y2 )
verossimilhança π̃2 = n2
e ψ̃ = y2 (n1 −y1 )
, respectivamente.
A variância assintótica de ψ̃ é expressa na forma
 
2 1 1
VarA (ψ̃) = ψ + .
n1 π1 (1 − π1 ) n2 π2 (1 − π2 )
Esse resultado pode ser mostrado utilizando teoria assintótica relacionada
com os estimadores de máxima verossimilhança de π2 e ψ, sendo as corres-
pondentes variâncias assintóticas obtidas através da inversa da matriz de
informação de Fisher para (ψ, π2 ). Outra possibilidade para mostrar esse re-
sultado é através da aplicação do método delta, em que obtém-se a variância
assintótica de ψ̃ através das variâncias e covariância assintóticas de π̃1 e π̃2 .
Assim, para n1 e n2 grandes, tem-se que
 >  
∂ψ ∂ψ
VarA (ψ̃) = VarA (π̃) ,
∂π ∂π

em que [∂ψ/∂π] = [∂ψ/∂π1 , ∂ψ/∂π2 ]> e VarA (π̃) = diag{ π1 (1−π


n1
1 ) π2 (1−π2 )
, n2 }
com π = (π1 , π2 )> .
Alguns autores preferem trabalhar com log(ψ), uma vez que a apro-
ximação assintótica para a distribuição normal é mais rápida para log(ψ̃)
do que para ψ̃. Assim, pode-se mostrar sob condições gerais de regulari-
dade, que a estimativa não condicional log(ψ̃) segue para grandes amostras
distribuição normal de média log(ψ) e variância assintótica VarA {log(ψ̃)} =

193
{1/n1 π1 (1 − π1 ) + 1/n2 π2 (1 − π2 )}. Esse resultado também pode ser facil-
mente mostrado através do método delta aplicado à transformação log(ψ),
em que
VarA {log(ψ̃)} = {d log(ψ)/dψ}2 VarA (ψ̃)

com d log(ψ)/dψ = 1/ψ 2 .


Em virtude de E(ψ̃) = ∞, que impossibilita qualquer tipo de inferência
para pequenas amostras, testes exatos usando um modelo condicional tem
sido preferido. Esses testes serão discutidos na próxima seção.

3.2.3 Modelo probabilı́stico condicional


Devido aos problemas inferenciais com o modelo não condicional para pe-
quenas amostras, a utilização de um modelo condicional, cuja construção
será discutida a seguir, tem sido a solução encontrada sob o ponto de vista
clássico para fazer inferências a respeito de ψ.
Assim, aplicando o teorema da fatorização para a função de probabili-
dade (3.4), mostra-se que o conjunto de estatı́sticas (Y1 , Y1 + Y2 ) é suficiente
minimal para o vetor de parâmetros [logψ, log{π2 /(1 − π2 )}]. Logo, a distri-
buição de (Y1 , Y2 ) condicionada a Y1 + Y2 = m, deverá resultar numa função
de probabilidade que depende apenas do parâmetro de interese ψ. Essa dis-
tribuição resultante (ver Cornfield, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatı́stica Y1 + Y2 não é ancilar para ψ; isto é,
contém informações a respeito do parâmetro ψ (ver discussão, por exemplo,
em Lehnman e Casella, 2011).
O condicionamento de (Y1 , Y2 ) em Y1 +Y2 = m produz o modelo caracteri-
zado pela famı́lia de distribuições hipergeométricas não centrais, cuja função

194
de probabilidade é definida por
n1 n2
 
y1m−y1
ψ y1
f (y1 |m; ψ) = P n1  n2  t , (3.5)
t t m−t
ψ
em que 0 < ψ < ∞ e t varia de max(0, m − n2 ) a min(n1 , m). Em particu-
lar, quando ψ = 1, a expressão (3.5) fica reduzida à conhecida distribuição
hipergeométrica central, com função de probabilidade dada por
n1
 n2 
y1 m−y1
f (y1 |m; ψ = 1) = n1 +n2
 .
m

A média e a variância de Y1 |m são, respectivamente, dadas por


mn1
E(1) = E(Y1 |m; ψ = 1) =
n
e
n1 n2 (n − m)m
V(1) = Var(Y1 |m; ψ = 1) = .
n2 (n − 1)
Para o modelo condicional (3.5) o logaritmo da função de verossimilhança
fica expresso na forma
   ( )
n1 n2 X n1  n2 
t
L(ψ) = log + y1 log(ψ) − log ψ .
y1 y2 t
t m−t

Denote por ψ̂ a estimativa de máxima verossimilhança condicional. Essa esti-


mativa pode ser expressa como a solução positiva da equação y1 = E(Y1 |m; ψ̂).
Tem-se que o momento de ordem r da distribuição condicional, E(Y1r |m; ψ)
é dado por E(Y1r |m; ψ) = Pr (ψ)/P0 (ψ), em que
X n1  n2 
Pr (ψ) = tr ψ t , r = 1, 2, . . .
t
t m−t
P n1  n2  t
e P0 (ψ) = t t m−t
ψ . Assim, a equação de máxima verossimilhança
para obter ψ̂ fica reescrita na forma
P1 (ψ̂)
y1 − = 0. (3.6)
P0 (ψ̂)

195
Com o aumento de n1 , n2 , m e n − m, fica impraticável obter ψ̂ através
de (3.6), uma vez que essa equação contém polinômios em ψ̂ de grau bas-
tante elevado. Uma saı́da, nesses casos, é resolver (3.6) através de métodos
numéricos que não requerem a extração das raı́zes do polinômio P1 (ψ)P0−1 (ψ)
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
Para ilustrar a obtenção de ψ̂, considere a tabela abaixo.

A B Total
D 1 3 4
D̄ 1 2 3
Tem-se, nesse caso, que n1 = 4, n2 = 3 e m = 2. A função de probabilidade
da distribuição condicional fica então dada por
   X 4 3 
4 3 y1
f (y1 |m; ψ) = ψ / ψt,
y1 2 − y1 t
t 2 − t
em que o somatório varia no intervalo 0 ≤ t ≤ 2. Isso resulta nas probabili-
dades condicionais

f (0|m; ψ) = 3/{3 + 12ψ + 6ψ 2 }


f (1|m; ψ) = 12ψ/{3 + 12ψ + 6ψ 2 } e
f (2|m; ψ) = 6ψ 2 /{3 + 12ψ + 6ψ 2 }.

A equação E(Y1 |m; ψ̂) = y1 fica então dada por

12ψ̂ + 12ψ̂ 2 = 3 + 12ψ̂ + 6ψ̂ 2 ,

que é equivalente a 6ψ̂ 2 = 3 ou ψ̂ = 0, 707.


Similarmente ao estimador não condicional, pode-se mostrar para grandes
amostras que ψ̂ segue distribuição normal de média ψ e variância assintótica
−1
VarA (ψ̂) = VA (ψ), em que

196
 
−1 1 1 1 1
VA (ψ) = + + + ,
EA (ψ) n1 − EA (ψ) m − EA (ψ) n2 − m + EA (ψ)

e EA (ψ) sai da equação

EA (ψ){n2 − m + EA (ψ)}
= ψ, (3.7)
{n1 − EA (ψ)}{m − EA (ψ)}
que para ψ fixo resulta numa equação quadrática em EA (ψ). Mostra-se,
para ψ 6= 1, que a única raiz de (3.7) que satisfaz max(0, m − n2 ) ≤ EA (ψ) ≤
min(n1 , m) é dada por

EA (ψ) = ||r| − s|,


1
em que r = 21 [n/(ψ − 1) + m + n1 ] e s = [r2 − mn1 ψ/(ψ − 1)] 2 .
Quando ψ = 1, a expressão (3.7) não resulta numa forma quadrática em
EA (ψ). Verifica-se facilmente, nesse caso, que
mn1
EA (1) =
n
e
n1 n2 m(n − m)
VA (1) = .
n3
Pode-se notar que a média e a variância assintótica de ψ̂, quando ψ = 1,
coincidem praticamente com a média e a variância da distribuição condicional
dada em (3.5).

3.2.4 Teste de hipóteses


Testes exatos
Uma vez conhecida a distribuição condicional que depende apenas do parâmetro
de interesse ψ, pode-se desenvolver testes exatos para pequenas amostras.

197
Um caso de interesse seria testar H0 : ψ = ψ0 contra H1 : ψ < ψ0 , em que
ψ0 é um valor conhecido. O nı́vel descritivo (valor-P) do teste, isto é, a pro-
babilidade sob H0 de obtenção de valores tão ou mais desfavoráveis a H0 (no
sentido de H1 ) é definido por
X
PI = f (t|m; ψ0 ),
t≤y1

em que o somatório vai de max(0, m − n2 ) até y1 . Analogamente, para testar


P
H0 : ψ = ψ0 contra H1 : ψ > ψ0 , tem-se que PS = t≥y1 f (t|m; ψ0 ). Nesse
caso, o somatório vai de y1 até min(n1 , m). Para o teste bilateral, H0 : ψ = ψ0
contra H1 6= ψ0 , o nı́vel descritivo é definido por P= 2min{PI , PS }.
Em particular, quando ψ0 = 1, está sendo testada a não existência
de associação entre o fator e a doença, sendo o teste resultante conhecido
como teste exato de Fisher (ver, por exemplo, Everitt, 1977). Nesse caso,
o nı́vel descritivo é obtido computando as probabilidades da distribuição hi-
pergeométrica central.
Pode-se também utilizar o modelo condicional (3.5) para a estimação
intervalar de ψ. Os respectivos limites de confiança serão baseados em PI
e PS e denotados por ψ̂I e ψ̂S , respectivamente. Como ilustração, supor
que o interesse é construir um intervalo de confiança de coeficiente (1 − α)
para ψ. Os limites ψ̂I e ψ̂S ficam então, invertendo a região crı́tica do teste
H0 : ψ = ψ0 contra H1 : ψ 6= ψ0 , determinados pelas equações

α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I ),
2 t≤y 2 t≥y
1 1

que são polinômios de grau elevado em ψ̂S e ψ̂I à medida que os tamanhos
amostrais crescem, o que praticamente inviabiliza a solução das equações.
Nesses casos, uma alternativa é trabalhar com intervalos assintóticos.

198
Voltando à tabela da seção anterior, supor que o interesse é testar H0 :
ψ = 1 contra H1 : ψ 6= 1. Tem-se então os nı́veis descritivos PI = f (0|m; ψ =
1) + f (1|m; ψ = 1) = 15/21 e PS = f (1|m; ψ = 1) + f (2|m; ψ = 1) = 18/21
o que leva a P= 1, 0. Por outro lado, os limites ψ̂I e ψ̂S ficam dados por

1 2
α X α X
= f (t|m; ψ̂S ) e = f (t|m; ψ̂I )
2 t=0
2 t=1

que é equivalente, supondo α = 0, 20, a

0, 10 = f (0|m; ψ̂S ) + f (1|m; ψ̂S ) e 0, 10 = f (1|m; ψ̂I ) + f (2|m; ψ̂I ),

que levam às equações

4ψ̂I + 2ψ̂I2
0, 10 = (ψ̂I = 0, 0274)
1 + 4ψ̂I + 2ψ̂I2
e
1 + 4ψ̂S
0, 10 = (ψ̂S = 18, 25).
1 + 4ψ̂S + 2ψ̂S2

Testes assintóticos
Para grandes amostras, n1 , n2 , m e n − m grandes, a distribuição condicional
(3.5) se aproxima de uma distribuição normal de média EA (ψ) e variância
VA (ψ) (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para
o desenvolvimento de testes assintóticos para testar H0 : ψ = ψ0 contra
H1 : ψ 6= ψ0 (H1 : ψ > ψ0 ou H1 : ψ < ψ0 ). No caso de H1 : ψ 6= ψ0 , utiliza-se
a estatı́stica qui-quadrado dada abaixo

{y1 − EA (ψ0 )}2


X2 = , (3.8)
VA (ψ0 )

199
que sob H0 segue assintoticamente distribuição qui-quadrado com 1 grau de
liberdade. Para H1 : ψ < ψ0 e H1 : ψ > ψ0 , o nı́vel descritivo é dado por
( )
y1 − EA (ψ0 )
PI = P r Z ≤ p
VA (ψ0 )
e ( )
y1 − EA (ψ0 )
PS = P r Z ≥ p ,
VA (ψ0 )
respectivamente, em que Z segue distribuição N(0, 1). Em particular, quando
ψ0 = 1, a estatı́stica qui-quadrado (3.8) fica reduzida à forma conhecida

2
y1 − mn

1
2 n
X = . (3.9)
n1 n2 m(n − m)/n3
Um intervalo assintótico de confiança para ψ pode ser obtido utilizando
a distribuição assintótica de log(ψ̃). Os limites desse intervalo são dados por
q
ψ̃I = exp[log(ψ̃) − z(1−α/2) V̂arA {log(ψ̃)}]

e q
ψS = exp[log(ψ̃) + z(1−α/2) V̂arA {log(ψ̃)}],

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão e


 
1 1 1 1
V̂arA {log(ψ̃)} = + + + .
y 1 n1 − y 1 y 2 n2 − y 2
Esses limites podem ser expressos em uma outra forma, levando-se em conta
a estatı́stica qui-quadrado para testar H0 : ψ = 1 contra H1 : ψ 6= 1. Essa
estatı́stica é denotada por

{log(ψ̃)}2
X2 = , (3.10)
V̂arA {log(ψ̃)}

200
que segue, para grandes amostras, distribuição qui-quadrado com 1 grau de
liberdade. Assim, os limites ficam reexpressos nas formas

ψ̃I = ψ̃ (1−z(1−α/2) /X)

e
ψ̃S = ψ̃ (1+z(1−α/2) /X) .

Alguns autores (ver Breslow e Day, 1980, p. 135) têm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (ψ̃I , ψ̃S ) é em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 são muito
diferentes, essa probabilidade de cobertura é superestimada. Uma sugestão,
nesses casos, é utilizar o valor de X obtido do teste condicional (3.9) em vez
do valor obtido do teste não condicional (3.10).

3.3 Métodos clássicos: k tabelas 2 × 2


Muitas vezes tem-se interesse em controlar a associação entre dois fatores
binários através de um terceiro fator, comumente chamado de fator de con-
fundimento. O principal objetivo com esse tipo de estratificação é eliminar
ou pelo menos reduzir a influência desses fatores na associação de interesse.
Uma maneira mais eficiente de controlar fatores de confundimento é através
da regressão logı́stica, que será discutida na Seção 3.6. Nesta seção, será
considerado apenas um fator de confundimento com k nı́veis, que são amos-
trados ni indivı́duos no i-ésimo estrato (n1i casos e n2i controles) e que os
mesmos são classificados conforme a tabela 2 × 2 abaixo.

Fator
Doença A B Total
D y1i n1i − y1i n1i
D̄ y2i n2i − y2i n2i

201
Seguindo a mesma notação das seções anteriores tem-se que as estimativas
não condicional e condicional de ψi são, respectivamente, tais que

y1i (n2i − y2i ) P1i (ψ̂i )


ψ̃i = e y1i − = 0.
y2i (n1i − y1i ) P0i (ψ̂i )

As propriedades assintóticas de ψ̃i e ψ̂i são as mesmas de ψ̃ e ψ̂ da Seção 3.2,


bem como as formas dos testes de hipóteses e da estimação intervalar.

3.3.1 Estimação da razão de chances comum


Um teste de interesse quando há k tabelas de contingência 2 × 2 é verificar a
ausência de interação entre os estratos, isto é, verificar se a associação entre
o fator e a doença não muda de um estrato para o outro. Isso é equivalente a
verificar se as razões de chances são homogêneas, ou seja, testar as hipóteses

H0 : ψ1 = · · · = ψk
H1 : pelo menos dois valores diferentes.

Há várias propostas de estimativas para a razão de chances comum. As


estimativas de máxima verossimilhança não condicional e condicional serão
denotadas por ψ̃ e ψ̂, respectivamente. A primeira estimativa pode ser ob-
tida facilmente através do ajuste de uma regressão logı́stica, enquanto que a
segunda é mais complexa do ponto de vista computacional e será omitida.
Duas estimativas não iterativas foram propostas por Mantel e Haenszel
(1959) e Wolf (1955), as quais serão denotadas por ψ̂M H e ψ̂W , respectiva-
mente. A estimativa de Mantel-Haenszel é definida por
Pk
y1i (n2i − y2i )/ni
ψ̂M H = Pki=1 ,
i=1 y2i (n1i − y1i )/ni

e pode também ser expressa como uma média ponderada de estimativas não

202
condicionais Pk
vi ψ̃i
ψ̂M H = Pi=1
k
,
i=1 vi
em que vi = y2i (n1i − y1i )/ni . O estimador de Mantel-Haenszel é consistente
e assintoticamente normal com variância assintótica dada por
k
X k
X
VarA (ψ̂M H ) = ψ 2
ai ωi−1 /( ai )2 ,
i=1 i=1

em que ωi = {n1i π1i (1 − π1i )}−1 + {n2i π2i (1 − π2i )}−1 e ai = n1i n2i (1 −
π1i )π2i /ni . A estimativa de Wolf é dada por
(P )
k −1
ω̃
i=1 i log( ψ̃ i )
ψ̂W = exp Pk −1
,
i=1 ω̃i

em que ω̃i = {1/y1i + 1/(n1i − y1i ) + 1/y2i + 1/(n2i − y2i )}. Esse estimador é
também consistente e assintoticamente normal com variância dada por

VarA (ψ̂W ) = ψ 2 ω −1 ,

em que ω = ω1−1 + · · · + ωk−1 . Como log(ψ̂W ) converge mais rapidamente para


a distribuição normal do que ψ̂W , uma estimativa intervalar de coeficiente de
coefiança (1 − α) para ψ comum fica dada por
q
ψ̃I = exp[log(ψ̂W ) − z(1−α/2) V̂arA {log(ψ̂W )}]

e q
ψS = exp[log(ψ̂W ) + z(1−α/2) V̂arA {log(ψ̂W )}],

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão e


V̂arA {log(ψ̂W )} = 1/ ki=1 ω̃i−1 . Similarmente pode-se encontrar estimativas
P

assintóticas intervalares para ψ comum utilizando o estimador de Mantel-


Haenszel.

203
3.3.2 Testes de homogeneidade
Supor que o interesse é testar as hipóteses H0 e H1 definidas na seção ante-
rior. A estatı́stica da razão de verossimilhanças que assume o produto de 2k
binomiais independentes é a mais utilizada nesse caso. Do ponto de vista de
análise preliminar dos dados, duas estatı́sticas têm sido sugeridas. A primeira
delas (vide Hosmer et al., 2013), é definida abaixo
k
X
2
XHL = ω̃i−1 {log(ψ̃i ) − log(ψ̂W )}2 ,
i=1

que segue, sob H0 e assintoticamente (para n1i e n2i grandes, ∀i), distribuição
qui-quadrado com k − 1 graus de liberdade. A outra estatı́stica, definida em
Breslow e Day (1980, p. 42), é baseada no modelo condicional, sendo expressa
na forma
k
2
X {y1i − EAi (ψ̂M H )}2
XBD = ,
i=1 VAi (ψ̂M H )
que também segue, sob H0 e para grandes amostras, distribuição qui-quadrado
com k − 1 graus de liberdade. A estatı́stica do teste é avaliada na estimativa
não iterativa de Mantel-Haenszel ao invés da estimativa condicional ψ̂.
Quando a hipótese nula não é rejeitada, um teste imediato é verificar a
não existência de associação entre o fator e a doença, mantendo apenas o
efeito da estratificação. Esse teste, conhecido como teste de Mantel-Haenszel
(1959), utiliza a seguinte estatı́stica:
Pk Pk
2 { i=1 y1i − i=1 EAi (1)}2
XM H = Pk ,
i=1 VAi (1)

que, sob H0 : ψ = 1, segue para grandes amostras (ni grande ∀i ou para k


grande) distribuição qui-quadrado com 1 grau de liberdade. Similarmente ao
caso de uma única tabela 2 × 2, um intervalo assintótico de confiança para

204
ψ com coeficiente de confiança (1 − α) fica dado por

(1±z /XM H )
(ψ̂I , ψ̂S ) = ψ̂M H (1−α/2) ,
p
2
em que XM H = XM H . Para melhorar a aproximação para a distribuição

normal, é usal aplicar correção de continuidade no teste de Mantel-Haenszel.

3.4 Métodos clássicos: tabelas 2 × k


A dicotomização de um fator com mais de 2 nı́veis, a fim de deixar mais
simples o estudo da associação entre esse fator e uma determinada doença,
pode omitir informações relevantes acerca da associação de cada um dos
nı́veis agrupados e a doença em estudo. Assim, sempre que possı́vel, deve-se
manter para as análises o maior número possı́vel de nı́veis do fator. Uma
tabela resultante, nesse caso, é dada abaixo.

Fator
Doença Nı́vel 1 Nı́vel 2 · · · Nı́vel k Total
n1 − k−1
P
D y11 y12 ··· y1i n1
Pi=1k−1
D̄ y21 y22 ··· n2 − i=1 y2i n2

Analogamente ao caso de uma única tabela 2×2, assume-se que são amostra-
dos n1 elementos do estrato D e n2 elementos do estrato D̄ e que (Yi1 , . . . , Yik )>
segue distribuição multinomial de parâmetros (πi1 , . . . , πik )> , com πik =
1 − k−1
P
j=1 πij , i = 1, 2. Comumente, para analisar as associações entre os

nı́veis do fator e a doença, define-se um nı́vel do fator como referência, que


formará com os demais as razões de chances. Escolhendo o nı́vel 1 como
referência, as razões de chances ficam dadas por
π1j π21
ψ1 = 1 e ψj = , j = 2, . . . , k,
π2j π11

205
em que ψj é a razão de chances entre o nı́vel j e o nı́vel 1 do fator. As
análises inferenciais através do uso do modelo multinomial são tratadas em
textos correntes de análise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, o estudo será restrito ao modelo condicional, que é obtido após
o condicionamento de (Yi1 , . . . , Yik )> , i = 1, 2, nas estatı́sticas suficientes mi-
nimais Y1j + Y2j = mj , j = 1, · · · , k. O modelo resultante é caracterizado
pela distribuição hipergeométrica multivariada não central que depende ape-
nas dos parâmetros de interesse ψ1 , . . . , ψk (ver McCullagh e Nelder, 1989,
p. 261). Em particular, a hipótese de ausência de associação completa entre
os nı́veis do fator e a doença é definida por H0 : ψj = 1, ∀j, que será avaliada
através da distribuição hipergeométrica central k-dimensional, cuja função
de probabilidade é o produto de k distribuições hipergeométricas centrais
n1j
k
 n2j 
y1j mj −y1j
Y
f (y1 |m; ψ = 1) = n1j +n2j
 , (3.11)
j=1 mj

em que y1 = (y11 , . . . , y1k )> , m = (m1 , . . . , mk )> e ψ = (ψ1 , . . . , ψk )> . A


média, variância e covariância correspondentes à distribuição (3.11) são, res-
pectivamente, dadas por
mj n1
Ej (1) = E(Y1j |mj ; ψ = 1) = ,
n
n1 n2 (n − mj )mj
Vj (1) = Var(Y1j |mj ; ψ = 1) =
n2 (n − 1)
e
mj m` n1 n2
Cj` = Cov(Y1j , Y1` |mj , m` ; ψ = 1) = − , j 6= `,
n2 (n − 1)
em que n = n1 + n2 . Um teste estatı́stico para H0 , que tem sido largamente
utilizado para testar a homogeneidade de k proporções (Armitage, 1971), é

206
dado por
k  
(n − 1) X 1 1
XA2 = {y1j − Ej (1)}2
+
n j=1
Ej (1) mj − Ej (1)
 k
1 X {y1j − Ej (1)}2

1
= (n − 1) + , (3.12)
n1 n2 j=1 mj

que segue, sob H0 e para valores grandes de n1 , n2 e mj , ∀j, distribuição qui-


quadrado com k −1 graus de liberdade. Entretanto, quando os nı́veis do fator
são quantitativos ou qualitativos ordinais, pode ser mais informativo o uso
de um teste para a tendência do risco da doença com o aumento dos nı́veis
do fator. Como ilustração, supor que há k doses xj , j = 1, . . . , k, associadas
aos k nı́veis do fator. Um teste apropriado é considerar a regressão dos
desvios {y1j − Ej (1)} sobre xj (Armitage, 1955; Mantel, 1963). A estatı́stica
correspondente fica dada por
n2 (n − 1)[ kj=1 xj {y1j − Ej (1)}]2
P
2
XHOM = , (3.13)
n1 n2 {n kj=1 x2j mj − ( kj=1 xj mj )2 }
P P

que segue, para grandes amostras e sob H0 , distribuição qui-quadrado com


k − 1 graus de liberdade.
Uma outra maneira de analisar a associação entre o fator e a doença
é através da amostragem nos k nı́veis do fator de interesse. Nesse caso,
a distribuição resultante é um produto de k binomiais independentes e a
hipótese de ausência de associação entre o fator e a doença pode ser avaliada
através do ajuste de uma regressão logı́stica, que será discutida na Seção 3.6.
Por outro lado, se também forem fixados os totais n1 e n2 , a distribuição
condicional resultante é uma hipergeométrica não central k-dimensional que
sob H0 fica reduzida a (3.11). Logo, as estatı́sticas dadas em (3.12) e (3.13)
podem ser aplicadas, pelo menos numa análise preliminar dos dados, para
avaliar a ausência de associação total entre o fator e a doença.

207
Generalizações de (3.12) e (3.13) para o caso de h estratos são dadas em
Breslow e Day (1980, pgs. 148-149).

3.5 Aplicações
3.5.1 Associação entre fungicida e desenvolvimento de
tumor
Como ilustração, será analisado o conjunto de dados apresentado em Innes
et al. (1969), referente a um estudo para avaliar o possı́vel efeito cancerı́geno
do fungicida Avadex. No estudo, 403 camundongos são observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, veri-
ficando o desenvolvimento ou não de tumor cancerı́geno. Os demais animais
não receberam o fungicida (grupo controle) e também foram acompanhados
pelo mesmo perı́odo, verificando a ocorrência ou não de tumor. Dois fatores
potenciais de confundimento, sexo e raça, foram considerados nas análises.
Os dados do experimento são resumidos na Tabela 3.1.
Em virtude dos valores relativamente altos das marginais das quatro ta-
belas 2 × 2 formadas pela combinação dos fatores sexo e raça, será aplicada
uma análise através do modelo não condicional. Tem-se então, na primeira
coluna da Tabela 3.2, as estimativas pontuais das razões de chances de tu-
mor maligno entre o grupo tratado e o grupo controle. Na segunda coluna
tem-se as estimativas intervalares assintóticas de 95% para ψ. Nota-se que,
embora todas as estimativas sinalizem para uma associação positiva, ape-
nas o primeiro intervalo de confiança não cobre o valor ψ = 1, evidenciando
associação apenas no primeiro estrato, ao nı́vel de 5%.

208
Tabela 3.1
Classificação dos camundongos conforme a raça (R1 ou R2),
sexo, grupo e ocorrência ou não de tumor cancerı́geno.
Estrato Grupo Com tumor Sem tumor Total
Tratado 4 12 16
R1-Macho Controle 5 74 79
Total 9 86 95

Tratado 2 14 16
R2-Macho Controle 3 84 87
Total 5 98 103

Tratado 4 14 18
R1-Fêmea Controle 10 80 90
Total 14 94 108

Tratado 1 14 15
R2-Fêmea Controle 3 79 82
Total 4 93 97

Tabela 3.2
Estimativas das razões de chances de tumor
cancerı́geno nos estratos de camundongos.
Estrato Estimativa ψ̃ Intervalo assintótico
R1-Macho 4,93 [1,163 ; 21,094]
R2-Macho 4,00 [0,612 ; 26,102]
R1-Fêmea 2,29 [0,629 ; 8,306]
R2-Fêmea 1,88 [0,183 ; 19,395]

Para simplificar os cálculos, considere o estimador de Wolf a fim de obter


a estimativa de ψ comum. Tem-se as seguintes estimativas:

209
log(ψ̃i ) ω̃i
1,600 0,5465
1,386 0,9160
0,827 0,4335
0,632 1,4167
P4 −1
P4
Segue portanto que i=1 ω̃i log(ψ̃i ) = 6, 7947 e i=1 ω̃i−1 = 5, 9342. Assim,
obtém-se as estimativas
  4
6, 7947 X
ψ̂W = exp = 3, 142 e V̂arA {log(ψ̂W )} = 1/ ω̃i−1 = 1/5, 9342.
5, 9342 i=1

2
Consequentemente, tem-se que log(ψ̂W ) = log(3, 142) = 1, 145 e XHL =
(1, 6 − 1, 145)2 /0, 5465 + (1, 386 − 1, 145)2 /0, 916 + (0, 827 − 1, 145)2 /0, 4335 +
(0, 632−1, 145)2 /1, 4167 = 0, 861, cujo nivel descritivo para uma distribuição
qui-quadrado com 3 graus de liberdade é dado por P = 0, 84, não rejeitando-
se portanto a hipótese de ψ comum.
A estimativa intervalar de 95% para ψ comum fica dada por
p
[ψ̂I , ψ̂S ] = exp[log(3, 142) ± 1, 96 1/5, 9342]
= exp[1, 145 ± 0, 8046]
= [1, 4055; 7, 0259].

Será aplicado a seguir o teste de Mantel-Haenszel para testar H0 : ψ = 1


contra H1 : ψ 6= 1. Ou seja, verificar se há asusência de associação em cada
tabela 2×2. A estatı́stica do teste com correção de continuidade fica expressa
na seguinte forma:
P4 P4
2 {| i=1 y1i − EA (1)| − 0, 5}2
XM H = P4 i=1 i
i=1 VAi (1)
(|11 − 5, 2444| − 0, 5)2
= = 6, 9083.
3, 9983

210
Comparando com os quantis da distribuição qui-quadrado com 1 grau de
liberdade obtém-se o nı́vel descritivo P = 0, 0086, rejeitando-se a hipótese
nula. Esse resultado vai ao encontro da estimativa intervalar de ψ comum
usando o estimador de Wolf.

3.5.2 Efeito de extrato vegetal


Considere agora parte dos dados de um experimento (ver Paula et al.,1988)
conduzido para avaliar o efeito de diversos extratos vegetais na mortalidade
de embriões de Biomphalaria Glabrata (hospedeiro da equistossomose). Para
o extrato vegetal aquoso frio de folhas de P. Hyrsiflora foi considerado um
total de k = 7 grupos sendo que os ni embriões do i-ésimo grupo foram
submetidos a uma dose xi (ppm) do extrato vegetal, observando-se após o
20o dia o número de embriões mortos. Os dados são resumidos na Tabela
3.3. Para aplicar o teste de tendência dado em (3.13), deve-se considerar que
n = 50 + · · · + 50 = 350, n1 = y1 + · · · + y7 = 178, n2 = n − n1 = 172 e
mi = 50, ∀i. Assim, obtem-se Ei (1) = 25, 43 para i = 1, . . . , 7. A estatı́stica
2
do teste forneceu o valor XHOM = 131, 82, que é altamente significativo
quando comparado aos quantis da distribuição qui-quadrado com 6 graus
de liberdade, indicando uma forte tendência crescente para a proporção de
mortes com o aumento da dose.

Tabela 3.3
Distribuição dos embriões segundo
os nı́veis de exposição do estrato
vegetal aquoso.
xi 0 15 20 25 30 35 40
mi 50 50 50 50 50 50 50
yi 4 5 14 29 38 41 47

211
3.6 Regressão logı́stica linear
3.6.1 Introdução
A regressão logı́stica tem se constituı́do num dos principais métodos de mo-
delagem estatı́stica de dados. Mesmo quando a resposta de interesse não
é originalmente do tipo binário, alguns pesquisadores têm dicotomizado a
resposta de modo que a probabilidade de sucesso possa ser ajustada através
da regressão logı́stica. Isso ocorre, por exemplo, em análise de sobrevivência
discreta em que a resposta de interesse é o tempo de sobrevivência, no en-
tanto, em algumas pesquisas, a função de risco tem sido ajustada por modelos
logı́sticos. Tudo isso se deve, principalmente, pela facilidade de interpretação
dos parâmetros de um modelo logı́stico e também pela possibilidade do uso
desse tipo de metodologia em análise discriminante com a construção, por
exemplo, de curvas ROC.
Embora a regressão logı́stica seja conhecida desde os anos 1950, foi através
de Cox (1970) (ver também Cox e Snell, 1989) que a regressão logı́stica ficou
popular entre os usuários de Estatı́stica. Nesta seção serão apresentados
alguns resultados relacionados com o modelo logı́stico linear que completam
os procedimentos apresentados no Capı́tulo 1, em que esse modelo foi descrito
como um caso particular de modelos lineares generalizados.

3.6.2 Regressão logı́stica simples


Conside inicialmente o modelo logı́stico linear simples em que π(x), a pro-
babilidade de sucesso dado o valor x de uma variável explicativa qualquer, é
definida tal que  
π(x)
log = α + βx, (3.14)
1 − π(x)

212
em que α e β são parâmetros desconhecidos. Esse modelo poderia, por exem-
plo, ser aplicado para analisar a associação entre uma determinada doença e
a ocorrência ou não de um fator particular. Seriam então amostrados, inde-
pendentemente, n1 indivı́duos com presença do fator (x=1) e n2 indivı́duos
com ausência do fator (x=0) e π(x) seria a probabilidade de desenvolvimento
da doença após um certo perı́odo fixo. Dessa forma, a chance de desenvolvi-
mento da doença para um indivı́duo com presença do fator fica dada por
π(1)
= eα+β ,
1 − π(1)
enquanto que a chance de desenvolvimento da doença para um indivı́duo com
ausência do fator é simplesmente
π(0)
= eα .
1 − π(0)
Logo, a razão de chances fica dada por
π(1){1 − π(0)}
ψ= = eβ ,
π(0){1 − π(1)}
dependendo apenas do parâmetro β. Mesmo que a amostragem seja re-
trospectiva, isto é, são amostrados n1 indivı́duos doentes e n2 indivı́duos
não doentes, o resultado acima continua valendo. Essa é uma das grandes
vantagens da regressão logı́stica, a possibilidade de interpretação direta dos
coeficientes como medidas de associação. Esse tipo de interpretação pode ser
estendido para qualquer problema prático.
Supor agora que tem-se dois estratos representados por x1 (x1 = 0 estrato
1, x1 = 1 estrato 2) e que são amostrados do estrato 1 n11 indivı́duos com pre-
sença do fator e n21 indivı́duos com ausência do fator e n12 e n22 , respectiva-
mente, do estrato 2. A probabilidade de desenvolvimento da doença será de-
notada por π(x1 , x2 ), com x2 (x2 =1 presença do fator, x2 = 0 ausência do fa-
tor). Tem-se aqui quatro parâmetros a serem estimados, π(0, 0), π(0, 1), π(1, 0)

213
e π(1, 1). Logo, qualquer reparametrização deverá ter no máximo quatro
parâmetros (modelo saturado).
Considere então a seguinte reparametrização:
 
π(x1 , x2 )
log = α + γx1 + βx2 + δx1 x2 ,
1 − π(x1 , x2 )
em que γ representa o efeito do estrato, β o efeito do fator e δ a interação
entre estrato e fator. Para entender melhor essa reparametrização, serão
calculadas as razões de chances em cada estrato
π(0, 1){1 − π(0, 0)}
ψ1 = = eβ
π(0, 0){1 − π(0, 1)}
e
π(1, 1){1 − π(1, 0)}
ψ2 = = eβ+δ .
π(1, 0){1 − π(1, 1)}
Assim, a hipótese de homogeneidade das razões de chances (H0 : ψ1 = ψ2 ) é
equivalente à hipótese de não interação (H0 : δ = 0). Portanto, a ausência
de interação entre fator e estrato significa que a associação entre o fator e a
doença não muda de um estrato para o outro. Contudo, pode haver efeito
de estrato. Como ilustração nesse caso, supor que não rejeita-se a hipótese
H0 : δ = 0. Assim, o logaritmo da chance de desenvolvimento da doença fica
dado por  
π(x1 , x2 )
log = α + γx1 + βx2 ,
1 − π(x1 , x2 )
ou seja, é o mesmo nos dois estratos a menos da quantidade γ. Isso quer dizer
que mesmo não havendo interação entre os dois estratos (razão de chances
constante), as probabilidades de desenvolvimento da doença podem estar em
patamares diferentes. Num estrato essas probabilidades são maiores do que
no outro estrato. Essas interpretações podem ser generalizadas para três ou
mais tabelas.

214
Aplicação
Como ilustração, considere novamente o exemplo descrito na Seção 3.5.1,
supondo que agora temos apenas os estratos macho e fêmea. Os dados são
resumidos na Tabela 3.4 e no arquivo camundongos.txt.

Tabela 3.4
Classificação de camundongos segundo sexo, grupo e
ocorrência de tumor.
Macho Fêmea
Tumor Tratado Controle Tratado Controle
Sim 6 8 5 13
Não 26 158 28 159
Total 32 166 33 172

Denote por π(x1 , x2 ) a probabilidade de desenvolvimento de tumor dados


x1 (x1 =1 macho, x1 =0 fêmea) e x2 (x2 =1 tratado, x2 =0 controle). Para
testar a hipótese de ausência de interação (H0 : δ = 0) compara-se o desvio do
modelo sem interação D(y; µ̂0 ) = 0, 832 com os quantis da distribuição qui-
quadrado com 1 grau de liberdade (tem-se que o desvio do modelo saturado
é zero). O nı́vel descritivo obtido é dado por P= 0, 362, indicando pela não
rejeição da hipótese de homogeneidade das razões de chances. Assim, ajusta-
se o modelo sem interação. As estimativas resultantes são apresentadas na
Tabela 3.5.

Tabela 3.5
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
ocorrência de tumor em camundongos.
Efeito Estimativa E/E.Padrão
Constante -2,602 -9,32
Estrato -0,241 -0,64
Tratamento 1,125 2,81

215
Os nı́veis descritivos dos testes para H0 : β = 0 e H0 : γ = 0 são, res-
pectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presença de associação entre a exposição ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor não são di-
ferentes entre os dois estratos.
Tem-se que ψ̂ = eβ̂ , logo um intervalo assintótico de confiança para ψ
com coeficiente (1 − α), terá os limites
q
(ψ̂I , ψ̂S ) = exp{β̂ ± z(1−α/2) V̂ar(β̂)}.

Para o exemplo acima e assumindo um intervalo de 95%, esses limites ficam


dados por [1, 403; 6, 759].
O valor observado da variável explicativa no modelo logı́stico dado em
(3.14) pode representar o valor de alguma variável quantitativa qualquer
como, por exemplo, a dose ou a log-dose de uma determinada droga. Nesse
caso, faz sentido calcular a chance de um indivı́duo que recebeu a dose x∗ ,
ser curado, em relação a um outro indivı́duo que recebeu a dose x. A razão
de chances de cura, entre os dois nı́veis, fica dada por
π(x∗ ){1 − π(x)}
ψ(x∗ −x) = = exp{β(x∗ − x)}.
π(x){1 − π(x∗ )}
Portanto, log{ψ(x∗ −x) } é proporcional à diferença entre as duas doses. Se
β > 0, tem-se que a chance de cura aumenta com o aumento da dose e
se β < 0 ocorre o contrário. Essa interpretação pode ser estendida para
qualquer variável explicativa quantitativa.

3.6.3 Regressão logı́stica múltipla


Considere agora o modelo geral de regressão logı́stica
 
π(x)
log = β1 + β2 x2 + · · · + βp xp ,
1 − π(x)

216
em que x = (1, x2 , . . . , xp )> contém os valores observados de variáveis ex-
plicativas. Como visto na Seção 1.6.1, o processo iterativo para obtenção
de β̂ pode ser expresso como um processo iterativo de mı́nimos quadrados
reponderados
β (m+1) = (X> V(m) X)−1 X> V(m) z(m) ,
em que V = diag{π1 (1 − π1 ), . . . , πn (1 − πn )}, z = (z1 , . . . , zn )> é a variável
dependente modificada, zi = ηi + (yi − πi )/πi (1 − πi ), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), n é substituı́do por k, V =
diag{n1 π1 (1 − π1 ), . . . , nk πk (1 − πk )} e zi = ηi + (yi − ni πi )/{ni πi (1 − πi )}.
ni
Assintoticamente, n → ∞ no primeiro caso e para n
→ ai > 0 no segundo
caso, β̂ − β ∼ Np (0, (X> VX)−1 ).
Uma interpretação interessante pode ser dada para as razões de chances
quando tem-se (q−1)(q ≤ p) das (p−1) variáveis explicativas do tipo binário.
Como ilustração, supor q = 4 e que x2 (x2 = 1 presença, x2 = 0 ausência) e
x3 (x3 = 1 presença, x3 = 0 ausência) representam dois fatores. Supor ainda
que x4 = x2 x3 representa a interação entre os dois fatores. O modelo fica
então dado por
  p
π(x) X
log = β1 + β2 x2 + β3 x3 + β4 x4 + xj β j .
1 − π(x) j=5

Denote por ψij a razão de chances entre um indivı́duo na condição (x2 =


i, x3 = j) em relação a um indivı́duo na condição (x2 = 0, x3 = 0), para i, j =
0, 1, supondo que os dois indivı́duos têm os mesmos valores observados para
as demais (p − 4) variáveis explicativas. Assim, pode-se mostrar facilmente
que

ψ10 = exp(β2 ), ψ01 = exp(β3 ) e ψ11 = exp(β2 + β3 + β4 ).

Portanto, testar a hipótese H0 : β4 = 0 (ausência de interação) é equivalente


a testar a hipótese de efeito multiplicativo H0 : ψ11 = ψ10 ψ01 . Em particular,

217
se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato 2), a razão
de chances no primeiro estrato entre presença e ausência do fator fica dada
por ψ10 = exp(β2 ), enquanto que no segundo estrato essa razão de chances
vale ψ11 /ψ01 = exp(β2 + β4 ). Logo, testar H0 : β4 = 0 equivale também a
testar a hipótese de homogeneidade das razões de chances nos dois estratos.

3.6.4 Bandas de confiança


Como foi visto na Seção 1.8.2 uma banda assintótica de confiança de coefi-
ciente 1 − α pode ser construı́da para π(z), ∀z ∈ IRp (ver também Piegorsch
e Casella, 1988). Assintoticamente β̂ − β ∼ Np (0, (X> VX)−1 ). Logo, uma
banda assintótica de confiança de coeficiente 1 − α para o preditor linear
z> β, ∀z ∈ IRp , fica dada por
√ 1
z> β̂ ± cα {z> (X> VX)−1 z} 2 , ∀z ∈ IRp ,

em que cα é tal que P r{χ2p ≤ cα } = 1 − α. Aplicando a transformação logito


pode-se, equivalentemente, encontrar uma banda de confiança de coeficiente
1 − α para π(z), dada por
√ 1
exp[z> β̂ ± cα {z> (X> VX)−1 z} 2 ]
√ 1 , ∀z ∈ IRp .
> > > −1
1 + exp[z β̂ ± cα {z (X VX) z} ] 2

É importante observar que z é um vetor p × 1 que varia livremente no IRp ,


enquanto X é uma matriz fixa com os valores das variáveis explicativas.

3.6.5 Seleção de modelos


Uma vez definido o conjunto de covariáveis (ou fatores) a ser incluı́do num
modelo logı́stico, resta saber qual a melhor maneira de encontrar um modelo
reduzido que inclua apenas as covariáveis e interações mais importantes para

218
explicar a probabilidade de sucesso π(x). Esse problema poderia ser resol-
vido pelos métodos usuais de seleção de modelos discutidos na Seção 1.11.
Contudo, a questão de interpretação dos parâmetros é crucial num modelo
logı́stico, implicando que uma forma puramente mecânica de seleção pode
levar a um modelo sem sentido e de difı́cil interpretação. Particularmente, a
inclusão de certas interações impõe a permanência no modelo de seus respec-
tivos efeitos principais de ordem inferior, na ótica do princı́pio hierárquico.
Muitas vezes, variáveis consideradas biologicamente importantes não devem
ser deixadas de lado pela sua falta de significância estatı́stica. Assim, a
seleção de um modelo logı́stico deve ser um processo conjugado de seleção
estatı́stica de modelos e bom senso.

Método stepwise
Um dos métodos mais aplicados em regressão logı́stica é o método stepwise.
O método, como foi visto na Seção 1.11, baseia-se num algoritmo misto de
inclusão e eliminação de variáveis explicativas segundo a importância das
mesmas de acordo com algum critério estatı́stico. Esse grau de importância
pode ser avaliado, por exemplo, pelo nı́vel de significância do teste da razão
de verossimilhanças entre os modelos que incluem ou excluem as variáveis em
questão. Quanto menor for esse nı́vel de significância tanto mais importante
será considerada a variável explicativa. Como a variável mais importante
por esse critério não é necessariamente significativa do ponto de vista es-
tatı́stico, deve-se impor um limite superior PE (os valores usuais estão no
intervalo [0, 15; 0, 25]) para esses nı́veis descritivos, a fim de atrair candidatos
importantes em princı́pio à entrada.
Dado que a inclusão de novas variáveis explicativas num modelo pode
tornar dispensáveis outras variáveis já incluı́das, será feita a verificação da

219
importância dessas variáveis confrontando os seus respectivos nı́veis com um
limite superior PS . As variáveis explicativas com um nı́vel descritivo maior
do que PS serão assim candidatas à remoção.
Descreve-se a seguir uma variante desse algoritmo aplicado em regressão
logı́stica (vide, por exemplo, Hosmer e Lemeshow, 1989). A etapa inicial
consiste no ajuste do modelo apenas com o intercepto sendo completada
pelos passos seguintes:

1. construir testes da razão de verossimilhanças entre o modelo inicial


e os modelos logı́sticos simples formados com cada uma das variáveis
explicativas do estudo. O menor dos nı́veis descritivos associados a
cada teste será comparado com PE . Se PE for maior, a variável refe-
rente àquele nı́vel é incluı́da no modelo indo ao passo seguinte. Caso
contrário, a seleção é concluı́da e adota-se o último modelo;

2. partindo do modelo incluindo a variável explicativa selecionada no


passo anterior, as demais variáveis são introduzidas individualmente.
Cada um desses novos modelos é testado contra o modelo inicial desse
passo. Novamente, o menor valor dos nı́veis descritivos é comparado
com PE . Se for menor do que PE , implica na inclusão no modelo da
variável correspondente e a passagem ao passo seguinte. Caso contrário,
a seleção é finalizada;

3. compara-se o desvio do modelo logı́stico contendo as variáveis seleci-


onadas nos passos anteriores com os desvios dos modelos que dele re-
sultam por exclusão individual de cada uma das variáveis. Se o maior
nı́vel descritivo dos testes da razão de verossimilhanças for menor do
que PS , a variável explicativa associada a esse nı́vel descritivo perma-
nece no modelo. Caso contrário, a variável é removida. Em qualquer

220
circunstância, o algoritmo segue para o passo seguinte;

4. o modelo resultante do passo anterior será ajustado, no entanto, an-


tes de tornar-se o modelo inicial da etapa 2 (seleção de interações de
primeira ordem entre as variáveis explicativas incluı́das), avalia-se a sig-
nificância de cada um dos coeficientes das variáveis selecionadas, por
exemplo através de um teste de Wald. Se alguma variável explicativa
não for significativa pode ser excluı́-la do modelo;

5. uma vez selecionadas as variáveis explicativas mais importantes, ou os


efeitos principais, entra-se na etapa 2 com o passo 1 que agora envolve
apenas interações de primeira ordem entre as variáveis selecionadas, e
assim por diante.

É comum que algumas variáveis explicativas ou interações de interesse ou


com algum significado no estudo sejam mantidas no modelo desde o inı́cio,
mesmo que não sejam significativas. É também comum que a seleção de
interações seja feita dentre aquelas de interesse ou com algum significado no
problema.
Um aprimoramento desse procedimento tipo stepwise foi proposto pos-
teriormente por Hosmer et al. (2013). Nesse novo algoritmo os autores
sugerem que as variáveis explicativas eliminadas no passo 1 que causarem
uma variação dsproporcional no(s) coeficiente(s) de alguma variável explica-
tiva que permaneceu no modelo, devem ser trazidas de volta para o modelo.
Os demais passos são similares, contudo o resultado final pode ser diferente,
e segundo os autores em geral têm levado a resultados mais coerentes.
Uma desvantagem do procedimento descrito pelos passos 1-5 é de exigir
as estimativas de máxima verossimilhança em cada passo, o que encarece o
trabalho computacional, particularmente quando há muitas variáveis expli-

221
cativas (ou fatores). Alguns autores têm sugerido aproximações para esse
processo de seleção. O aplicativo cientı́fico BMDP (Dixon, 1987) usa apro-
ximações lineares nos testes da razão de verossimilhanças. Peduzzi et al.
(1980) apresentam uma variante desse método baseada no uso da estatı́stica
de Wald.

Método de Akaike
Um procedimento mais simples para selecionar variáveis explicativas num
modelo logı́stico é através do método de Akaike descrito na Seção 1.11. Uma
sugestão é primeiro fazer uma seleção dos efeitos principais e depois num
segundo passo, das interações de 1a ordem. Para ilustrar uma aplicação do
método, supor que as respostas binárias estejam armazenadas em resp e as
variáveis explicativas sejam denotadas por var1, var2 e var3. O ajuste do
modelo logı́stico apenas com os efeitos principais pode ser realizado através
dos comandos
ajuste < − glm(resp ∼ var1 + var2 + var3, family=binomial).
A seleção dos efeitos principais pode ser realizada pelos comandos
require(MASS)
stepAIC(ajuste).
Eventualmente algumas variáveis explicativas selecionadas podem não ser
significativas marginalmente e a retirada das mesmas do modelo poderá ser
confirmada através de algum teste estatı́stico apropriado, como por exemplo
o teste da razão de verossimilhanças. A inclusão de interações de 1a ordem
pode ser feita individualmente dentre aquelas interações de interesse ou de
fácil interpretação.

222
3.6.6 Amostragem retrospectiva
Em muitas situações práticas, especialmente no estudo de doenças raras,
pode ser mais conveniente a aplicação de uma amostragem retrospectiva em
que um conjunto de n1 casos (indivı́duos com y = 1) e n2 controles (indivı́duos
com y = 0) é selecionado aleatoriamente e classificado segundo os valores de
x = (x1 , . . . , xp )> . Esse tipo de planejamento é muitas vezes motivado por
questões econômicas ligadas ao custo e a duração do experimento. A amos-
tragem retrospectiva assim constituı́da levaria diretamente a um modelo para
P r(X = x|y), ao contrário dos dados prospectivos que estão associados ao
modelo π(x) = P r(Y = y|x). Como o desenvolvimento de um modelo para
P r(X = x|y) pode ficar muito complexo à medida que o valor x envolve um
número maior de variáveis explicativas, particularmente contı́nuas, a pro-
posta de uma abordagem alternativa através da especificação de um modelo
para P r(Y = y|x), de modo a induzir um modelo para P r(X = x|y), tem
sido utilizada.
Supor então um modelo logı́stico linear para explicar π(x) = P r(Y =
1|x). Será mostrado a seguir que a probabilidade π(x), a menos de uma
constante adicionada ao intercepto do modelo, coincide com a probabilidade
π ∗ (x) = P r(Y = 1|x, Z = 1) se a seleção amostral não depende de x, em
que Z é uma variável indicadora da classificação amostral (ver, por exemplo,
Armitage, 1971). Denota-se γ1 = P r(Z = 1|Y = 1) e γ2 = P r(Z = 1|Y = 0),
em que γ1 é a probabilidade de um caso ser selecionado e γ2 é a probabilidade
de um controle ser selecionado da população global. A suposição é que γ1 e
γ2 não dependem de x. Portanto

π ∗ (x) = P r(Y = 1|x, Z = 1)


P r(Z = 1|Y = 1)P r(Y = 1|x)
= P ,
y=0,1 P r(Z = 1|Y = y)P r(Y = y|x)

223
que pode ser expressa em função de π(x), ou seja

γ1 π(x)
π ∗ (x) =
γ2 {1 − π(x)} + γ1 π(x)
h i
γ1 π(x)
γ2 1−π(x)
= h i.
γ1 π(x)
1+ γ2 1−π(x)

Assim, obtém-se
elog{γ1 /γ2 }+η
π ∗ (x) = ,
1 + elog{γ1 /γ2 }+η
Pp
em que η = j=1 xj βj .
Portanto, fazendo uma amostragem retrospectiva e ajustando um modelo
logı́stico como se fosse uma amostragem prospectiva, os coeficientes devem
coincidir desde que a seleção tenha sido feita independente de x. Se, no
entanto, há interesse em estimar π(x), isto é, fazer predições dado x, deve-se
corrigir a constante do modelo ajustado, obtendo um novo intercepto

β̂1 = β̂1∗ − log(γ1 /γ2 ),

em que β̂1∗ é o intercepto do modelo ajustado.

3.6.7 Qualidade do ajuste


Como visto na Seção 1.4, quando o número de grupos k é fixo num expe-
ni
rimento binomial e n
→ ai > 0 quando n → ∞, o desvio D(y; µ̂) segue
sob a hipótese do modelo adotado ser verdadeiro distribuição qui-quadrado
com (k − p) graus de liberdade. Esse resultado não vale quando n → ∞
e ni πi (1 − πi ) fica limitado. Nesse caso, Hosmer e Lemeshow (1989) suge-
rem uma estatı́stica alternativa para avaliação da qualidade do ajuste. Essa
estatı́stica é definida comparando o número observado com o número espe-
rado de sucessos de g grupos formados. O primeiro grupo deverá conter

224
n01 elementos correspondentes às n01 menores probabilidades ajustadas, as
quais serão denotadas por π̂(1) ≤ π̂(2) ≤ · · · ≤ π̂(n01 ) . O segundo grupo
deverá conter os n02 elementos correspondentes às seguintes probabilidades
ajustadas π̂(n01 +1) ≤ π̂(n01 +2) ≤ · · · ≤ π̂(n01 +n02 ) . E assim, sucessivamente, até
o último grupo que deverá conter as n0g maiores probabilidades ajustadas
π̂(n01 +···+n0g−1 +1) ≤ π̂(n01 +···+n0g−1 +2) ≤ · · · ≤ π̂(n) . O número observado de su-
Pn01
cessos no primeiro grupo formado será dado por O1 = j=1 y(j) , em que

y(j) = 0 se o elemento correspondente é fracasso e y(j) = 1 se é sucesso. Ge-


Pn01 +···+n0i
neralizando, obtém-se Oi = j=n 0 +···+n0
1 +1 y(j) , 2 ≤ i ≤ g. A estatı́stica é
i−1

definida por
g
X (Oi − n0 π̄i )2 i
Ĉ = ,
i=1
n0i π̄i (1 − π̄i )
em que
n1 0 n0i +···+n0i
1 X 1 X
π̄1 = 0 π̂(j) e π̄i = 0 π̂(j) ,
n1 j=1 ni
j=n01 +···+n0i−1 +1

para 2 ≤ i ≤ g. Hosmer e Lemeshow sugerem a formação de g = 10 grupos de


mesmo tamanho (aproximadamente), de modo que o primeiro grupo conte-
nha n0i elementos correspondentes às [n/10] menores probabilidades ajustadas
e assim por diante até o último grupo com n010 elementos correspondentes às
[n/10] maiores probabilidades ajustados. Quando não há empates, isto é,
ni = 1, ∀i, fica relativamente fácil formar os 10 grupos com tamanhos apro-
ximadamente iguais. No entanto, quando há empates, pode ser necessário
que dois indivı́duos com a mesma configuração de covariáveis sejam alocados
em grupos adjacentes a fim de que os grupos formados não tenham tama-
nhos muito desiguais. Hosmer e Lemeshow verificaram através de simulações
que a distribuição nula assintótica de Ĉ pode ser bem aproximada por uma
distribuição qui-quadrado com (g − 2) graus de liberdade.

225
3.6.8 Técnicas de diagnóstico
Estudos de simulação (ver, por exemplo, Williams, 1984) têm sugerido o
resı́duo tDi para as análises de diagnóstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
àquelas do resı́duo t∗i da regressão normal linear. Em particular, para os
modelos binomiais, esse resı́duo é expresso, para 0 < yi < ni , na forma
s      21
2 yi ni − yi
tDi = ± yi log + (ni − yi ) log ,
1 − ĥii ni π̂i ni − ni π̂i

em que o sinal é o mesmo de yi − ŷi . Quando yi = 0 ou yi = ni , o componente


do desvio padronizado toma as formas
1 1
{2ni | log(1 − π̂i )|} 2 {2ni | log π̂i |} 2
tDi =− p e tDi = p ,
1 − ĥii 1 − ĥii
respectivamente. O resı́duo Studentizado tSi , também utilizado para avaliar
a presença de observações aberrantes mesmo tendo em geral distribuição
assimétrica acentuada, toma a forma
1 (yi − ni π̂i )
tSi = p 1 .
1 − ĥii {ni π̂i (1 − π̂i )} 2
Uma outra opção, conforme descrito na Seção 1.10, é o resı́duo quantı́lico
(Dunn e Smyth, 1996) definido para variáveis discretas por

rqi = Φ−1 (ui ),

em que Φ(·) denota a função de distribuição acumulada da N (0, 1) e ui é um


valor gerado no intervalo (0, 1) com base em F (yi ; β̂) (função de distribuição
acumulada da distribuição discreta ajustada). Mostra-se para n grande que
os resı́duos rq1 , . . . , rqn são independentes e igualmente distribuı́dos N (0, 1).
Assim, o gráfico entre os quantis amostrais rq(1) ≤ · · · ≤ rq(n) contra os

226
quantis teóricos da normal padrão é recomendado para avaliar afastamentos
da distribuição postulada para a resposta.
O resı́duo quantı́lico é disponibilizado na biblioteca GAMLSS do R (ver,
por exemplo, Stasinopoulos et al., 2017) através dos comandos
require(gamlss)
plot(ajuste).
Aqui ajuste é o nome do objeto referente ao ajuste do modelo.
Contudo, no caso de variáveis discretas, o resı́duo quantı́lico é aleatorizado
e uma sugestão é gerar no GAMLSS m gráficos do worm plot (gráfico entre
rq(i) −E(Z(i) ) contra E(Z(i) )) para avaliar com mais segurança a adequação do
ajuste. Esse gráfico pode ser interpretado como um refinamento do gráfico
normal de probabilidades podendo ser acionado para m = 8 gráficos através
do comando
rqres.plot(ajuste, howmany=8, type=‘‘wp’’).
Por outro lado, para medir a influência das observações nas estimativas
dos coeficientes, utiliza-se a distância de Cook aproximada dada por

ĥii (yi − ni π̂i )2


LDi = .
(1 − ĥii )2 ni π̂i (1 − π̂i )

Hosmer e Lemeshow (1989) observam que ĥii depende das probabilidades


ajustadas π̂i , i = 1, . . . , k, e consequentemente os resı́duos tSi e tDi e a medida
de influência LDi também dependem. Tem-se que

hii = ni πi (1 − πi )x> > −1


i (X VX) xi ,

com V = diag{n1 π1 (1−π1 ), . . . , nk πk (1−πk )}. Hosmer e Lemeshow mostram


através de um estudo numérico que o comportamento de ĥii numa regressão
logı́stica pode ser muito diferente do comportamento de ĥii na regressão linear
para uma mesma matrix modelo X.

227
Tabela 3.6
Possı́veis valores para algumas medidas de diagnóstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida 0,0-0,1 0,1-0,3 0,3-0,7 0,7-0,9 0,9-1,0
t2Si grande ou moderado moderado ou moderado grande ou
pequeno pequeno pequeno
LDi pequeno grande moderado grande pequeno
ĥii pequeno grande moderado ou grande pequeno
pequeno
A Tabela 3.6 descreve os possı́veis valores de algumas medidas de di-
agnóstico em função das probabilidades ajustadas. A medida ĥii pode ser
interpretada de maneira similar à medida hii da regressão normal linear para
0, 1 ≤ π̂i ≤ 0, 9. No entanto, quando π̂i é pequena ou alta, ĥii fica em geral
pequeno o que pode dificultar a detecção de pontos que estejam mais afasta-
dos no subespaço gerado pelas colunas da matrix X. A sugestão, portanto,
são os gráficos de t2Si , t2Di e LDi contra as probabilidades ajustadas π̂i . Es-
ses gráficos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e influentes com relação às probabilidades ajustadas. Os gráficos
dessas quantidades contra ĥii podem ser complementares, pelo menos para
verificar se as tendências apresentadas na Tabela 3.11 são confirmadas para
o modelo ajustado.
Outros gráficos recomendados em regressão logı́stica são os gráficos da
variável adicionada e de |`max | contra π̂i .

3.6.9 Aplicacões
Processo infeccioso pulmonar
Considere novamente o exemplo discutido na Seção 1.12.2 em que 175 pa-
cientes com processo infeccioso pulmonar foram classificados de acordo com

228
as variáveis tipo de tumor, sexo, idade, nı́vel de HL e nı́vel de FF. Para
simplicidade das análises, os nı́veis de HL e FF serão reagrupados de modo
que os nı́veis de intensidade “ausente”e “discreto”sejam agora considerados
como intensidade “baixa”e os nı́veis “moderado”e “intenso”sejam agora de
intensidade “alta”conforme descrito na Tabela 3.7.

Tabela 3.7
Descrição das novas variáveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Variável Descrição Valores
Y Processo Infecioso 1:maligno
0:benigno
IDADE Idade em anos
SEXO Sexo 0:masculino
1:feminino
HL Intensidade de 1:alta
Histiócitos-linfócitos 0:baixa
FF Intensidade de 1:alta
Fibrose-frouxa 0:baixa

Nesse estudo os pacientes foram amostrados retrospectivamente, sendo


que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perı́odo da pesquisa. Portanto, seguindo a notação da
Seção 3.6.6 , tem-se que γ1 = 1 e γ2 = 104/270 1 .
O método de seleção stepwise proposto por Hosmer e Lemeshow (1989)
será aplicado a seguir. Na etapa 1 considerou-se apenas os efeitos principais.
Foram considerados PE = 0, 20 (nı́vel para inclusão de covariáveis) e PS =
0, 25 (nı́vel para eliminação de covariáveis).
1
Está sendo suposto que a razão γ1 /γ2 = 270/104 vale também se as amostras tivessem
sido extraı́das diretamente da população

229
No passo 1 foi incluı́da a variável explicativa IDADE, uma vez que o nı́vel
descritivo dessa variável foi o menor dentre os nı́veis descritivos das demais
variáveis explicativas e também foi menor do que PE . No passo seguinte
foi inbcluı́da a variável explicativa HL, e agora com duas variáveis incluı́das
no modelo verifica-se a possibilidade de eliminar uma das duas variáveis. O
maior nı́vel descritivo é da IDADE que encontra-se na Tabela 3.8 na linha
de referência do passo 2. O nı́vel descritivo dessa variável não é superior
a PS , logo IDADE é mantida no modelo. Seguindo essa lógica, tem-se os
menores nı́veis descritivos em cada passo como sendo o elemento da diagonal
principal de cada passo. No passo 3, por exemplo, entra a variável explicativa
SEXO que tem o menor nı́vel descritivo que por sua vez é menor do que PE .
Dado que SEXO entra no modelo, verifica-se a possibilidade de uma das
duas variáveis incluı́das no modelo ser retirada do modelo. Assim, no mesmo
passo 3, nota-se que o maior nı́vel descritivo (em asterisco) corresponde à
variável explicativa HL que não deve sair do modelo, uma vez que o nı́vel
descritivo não é maior do que PS . Seguindo essa mesma lógica todos os
efeitos principais são incluı́dos no modelo. Em resumo, o modelo resultante
na etapa 1 é o modelo com todos os efeitos principais.
De forma análoga procede-se a etapa 2, cujos nı́veis descritivos para to-
mada de decisão em cada passo encontram-se na Tabela 3.9. Por exemplo, no
passo 1, entra a interação entre IDADE e HL que tem o menor nı́vel descritivo
que por sua vez é menor do que PE . Não é verificado nessa etapa se algum
efeito principal deve sair do modelo mesmo que fique não significativo com
a inclusão das interações. Isso pode ser reavaliado após a seleção do modelo
final. No passo 4, por exemplo, nota-se que a interação entre IDADE e FF
não entra no modelo pois o nı́vel descritivo correspondente é maior do que
PE . Assim, como essa interação não entra no modelo, não é preciso verificar

230
a retirada das demais interações já incluı́das no modelo. Logo, tem-se apenas
três interações de primeira ordem incluı́das no modelo. Essas interações são
IDADE ∗ HL, HL ∗ FF e SEXO ∗ FF.
Na etapa 3 nenhuma interação de segunda ordem foi selecionada, uma
vez que o menor nı́vel descritivo dos testes de inclusão foi menor do que PE .
Assim, o modelo resultante contém os efeitos principais e três interações de
primeira ordem.

Tabela 3.8
Nı́veis descritivos referentes à etapa 1
do processo de seleção stepwise.
Passo IDADE HL SEXO FF
1 0,000 0,000 0,288 0,001
2 0,000 0,000 0,100 0,003
3 0,000 0,000∗ 0,050 0,125
4 0,000 0,000 0,072∗ 0,183
5 0,000 0,000 0,072 0,183∗

O desvio do modelo foi de D(y; µ̂) = 146, 22 (167 graus de liberdade),


indicando um ajuste adequado. As Figuras 3.1a-3.1d apresentam alguns
gráficos de diagnóstico. Na Figura 3.1a temos o gráfico de ĥii contra os valores
ajustados e nota-se dois pontos com maior destaque, #6 e #69. No gráfico
de resı́duos tDi , Figura 3.1b, a maioria dos pontos cai dentro do intervalo
[-2,2], com apenas duas observações, #21 e #172, fora do intervalo, porém
muito próximas aos limites. Já o gráfico de influência LDi destaca novamente
a observação #69 e a observação #172. O paciente #172 é do sexo feminino,
tem processo maligno, idade 55 anos e nı́veis altos para HL e FF. Pelos
resultados das estimativas seria mais provável esperar de um paciente com
esse perfil um processo benigno. O paciente #69 é também do sexo feminino,
tem 78 anos, nı́veis altos para HL e FF e não tem processo maligno. Aqui

231
seria um pouco menos provável processo benigno para o paciente. Perfil
parecido tem o paciente #6. Já o paciente #21 tem processo benigno, 82
anos, é do sexo feminino e tem nı́vel alto para HL e baixo para FF. Seria
mais provável nesse caso processo maligno para o paciente.

Tabela 3.9
Nı́veis descritivos referentes à etapa 2 do processo de seleção stepwise.
Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX
1 0,013 0,014 0,059 0,056 0,657 0,063
2 0,023 0,027 0,060 0,231 0,218 0,099
3 0,028∗ 0,005 0,012 0,234 0,275 0,176
4 0,208 0,403 0,794

Finalmente, tem-se na Figura 3.1d o gráfico normal de probabilidades


para o resı́duo tDi e não apresentando nenhum indı́cio de que a distribuição
utilizada seja inadequada. Retirando cada uma das observações destaca-
das pelos gráficos de diagnóstico nota-se mudança inferencial quando a ob-
servação #172 é excluı́da, a interação SEXO ∗ FF deixa de ser significativa.
Ou seja, a significância da interação SEXO ∗ FF é induzida pela observação
#172. Logo, essa interação deve ser retirada do modelo.
As estimativas dos parâmetros do modelo final sem a interação SEXO ∗ FF
bem como os valores padronizados pelos respectivos erros padrão aproxima-
dos encontram-se na Tabela 3.10.
Como há interesse em estudar a associação entre o tipo de processo in-
feccioso pulmonar e as covariáveis histológicas HL e FF, algumas razões de
chances são construı́das envolvendo essas covariáveis. Como ilustração, a
razão de chances de processo infeccioso maligno entre um paciente no nı́vel
alto de HL e um paciente no nı́vel baixo de HL, denotada por ψHL e supondo

232
que os pacientes tenham o mesmo sexo, idade e nı́vel de FF, é estimada por

ψ̂HL = exp{−5, 371 + 0, 061IDADE + 2, 255FF}.

Tabela 3.10
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito Parâmetro Estimativa E/E.Padrão
Constante β1∗ -1,247 -1,36
IDADE β2 0,038 2,23
HL β3 -5,371 -3,34
SEXO β4 0,765 1,60
FF β5 -2,090 -2,36
IDADE*HL β6 0,061 2,18
HL*FF β7 2,255 2,11
Logo, pode-se concluir que a chance de processo maligno é maior para
pacientes com nı́vel baixo de HL do que para pacientes com nı́vel alto de
HL, quando ambos estão no nı́vel baixo de FF e também tenham a mesma
idade. Por outro lado, quando ambos estão na categoria alta de FF, ψ̂HL
fica maior do que um após a idade de 52 anos (aproximadamente), indicando
uma chance maior de processo maligno para pacientes no nı́vel alto de HL
após essa idade.
Analogamente, denota-se por ψF F a razão de chances de processo infec-
cioso maligno entre um paciente com nı́vel alto de FF e um paciente com
nı́vel baixo de FF. Supondo que os pacientes são semelhantes nas demais
covariáveis esse parâmetro é estimado por

ψ̂F F = exp{−2, 090 + 2, 255HL}.

Dessa expressão pode-se deduzir que a chance de processo maligno é maior


para pacientes com intensidade baixa de FF do que para pacientes com inten-
sidade alta de FF, isso no grupo de pacientes com intensidade baixa de HL.

233
Ocorre o contrário no grupo de pacientes com intensidade alta de HL. Bandas
de confiança para ψHL e ψF F podem ser construı́das com os procedimentos
apresentados na Seção 3.6.4. Na comparação dos pacientes com relação ao
sexo temos que a razão de chances de processo infeccioso pulmonar entre paci-
entes do sexo feminino e masculino é estimada por ψ̂F M = exp(0, 765) = 2, 15.
Se o interesse em prever P r{Y = 1|x}, probabilidade de um paciente da
população com um determinado conjunto de valores para as covariáveis estar
com processo infeccioso maligno, deve-se antes estimar β1 fazendo a correção

β̂1 = β̂1∗ − log(270/104) = −1, 247 − 0, 954 = −2, 201.

Tabela 3.11
Discriminação do modelo logı́stico ajustado
aos dados sobre processo infeccioso pulmonar.
Classificação Classificação pelo modelo
Correta Benigno Maligno
Benigno 81 23
Maligno 13 58

A regressão logı́stica tem múltiplas utilidades, entre as quais a possibili-


dade de também ser utilizada em análise discriminante quando há apenas dois
grupos para serem discriminados. O objetivo aqui é encontrar um modelo
ajustado que melhor discrimine os dois grupos. Como aproximadamente 21%
dos 341 pacientes foi diagnosticado com processo maligno pode-se verificar
qual a taxa de acertos do modelo ajustado. Um critério seria classificarmos
com processo maligno todo indivı́duo com probabilidade ajustada de pelo
menos 0,21. Caso contrário o indivı́duo seria classificado com processo be-
nigno. A Tabela 3.11 apresenta a discriminaa̧ão feita pelo modelo ajustado
aos dados sobre processo infeccioso pulmonar. Tem-se que a taxa de acertos

234
0.4
69

3
172
6

2
Componente do Desvio
0.3

1
Alavanca

0.2

0
−1
0.1

−2
21

−3
0.0

0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8

Valor Ajustado Valor Ajustado


(a) (b)

3
172
1.5

2
Componente do Desvio
Distancia de Cook

69
1.0

0
−1
0.5

−2
0.0

−3

0.0 0.2 0.4 0.6 0.8 −2 −1 0 1 2

Valor Ajustado Percentil da N(0,1)


(c) (d)

Figura 3.1: Gráficos de diagnóstico referentes ao modelo logı́stico ajustado


aos dados sobre processo infeccioso pulmonar.

é de 139/175 = 0,795 (79,5%). Uma outra forma de determinar o ponto de


corte para a classificação dos paciente é através de curvas ROC.

Ocorrência de vaso-constrição
Como outra aplicação, conside os dados de um experimento desenvolvido
para avaliar a influência da quantidade de ar inspirado na ocorrência de
vaso-constrição na pele dos dedos da mão (Finney, 1978; Pregibon, 1981).
Os dados do experimento são descritos na Tabela 3.12 e também no ar-
quivo pregibon.txt. A resposta, nesse exemplo, é a ocorrência (Y = 1) ou

235
ausência (Y = 0) de compressão de vasos e as covariáveis são o logaritmo do
volume e o logaritmo da razão de ar inspirado.

Tabela 3.12
Dados do experimento sobre a influência da razão e do volume de ar
inspirado na ocorrência de vaso-constrição da pele dos dedos da mão.
Obs Volume Razão Resposta Obs. Volume Razão Resposta
1 3,70 0,825 1 20 1,80 1,800 1
2 3,50 1,090 1 21 0,40 2,000 0
3 1,25 2,500 1 22 0,95 1,360 0
4 0,75 1,500 1 23 1,35 1,350 0
5 0,80 3,200 1 24 1,50 1,360 0
6 0,70 3,500 1 25 1,60 1,780 1
7 0,60 0,750 0 26 0,60 1,500 0
8 1,10 1,700 0 27 1,80 1,500 1
9 0,90 0,750 0 28 0,95 1,900 0
10 0,90 0,450 0 29 1,90 0,950 1
11 0,80 0,570 0 30 1,60 0,400 0
12 0,55 2,750 0 31 2,70 0,750 1
13 0,60 3,000 0 32 2,35 0,030 0
14 1,40 2,330 1 33 1,10 1,830 0
15 0,75 3,750 1 34 1,10 2,200 1
16 2,30 1,640 1 35 1,20 2,000 1
17 3,20 1,600 1 36 0,80 3,330 1
18 0,85 1,415 1 37 0,95 1,900 0
19 1,70 1,060 0 38 0,75 1,900 0
39 1,30 1,625 1

Supor para a i-ésima unidade experimental que Yi ∼ Be(πi ), em que


 
πi
log = β1 + β2 log (volume)i + β3 log (razão)i ,
1 − πi
com πi denotando a probabilidade de ocorrência de vaso-constrição.
As estimativas dos parâmetros são descritas na Tabela 3.13 e pode-se no-
tar que as variáveis explicativas log(volume) e log(raz~
ao) são altamente

236
significativas. O desvio do modelo foi de D(y; µ̂) = 29, 36 (com 36 graus de
liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d descrevem
alguns dos gráficos sugeridos acima bem como o gráfico normal de proba-
bilidades com envelope para o resı́duo tDi . Na Figura 3.2a tem-se o gráfico
de ĥii contra os valores ajustados e pode-se notar que a observação #31 é
destacada mais do que as restantes.

Tabela 3.13
Estimativas dos parâmetros do modelo
logı́stico ajustado aos dados sobre
vaso-constrição.
Parâmetro Estimativa E/E.Padrão
β1 -2,875 -2,18
β2 5,179 4,85
β3 4,562 2,49

Na Figura 3.2b tem-se o gráfico de LDi contra os valores ajustados e


pode-se notar duas observações mais discrepantes, #4 e #18, cujos valores
ajustados são menores do que 0, 11. Uma tendência similar é exibida na
Figura 3.2c onde tem-se o gráfico de t2Si contra os valores ajustados. A
eliminação da observação #4 levou às novas estimativas β̂1 = −5, 204(2, 17),
β̂2 = 7, 452(2, 93) e β̂3 = 8, 465(3, 246) com variação, respectivamente, de -
81%, 64% e 63%. O desvio do modelo reduziu para D(y; µ̂) = 22, 42 (35 g.l.),
variação de 24%. Resultado parecido ocorreu com a eliminação da observação
#18. Nesse caso obtém-se β̂1 = −4, 757(2, 008), β̂2 = 6, 879(2, 718) e β̂3 =
7, 669(2, 937) com variação, respectivamente, de -66%, 48% e 51%. O desvio
caiu para D(y; µ̂) = 23, 58 (35 g.l.), redução de 20%. Mesmo com as variações
desproporcionais não houve mudança inferencial. Esses resultados indicam
que os pontos #4 e #18 são influentes e aberrantes. Note que para os dois
casos houve ocorrência de ar inspirado, porém o valor do volume e da razão
são relativamente baixos contrariando a tendência observada pelo modelo

237
ajustado. O gráfico normal de probabilidades para o resı́duo tDi (Figura 3.2d)
não fornece indı́cios de afastamentos da suposição de distribuição binomial
para a resposta. Pode-se notar que a maioria dos pontos caem dentro do
envelope gerado.
0.25

31 4

1.2
0.20

18

Distancia de Cook
0.15

0.8
Alavanca

0.10

0.4
0.05
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Valor Ajustado Valor Ajustado


(a) (b)
14

4
12

2
Componente do Desvio
(Resid.Studentizado)^2

10

18
8

0
6

-1
4

-2
2
0

0.0 0.2 0.4 0.6 0.8 1.0 -2 -1 0 1 2

Valor Ajustado Percentil da N(0,1)


(c) (d)

Figura 3.2: Gráficos de diagnóstico referentes ao modelo logı́stico ajustado


aos dados sobre vaso-constrição.

Na Tabela 3.14 são apresentados os grupos formados com as observações


da Tabela 3.12 para o cálculo da estatı́stica Ĉ proposta por Hosmer e Le-
meshow (1989). Foram formados sete grupos com cinco observações cada e

238
um grupo com quatro observações.

Tabela 3.14
Quantidades usadas para o cálculo da estatı́stica Ĉ
referente ao modelo logı́stico ajustado aos dados
sobre vaso-constrição.
Grupo Obervações Oi n0i π̄i
1 7,9,10,11,32 0 5 0,0024
2 4,18,21,26,30 2 5 0,0459
3 12,13,22,28,38 0 5 0,2737
4 8,19,23,29,37 1 5 0,5113
5 6,24,31,33,39 3 5 0,6728
6 5,15,34,35,36 5 5 0,7956
7 3,14,20,25,27 5 5 0,8974
8 1,2,16,17 4 4 0,9766

Os termos para o cálculo de Ĉ são dados abaixo

Ĉ = 0, 0120 + 14, 3157 + 1, 8842 + 1, 9391


+ 0, 1203 + 1, 2846 + 0, 5716 + 0, 0958
= 20, 2233,

cujo nı́vel descritivo para uma qui-quadrado com 6 graus de liberdade é dado
por P= 0, 0025, indicando que o ajuste não é adequado. Por outro lado,
se eliminando as observações #4 e #18, obtém-se Ĉ = 5, 9374, que leva ao
nı́vel descritivo P= 0, 4302. Portanto, as duas observações destacadas pelas
análises de diagnóstico têm grande influência na falta de ajuste detectada
pela estatı́stica Ĉ.

Preferência de consumidores
Para ilustrar uma terceira aplicação com resposta binária será analisado parte
dos dados descritos no arquivo prefauto.txt sobre a preferência de consu-
midores americanos com relação a automóveis. Uma amostra aleatória de

239
263 consumidores foi considerada. As seguintes variáveis foram observadas
para cada comprador: preferência do tipo de automóvel (1: americano, 0:
japonês), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster et al.(1998, pgs.
338-339). Na Tabela 3.15 tem-se a distribuição da preferência do comprador
segundo o sexo e estado civil, respectivamente.

Tabela 3.15
Distribuição da preferência do comprador de
automóvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4%)
Japonês 83 (57,6%) 65 (54,6%)
Total 144 119
Casado Solteiro
Americano 83 (48,8%) 32 (34,4%)
Japonês 87 (51,2%) 65 (65,6%)
Total 170 93

Pode-se notar que para ambos os sexos a maior preferência é por carro ja-
ponês. Dentre os casados há pequena vantagem por carro japonês. Contudo,
essa preferência é bem mais acentuada entre os solteiros. Pelos boxplots da
Figura 3.3 nota-se que a idade mediana dos compradores de automóvel ameri-
cano é ligeiramente superior à idade mediana dos compradores de automóvel
japonês. Denotando por Yi a preferência com relação ao tipo do automóvel
pelo i-ésimo comprador (1: americano, 0: japonês), supor inicialmente um
modelo logı́stico sem interação em que Yi ∼ Be(πi ) com
 
πi
log = β1 + β2 idadei + β3 sexoi + β4 ecivili ,
1 − πi
sendo πi a probabilidade do i-ésimo comprador preferir automóvel americano.
Aplicando o método AIC a variável sexo é retirada do modelo. As estimativas
dos parâmetros do modelo final sem interação são descritas na Tabela 3.16.

240
60
50
40
Idade
30
20

Japonês Americano

Figura 3.3: Boxplots da idade dos compradores de automóveis japonês e


americano.

Assim, a probabilidade ajustada de preferência por automóvel americano


fica expressa na forma
exp(−1, 600 + 0, 050 × Idade − 0, 526 × ECivil)
π̂ = ,
1 + exp(−1, 600 + 0, 050 × Idade − 0, 526 × ECivil)
que é descrita na Figura 3.4 segundo a idade e o estado civil do comprador.

Tabela 3.16
Estimativas dos parâmetros referentes
ao modelo logı́stico ajustado aos dados
sobre preferência de compradores.
Efeito Estimativa E/E.Padrão
Constante -1,600 -2,31
Idade 0,049 2,30
E.Civil -0,526 -1,94

241
0.8
Probabilidade Ajustada

0.6
0.4

Casado
Solteiro
0.2

20 30 40 50 60

Idade

Figura 3.4: Probabilidade ajustada de preferência por caso americano se-


gundo a idade e oestado civil do comprador.

Não foi significativa a inclusão no modelo da interação entre a idade e o


estado civil do comprador. Assim, tem-se que a preferência por automóvel
americano aumenta com a idade do comprador. Com relação ao estado civil
nota-se que os casados preferem mais carro americano do que os solteiros.
Essa razão de chances (entre casados e solteiros) por carro americano pode
ser estimada por ψ̂ = exp(0, 526) = 1, 69, enquanto uma estimativa intervalar
aproximada de 90% para a razão de chances fica dada por

e0,526±1,65×0,272 = e0,526±0,449
= [1, 080; 2, 651][8, 0%; 165, 1%].

Portanto, um comprador casado tem uma chance entre 8% e 165,1% maior


de preferir automóvel americano em relação a um comprador solteiro.
No gráfico da distância de Cook aproximada (Figura 3.5) a observação
#99 (idade de 60 anos, solteira e prefere carro japonês) é destacada como

242
99

0.25
0.20
Distância de Cook
0.15
0.10
0.05
0.00

0 50 100 150 200 250


Índice

Figura 3.5: Distância de Cook referente ao modelo logı́stico ajustado aos


dados sobre preferência de consumidores.

possı́velmente influente, enquanto pela Figura 3.6 não há indı́cios de afasta-
mentos importantes de suposição de distribuição binomial para a resposta.
Tem-se na Tabela 3.17 as estimativas dos parâmetros sem a observação #99 e
pode-se notar que, embora ocorram algumas variações desproporcionais, não
há mudança inferencial. Essa compradora tem perfil com relação à idade de
ter preferência por carro americano, e isso pode levado à discrepância com
relação à distância de Cook.

Tabela 3.17
Estimativas dos parâmetros referentes ao modelo
logı́stico ajustado aos dados sobre preferência
de consumidores sem a observação #99.
Efeito Estimativa E/E.Padrão Variação
Constante -1,942 -2,65 -21,4%
Idade 0,060 2,65 22,4%
E.Civil -0,474 -1,72 9,9%

243
2
1
Componente do Desvio
0
−1
−2

−3 −2 −1 0 1 2 3
Quantil da N(0,1)

Figura 3.6: Gráfico normal de probabilidades para o resı́duo componente do


desvio referente ao modelo logı́stico ajustado aos dados sobre preferência de
consumidores.

3.7 Curva ROC


A Curva Caracterı́stica de Operação do Receptor (vide, por excemplo Agresti,
2013), também conhecida como curva ROC, é um procedimento gráfico de
discriminação de dados binários que varia conforme variam taxas de verda-
deiros positivos e falsos positivos. Assim, procura-se algum critério na curva
ROC que maximize a taxa de verdadeiros positivos e minimize a taxa de
falsos positivos.
Especificamente para regressão logı́stica, denotando por π̂ a probabili-
dade ajustada de sucesso de um modelo selecionado, o ojetivo principal é
estabelecer algum critério para a probabilidade ajustada a fim de classificar
um novo indivı́duo como sendo sucesso ou fracasso. É esperado que esse novo
indı́vio seja classificado como sendo sucesso à medida que π̂ se aproxima de 1

244
e como fracasso à medida que π̂ se aproxima de 0. Assim, definindo um ponto
de corte para a probabilidade ajustada, pode-se construir para os dados da
amostra uma tabela similar à Tabela 3.18, com as seguintes definções:

• Acurácia: proporção de predições corretas


VP+VN
ACC = n
.

• Sensibilidade: proporção de verdadeiros positivos


VP
SENS = VP+FN
1 - SENS: proporção de falsos negativos.

• Especificidade: proporção de verdadeiros negativos


VN
ESPEC = FP+VN
1 - ESPEC: proporção de falsos positivos.
Tabela 3.18
Tabela de classificação para dados binários.
Classificação Classificação Correta
pelo Modelo Sucesso Fracasso Total
Sucesso VP FP VP+FP
Fracasso FN VN FN+VN
Total VP+FN FP+VN n
A curva ROC para o exemple sobre preferência de consumidores é apresen-
tada na Figura 3.7 e como pode ser observado a área sob a curva é pequena,
dificultando encontrar um ponto de corte que corresponda a uma taxa de
verdadeiros positivos alta e a uma taxa de falsos positivos pequena. Ape-
nas, para ilustrar, supor ponto de corte de 0,44. Ou seja, classificar como
comprador de automóvel americano se a probabilidade ajustada π̂ ≥ 0, 44 e
como comprador de automóvel japonês se π̂ < 0, 44. A classificação segundo
esse critério para a amostra do exemplo de preferência de consumidores é
descrita na Tabela 3.19 e nota-se taxas de acurácia, sensibilidade e especi-
ficidade, respectivamente, dadas por ACC = 68+86 ∼ = 0, 586(58, 6%), SENS
263

245
= 68 ∼
= 0, 591(59, 1%) e ESPEC = 86 ∼
= 0, 581(58, 1%), que podem ser
115 148
consideradas baixas.
Proporção de Verdadeiros Positivos
1.0
0.8
0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Proporção de Falsos Positivos

Figura 3.7: Curva ROC referente ao modelo logı́stico ajustado aos dados
sobre preferência de consumidores.

Tabela 3.19
Tabela de classificação para o exemplo de
preferência de consumidores.
Classificação Classificação Correta
pelo Modelo Americano Japonês Total
Americano 68 62 130
Japonês 47 86 133
Total 115 148 263

3.8 Modelos de dose-resposta


O modelo logı́stico é frequentemente utilizado em Toxicologia no estudo do
comportamento de determinados medicamentos, que é medido pela probabi-

246
lidade π(x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expressão geral Z x
π(x) = f (u)du, (3.15)
−∞

em que f (u) representa uma função densidade de probabilidade, também


conhecida como função de tolerância. Como visto na Seção 1.3.1, alguns
candidatos naturais para f (u) são as funções de densidade da normal padrão,
da distribuição logı́stica e da distribuição do valor extremo, as quais levam aos
modelos probito, logı́stico e complementar log-log, respectivamente. Utiliza-
se o preditor linear η = β1 + β2 x no lugar de x em (3.15) a fim de ampliar o
leque de opções para π(x).
Os modelos de dose-resposta visam não somente a predição da proba-
bilidade de sucesso π(x) para uma dosagem especı́fica x, mas também a
determinação da dosagem necessária para atingir uma probabilidade de su-
cesso p. Essa dosagem é chamada de dose letal. A notação usual para uma
dose letal de 100p% é dada por DL100p . Logo,

p = π(β1 + β2 DL100p ), 0 < p < 1.

A dose letal mais comum em Toxicologia é a dose mediana (DL50 ), embora


em certos casos sejam também de interesse doses extremas, tais como DL1
ou DL99 . Deve-se observar que hoje em dia modelos de dose-resposta são
definidos em várias áreas do conhecimento, em que a dose pode ser a idade,
o peso, a resistência de um material, etc.
Supondo o modelo logı́stico com preditor linear η = β1 +β2 x, a estimativa
de máxima verossimilhança de DL100p fica, pela propriedade de invariância,
dada por    
1 p
DL100p = d(β̂) =
c log − β̂1 ,
β̂2 1−p

247
em que β̂ é a estimativa de máxima verossimilhança de β = (β1 , β2 )> .
A variância assintótica de DL
c 100p pode ser obtida após uma aproximação
de primeira ordem por série de Taylor de d(β̂) em torno de β, conhecido
como método delta, levando ao seguinte resultado:

c 100p ] = D(β)> (X> VX)−1 D(β),


VarA [DL

em que
   >
∂d(β) −1 1 p
D(β) = = , β1 − log .
∂β β2 β22 1−p
Importante observar que (X> V̂X)−1 contém as variâncias e covariância es-
timadas de β̂1 e β̂2 . Portanto, um intervalo de confiança assintótico de coe-
ficiente (1 − α) para DL100p fica dado por
q
DL100p ± z(1−α/2) V̂arA [d(β̂)].
c

3.8.1 Aplicações
Exposição de besouros
Em Bliss (1935) (ver também Silva, 1992) encontra-se uma situação tı́pica
para o ajuste de um modelo logı́stico de dose-resposta. O estudo baseia-se
no comportamento de besouros adultos à exposição de disulfeto de carbono
gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos 481
besouros expostos segundo diferentes doses são apresentados na Tabela 3.20
e no arquivo besouros.txt.
Ajustando um modelo logı́stico do tipo logit{π(x)} = β1 + β2 x aos dados,
em que x denota a dose de CS2 , obtém-se as estimativas β̂1 = −60, 72(5, 18),
β̂2 = 34, 27(2, 91) e Cov(β̂1 , β̂2 ) = −15, 04. O desvio do modelo foi de
D(y; µ̂) = 11, 23 para 6 graus de liberdade, o que leva a um nı́vel descri-
tivo de P= 0, 0815, indicando um ajuste razoável. O gráfico de envelope

248
descrito na Figura 3.8 confirma essa falta de ajuste. Talvez a inclusão de um
termo quadrático ou mesmo o ajuste de um modelo logı́stico não linear (ver
Silva, 1992) possam melhorar a qualidade do ajuste.

Tabela 3.20
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose Besouros Besouros
log10 CS2 expostos mortos
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60

Uma vez conhecida a covariância assintótica entre β̂1 e β̂2 , pode-se calcular
a variância assintótica de DL
c 100p para alguns valores de p e consequentemente
os intervalos assintóticos de confiança. Em particular, para p = 0, 50, obtém-
se a dose letal estimada
   
1 0, 5
DL
c 50 = log − β̂1
β̂2 1 − 0, 5
β̂1 60, 72
= − =
β̂2 34, 27
= 1, 772.

Um intervalo de confiança assintótico de 95% para DL50 fica então dado por
s  
−0, 029
1, 772 ± 1, 96 (−0, 029, −0, 052)> (X> V̂X)−1
−0, 052
p
= 1, 772 ± 1, 96 0, 00001488
= [1, 764; 1, 780].

249
2
1
Componente do Desvio

0
-1
-2
-3

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Quantil da N(0,1)

Figura 3.8: Gráfico normal de probabilidades referente ao modelo logı́stico


ajustado aos dados sobre exposição de besouros.

A Figura 3.9 descreve a curva ajustada e as frequências observadas. Como


pode-se observar os pontos abaixo de π̂(x) = 0, 50 parecem mais mal ajusta-
dos do que os pontos com resposta estimada acima desse valor. Isso sugere
que um modelo binomial com ligação assimétrica poderia levar a um ajuste
mais adequado. Uma opção poderia ser o modelo binomial com ligação com-
plemento log-log, que é assimétrico em torno de p = 0, 50 e cuja parte sis-
temática fica expressa na forma

log{− log(1 − π(x))} = β1 + β2 x,

em que x denota a dose de CS2 . As estimativas paramétricas ficam dadas


por β̂1 = −39, 57(3, 24), β̂2 = 22, 04(1, 80) e Cov(β̂1 , β̂2 ) = −5, 82. O desvio
do modelo caiu para D(y; µ̂) = 3, 45 com 6 graus de liberdade, que leva a um

250
1.0
0.8
Porporcao de Mortos

0.6
0.4
0.2
0.0

1.65 1.70 1.75 1.80 1.85 1.90

dose

Figura 3.9: Modelo logı́stico ajustado à proporção de besouros mortos.

nı́vel descritivo de P= 0, 751. Logo, não rejeita-se o modelo. O gráfico da


curva ajustada (Figura 3.10a) e o gráfico normal de probabilidades (Figura
3.10b) confirmam essa indicação de modelo bem ajustado.

Para o modelo com ligação complemento log-log a estimativa de máxima


verossimilhança de DL100p fica dada por
1 h i
DL100p = d(β̂) =
c log{− log(1 − p)} − β̂1 ,
β̂2
para a qual obtém-se a variância assintótica

c 100p ] = D(β)> (X> WX)−1 D(β),


VarA [DL

em que
 >
∂d(β) −1 1
D(β) = = , {β1 − log(− log(1 − p))} ,
∂β β2 β22

251
1.0

2
0.8

Componente do Desvio
Porporcao de Mortos

1
0.6

0
0.4

-1
0.2

-2
0.0

-3
1.65 1.70 1.75 1.80 1.85 1.90 -1.5 -0.5 0.0 0.5 1.0 1.5

dose Quantil da N(0,1)


(a) (b)

Figura 3.10: Curva ajustada para a proporção de besouros mortos (a) e


gráfico normal de probabilidades sob o modelo complementar log-log (b).

com W sendo uma matriz diagonal de pesos dados por ωi = ni πi−1 (1 −


πi ) log2 (1 − πi ) i = 1, . . . , 8. Em particular, para p = 0, 50, obtém-se
c 50 = 1 log{− log(1 − 0, 5)} − β̂1
h i
DL
β̂2
1
= (−0, 3665 + 39, 57)
22, 04
= 1, 779.

Logo, um intervalo assintótico de 95% para DL50 fica dado por


s  
> > −1
−0, 0454
1, 779 ± 1, 96 (−0, 0454, −0, 0807) (X ŴX)
−0, 0807
p
= 1, 779 ± 1, 96 0, 00001606
= [1, 771; 1, 787].

Pode-se notar que as estimativas intervalares para DL50 são praticamente as


mesmas sob os dois modelos ajustados.

252
Garotas de Varsóvia
Os problemas de dose-resposta não se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do inı́cio da menstruação em 3918 ga-
rotas de Varsóvia. Para 25 médias de idade foram observadas a ocorrência
(Y = 1) ou não (Y = 0) do inı́cio de perı́odos de menstruação nas adoles-
centes. Os dados desse estudo são apresentados na Tabela 3.21 e no arquivo
meninas.txt. Considere o modelo logı́stico linear
 
π(x)
log = β1 + β2 x,
1 − π(x)

em que π(x) = P r{Y = 1|x} e x denota a idade média. As estimativas


de máxima verossimilhança deram β̂1 = −21, 23(0, 769), β̂2 = 1, 63(0, 059)
e Cov(β̂1 , β̂2 ) = −0, 045. Na Figura 3.11 são apresentadas a curva ajustada
e as frequências observadas. O desvio do modelo foi de D(y; µ̂) = 26, 80
(23 graus de liberdade) para um nı́vel descritivo de P= 0, 264, indicando um
ajuste adequado.
A estimativa da idade mediana de inı́cio do perı́odo de menstruação fica
portanto dada por
c 50 = 21, 23 = 13, 02,
DL
1, 63
com o seguinte intervalo assintótico de confiança de 95%:
p
13, 02 ± 1, 96 0, 004524 = [12, 89; 13, 15].

Pelo gráfico de envelope descrito na Figura 3.12a nota-se que os resı́duos


apresentam uma tendência sistemática dentro do envelope gerado, sugerindo
a inclusão de um termo quadrático na parte sitemática do modelo. O ajuste
de um modelo com parte sistemática dada por

η(x) = β1 + β2 x + β3 x2

253
forneceu as seguintes estimativas: β̂1 = −30, 96(5, 24), β̂2 = 3, 12(0, 78) e
β̂3 = −0, 06(0, 03) com desvio D(y, ; µ̂) = 23, 40 (22 graus de liberdade) para
um nı́vel descritivo de P= 0, 38. O gráfico de envelope descrito na Figura
3.12b confirma a adequação do modelo com termo quadrático.

Tabela 3.21
Ocorrência do inı́cio da menstruação em garotas de Varsóvia.
Número de garotas Número de garotas
Idade Menstruadas Entrevistadas Idade Menstruadas Entrevistadas
9,21 0 376 13,08 47 99
10,21 0 200 13,33 67 106
10,58 0 93 13,58 81 105
10,83 2 120 13,83 88 117
11,08 2 90 14,08 79 98
11,33 5 88 14,33 90 97
11,58 10 105 14,58 113 120
11,83 17 111 14,83 95 102
12,08 16 100 15,08 117 122
12,33 29 93 15,33 107 111
12,58 39 100 15,58 92 94
12,83 51 108 15,83 112 114
17,53 1049 1049

Stukel (1988) (ver também Silva, 1992) mostra que o uso de um modelo
logı́stico não linear pode melhorar substancialmente a qualidade do ajuste
dos modelos de dose-resposta apresentados nesta seção.

3.8.2 Estimação da dose letal


Intervalos de confiança aproximados para a dose letal DL100p podem ser cons-
truı́dos utilizando a variância assintótica para DL
c 100p , conforme descrito na

254
1.0
Porporcao de Garotas Menstruadas

0.8
0.6
0.4
0.2
0.0

10 12 14 16 18

Idade

Figura 3.11: Curva ajustada pelo modelo logı́stico linear para a proporção
de garotas de Varsóvia.

seção anterior. Há, contudo, um outro método que é baseado no teorema de


Fieller (1954) e será descrito a seguir.
β0
Denote por ρ = β1
, em que β0 e β1 são estimados por β̂0 e β̂1 , sendo
assumido que essas estimativas são normalmente distribuı́das com médias β0
e β1 , variâncias v00 e v11 e covariância v01 . Defina a função ψ̂ = β̂0 − ρβ̂1 .
Então, se β̂0 e β̂1 são estimativas não viesadas de β0 e β1 , obtém-se E(ψ̂) = 0.
A variância de ψ̂ fica, portanto, dada por

v = Var(ψ̂) = v00 + ρ2 v11 − 2ρv01 . (3.16)

Desde que β̂0 e β̂1 são normalmente distribuı́dos, então ψ̂ também é normal-
mente distribuı́do. Consequentemente, a variável

(β̂0 − ρβ̂1 )/ v

segue distribuição normal padrão. Assim, um intervalo assintótico de con-

255
fiança para ρ com coeficiente (1 − α) é formado pelos valores de ρ tais que

| β̂0 − ρβ̂1 |≤ z(1−α/2) v.

Os limites desse intervalo de confiança saem da equação quadrática


2
β̂02 + ρ2 β̂12 − 2ρβ̂0 β̂1 − z(1−α/2) v = 0,

que, após algumas manipulações algébricas e usando (3.16), fica dada por

(β̂12 − z(1−α/2)
2
v11 )ρ2 + (2v01 z(1−α/2)
2
− 2β̂0 β̂1 )ρ + β̂02 − v00 z(1−α/2)
2
= 0,

em que z(1−α/2) denota o quantil (1 − α/2) da distribuição normal padrão.


Portanto, as raı́zes da equação acima formam os limites inferior e superior
do intervalo de confiança para ρ. Por exemplo, basta chamar ρ = − ββ12 e apli-
car os resultados acima para encontrar um intervalo assintótico de coeficiente
(1 − α) para a dose letal mediana DL50 .

3.8.3 Modelos de retas paralelas


Modelos de retas paralelas são comumente aplicados na área de Farmacolo-
gia para a comparação da eficiência de drogas do mesmo tipo, ou seja, com
ação similar (ver, por exemplo, Finney, 1971; Collett, 1991). Nesses estudos,
o interesse principal é comparar as potências entre as drogas definindo uma
droga particular como nı́vel base ou droga padrão. Para aplicar esses mo-
delos em experimentos com respostas binárias é assumido que Yijk , o efeito
produzido pela j-ésima dose correspondente à i-ésima droga no k-ésimo in-
divı́duo, i = 1, . . . , g, j = 1, . . . , di e k = 1, . . . , nij , segue distribuição de
Bernoulli com probabilidade de sucesso πij definida tal que

g(πij ) = αi + βlogxij , (3.17)

256
2

2
Componente do Desvio

Componente do Desvio
1

1
0

0
-1

-1
-2

-2
-3

-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) Quantil da N(0,1) (b) Quantil da N(0,1)

Figura 3.12: Gráficos normais de probabilidades para os modelos logı́stico


com componente sistemática linear (a) e não linear (b) ajustados aos dados
sobre garotas de Varsóvia.

e que as variáveis Yijk ’s são mutuamente independentes. Considerando a


primeira droga como padrão, a potência ρi da i-ésima droga com relação à
primeira é definida por

log(ρi ) = (αi − α1 )/β,

i = 1, . . . , g. Essa suposição leva à seguinte relação:

g(πij ) = α1 + β log(ρi xij ),

isto é, x unidades da droga i têm o mesmo efeito que ρi x unidades da primeira
droga.

Aplicação
A Tabela 3.22 resume os resultados de um experimento (ver Collett, 1991)
em que três inseticidas são aplicados num determinado tipo de inseto e é

257
verificado o número de sobreviventes para cada dose aplicada. Esses dados
estão também descritos no arquivo insetic.txt.

Tabela 3.22
Mortalidade de insetos segundo as doses de três inseticidas.
Dose mg/cm2
Inseticida 2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
γ-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + γ-BHC 28/50 37/50 46/50 48/50 48/50 50/50

Ajustando o modelo (3.17) com ligação logito aos dados, obtém-se as


estimativas α̂1 = −4, 555(0, 361), α̂2 = −3, 842(0, 333), α̂3 = −1, 425(0, 285)
e β̂ = 2, 696(0, 214), com desvio dado por D(y; µ̂) = 21, 282, para 14 graus
de liberdade, P= 0, 0946. Isso quer dizer que o ajuste do modelo de retas
paralelas parece ser razoável.

Tem-se, portanto, os seguintes ajustes para as três drogas:


 
π̂1 (xj )
log = −4, 555 + 2, 696 log(xj ) (DDT);
1 − π̂1 (xj )
 
π̂2 (xj )
log = −3, 842 + 2, 696 log(xj ) (γ−BHC) e
1 − π̂2 (xj )
 
π̂3 (xj )
log = −1, 425 + 2, 696 log(xj ) (DDT + γ−BHC),
1 − π̂3 (xj )
para j = 1, . . . , 6. Nota-se, pelas estimativas, que há um aumento de potência
quando as drogas DDT e γ-BHC são misturadas. Em particular, a potência
da mistura com relação às drogas DDT e γ-BHC é estimada, respectiva-
mente, por ρ̂1 = exp{(−1, 425+4, 555)/2, 696} = 3, 19 e ρ̂2 = exp{(−1, 425+
3, 842)/2, 696} = 2, 45.

258
3
2
Componente do Desvio

1
0
-1
-2

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.13: Gráfico normal de probabilidades para o modelo logı́stico de


retas paralelas ajustado aos dados sobre três tipos de inseticida.

Pelo gráfico normal de probabilidades (Figura 3.13), nota-se que todos


os resı́duos caem dentro do envelope gerado. No entanto, parece haver uma
tendência no gráfico, uma vez que os resı́duos negativos apresentam-se ligei-
ramente abaixo da média enquanto os resı́duos positivos apresentam-se ligei-
ramente acima. Isso pode ser um indı́cio de sobredispersão, isto é, que as
réplicas (para cada dose e cada inseticida) não são totalmente independentes.
Em Collett (1991, Cap. 6) há uma discussão sobre o assunto. Apresenta-se
a seguir uma abordagem para esse tipo de problema.

3.9 Sobredispersão
Sobredispersão ou variação extrabinomial é um fenômeno comum que ocorre
na modelagem de dados binários agrupados e cuja ocorrência é caracterizada
quando a variação observada excede aquela assumida pelo modelo (ver, por

259
exemplo, Hinde e Demétrio, 1998). Em particular em regressão logı́stica,
quando o desvio D(y; µ̂) é maior do que o número de graus de liberdade
(g − p), pode haver indı́cios de sobredispersão, em que g é o número de
grupos. Isso pode ser avaliado mais precisamente pelo nı́vel descritivo do
teste de ajustamento comparando D(y; µ̂) com os quantis da distribuição
qui-quadrado com (g − p) graus de liberdade.
Diferentes circunstâncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredispersão aparente. Por
exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminação desses pontos pode reduzir as evidências de
sobredispersão. Outra causa aparente de sobredispersão é a ausência de
algum termo extra na parte sistemática do modelo. Medidas de diagnóstico
são ferramentas importantes para detectar o fenômeno. Em sı́ntese, há duas
possı́veis causas de sobredispersão: correlação entre as réplicas binárias ou
variação entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prático é difı́cil distinguir entre os dois casos. Contudo, como será
descrito a seguir, os procedimentos estatı́sticos para tratar a sobredispersão
podem ser os mesmos.

3.9.1 Caso I
Supor inicialmente a existência de g grupos de modo que para o i-ésimo
grupo sejam observadas ni repetições de uma variável aleatória Yij ∼ Be(πi )
(Bernoulli com probabilidade de sucesso πi ). O número total de sucessos no
i-ésimo grupo será definido por

Yi = Yi1 + · · · + Yini .

260
Segue que E(Yij ) = πi e Var(Yij ) = πi (1 − πi ). Supor adicionalmente a
existência de correlação entre as repetições do i-ésimo grupo. Logo,
ni
X ni
X ni
X
Var(Yi ) = Var(Yij ) + Cov(Yij , Yik ).
j=1 j=1 k=1,k6=j

Se essa correlação é constante, Corr(Yij , Yik ) = δ para j 6= k, então tem-se


que Cov(Yij , Yik ) = δπi (1 − πi ). Daı́ obtém-se
ni
X ni
X ni
X
Var(Yi ) = πi (1 − πi ) + δπi (1 − πi )
j=1 j=1 k=1,k6=j

= ni πi (1 − πi ) + ni (ni − 1)δπi (1 − πi )
= σi2 ni πi (1 − πi ),

em que σi2 = 1 + (ni − 1)δ. Se é exigido que σi2 > 0, então deve-se ter

1 + (ni − 1)δ > 0,

que implica em δ > −1/(ni − 1). Portanto, haverá a restrição


1
− ≤ δ ≤ 1.
ni − 1
Assim, δ assumirá valores negativos apenas para ni pequeno. Caso contrário,
δ assumirá valores em geral positivos. Logo, tem-se em geral Var(Yi ) >
ni πi (1 − πi ) (sobredispersão).

3.9.2 Caso II
Supor agora que pi representa a probabilidade de sucesso nas respostas do
i-ésimo grupo tal que E(pi ) = πi e Var(pi ) = δπi (1 − πi ), δ ≥ 0. Tem-se
portanto um modelo de efeito aleatório, que reduz ao modelo usual de efeito
fixo fazendo δ = 0. Assumindo ainda que Yij |pi ∼ Be(pi ) de onde segue que
E(Yij |pi ) = pi e Var(Yij |pi ) = pi (1 − pi ). Daı́ obtém-se

E(Yi ) = E{E(Yi |pi )} = ni πi

261
e

Var(Yi ) = E{Var(Yi |pi )} + Var{E(Yi |pi )}


= ni πi (1 − πi )(1 − δ) + n2i δπi (1 − πi )
= ni πi (1 − πi ){1 + (ni − 1)δ},

que coincidem com os resultados obtidos para o primeiro caso. No entanto


aqui tem-se a restrição δ ≥ 0.

3.9.3 Estimação
A estimação de δ tem sido discutida em vários contextos. No primeiro caso,
por exemplo, δ pode ser consistentemente estimado por
g
X X
δ̃ = r̂Pi` r̂Pi`0 /(N − p), (3.18)
i=1 `0 <`
p
em que r̂Pi` = (yi` − π̂i )/ π̂i (1 − π̃i ) é o resı́duo de Pearson estimado,
N = 12 gi=1 ni (ni − 1) e π̂i é a estimativa de máxima verossimilhança de
P

πi supondo δ = 0. Contudo, deve-se estimar β e δ simultaneamente através


de um processo iterativo. Uma proposta é o uso de equações de estimação
generalizadas (Liang e Zeger, 1986) as quais serão discutidas no Capı́tulo 5.
As novas estimativas, denotadas por β̂ G e δ̂, saem do sistema de equações
g
X
{1 + (ni − 1)δ̂}−1 xi (yi − ni π̂i ) = 0.
i=1

Dada uma estimativa inicial para δ, que pode ser δ̃, tem-se o seguinte processo
iterativo para obter β̂ G :
g g
X (m)
X (m) (m) (m) (m)
β (m+1)
=β (m)
+{ ωi xi x>
i }
−1
{ωi xi (yi −ni πi )/ni πi (1−πi )},
i=1 i=1
(3.19)

262
m = 0, 1, 2 . . ., em que ωi = ni πi (1 − πi )/{1 + (ni − 1)δ̂}. O processo iterativo
(3.19) é alternado com (3.18) até chegar à convergência. Pode-se mostrar
que o estimador β̂ G é consistente e assintoticamente normal. A variância
assintótica de β̂ G é dada por
g
X
Var(β̂ G ) = { ωi xi x> −1
i } .
i=1

Há também uma proposta de variância assintótica robusta no caso da estru-


tura de correlação ter sido definida incorretamente, que é dada por
g g g
X X X
Var(β̂ G ) = { ωi xi x> −1
i } { νi x i x >
i }{ ωi xi x> −1
i } ,
i=1 i=1 i=1

em que νi = {1 + (ni − 1)δ}−2


P
`,`0 (yi` − πi )(yi`0 − πi ). Um desvio corrigido
para esse modelo fica dado por
g
X
D(y; µ̂G ) = {1 + (ni − 1)δ̂}d2i ,
i=1

em que d2i é o i-ésimo componente do desvio de um modelo binomial, avaliado


em β̂ G .
A seguir são descritos procedimentos para resolver (3.19) no R. Inicial-
mente é definida uma função corpearson para obter (3.18). Denota-se os
vetores (y1 /n1 , . . . , yg /ng )> , (y1 , . . . , yg )> e (n1 , . . . , ng )> por fr, yt e nt,
respectivamente, e o número de parâmetros por npar. A função é definida
por
corpearson = function(fr, yt, nt, npar) {
nt1 = 0.5*sum(nt*(nt-1))
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum1 = sum(sum1)

263
rho = sum1/(nt1-npar)
rho }.
Supor que há duas variáveis explicativas representadas por x1 e x2 sem in-
tercepto e que os resultados do ajuste do modelo supondo independência
sejam colocados em fit.model. Em fit.gee são armazenados os resultados
do processo iterativo dado em (3.19) e supor ainda 10 iterações. Seguem os
comandos
fit.model = glm(resp ∼ x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp ∼ x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa final da correlação está armazenada em rr. Para rodar os
programas descritos acima no R deve-se armazenar inicialmente a função
corpearson num arquivo externo, por exemplo denominado corr.s, e exe-
cutar o mesmo através do comando abaixo
source(‘‘corr.s’’).
Então a função corpearson estará instalada. Em seguida deve-se fazer o

264
mesmo para ajustar o modelo colocando os demais comandos num arquivo
externo, por exemplo denominado super.s, fazendo o seguinte:
source(‘‘super.s’’).

3.9.4 Teste de ausência de sobredispersão


Pode ser de interesse testar a hipótese de ausência de sobredispersão H0 :
δ = 0 contra H1 : δ > 0. Como o conhecimento da distribuiçào de Yij é
mais complexo sob a hipótese alternativa, dificultando a aplicação de testes
tradicionais tais como razão de verossimilhanças, Wald e escore, a proposta
de aplicar um teste tipo escore que requer apenas o conhecimento dos dois
primeiros momentos de Yij com a estatı́stica do teste sendo avaliada sob a
hipótese nula (modelo binomial de respostas independentes) torna-se atra-
tivo. Uma estatı́stica do teste proposta por Paula e Artes (2000) é expressa
na forma assume a forma
Pg
M̂i
ξS = qPi=1 ,
g 2
i=1 M̂i

P
em que M̂i = `<`0 r̂Pi` r̂Pi`0 de modo que H0 seja rejeitada quando ξS >
z(1−α) . Pode-se mostrar que essa estatı́stica corresponde à forma padronizada
(sob H0 ) de δ̃. Para calcular ξS tem-se a função abaixo em que fr denota os
valores ajustados sob a hipótese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.

265
3.9.5 Modelo beta-binomial
Uma outra possibilidade para estudar o fenômeno de sobredispersão é através
do uso do modelo beta-binomial, em que variáveis aleatórias Y e Z são defi-
nidas tais que
Y |z ∼ B(n, z) e Z ∼ Beta(µ, σ),

com 0 < z, µ < 1 e σ > 0. Então, após algumas manipulações algébricas,


pode-se mostrar que a distribuição marginal de Y é dada por

Y ∼ BB(n, µ, σ), y = 0, 1, . . . , n,

com E(Y ) = nµ e Var(Y ) = nµ(1 − µ){1 + (n − 1)σ 2 }. Ou seja, tem-se a


distribuição beta-binomial com mesmo domı́nio e mesma média da binomia,
contudo com variância maior do que a variância da binomial. A distribuição
beta-binomial não pertene à famı́lia exponencial, contudo pode ser ajustada
através da biblioteca GAMLSS (Stasinopoulos et al., 2017) e pode contemplar
os dois tipos de situações descritos na Seção 1.9 que geram sobredispersão
com dados binários.

3.9.6 Quase-verossimilhança
Pode-se ainda supor σi2 = φ−1 e estimar φ consistentemente dos dados ou
do modelo ajustado substituindo a estimativa obtida nas quantidades que
envolvem φ. Quando ni é grande, ∀i, pode-se estimar φ diretamente do
desvio
D(y; µ̂)
φ̂−1 = .
g−p
No caso de ni pequeno, para algum i, recomenda-se a estimativa abaixo
g
−1 1 X (yi − ni π̂i )2
φ̂ = ,
g − p i=1 ni π̂i (1 − π̂i )

266
em que p denota o número de parâmetros da parte sistemática do modelo
e π̂1 , . . . , π̂g são as probabilidades ajustadas nos g grupos. Sob a hipótese
de que o modelo é verdadeiro, essa estimativa é também consistente para φ.
Essa opção é um caso particular de modelos de quase-verossimilhança que
serão discutidos no Capı́tulo 5.
2
Componente do Desvio

1
0
-1
-2
-3

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.14: Gráfico normal de probabilidades para o resı́duo corrigido para


o modelo logı́stico de retas paralelas ajustado aos dados sobre três tipos de
inseticida.

No exemplo da seção anterior, envolvendo a comparação de três inseti-


cidas, tem-se um total de 18 grupos com probabilidades ajustadas π̂i (xj ),
i = 1, 2, 3 e j = 1, . . . , 6. Como ni = 50 para a maioria dos grupos, pode-se
estimar φ consistentemente através de
D(y; µ̂) 21, 282
φ̂−1 = = = 1, 52.
g−p 14

267
Algumas quantidades que envolvem φ deverão ser corrigidas,

Var(β̂) = φ̂−1 (X> VX)−1 e D∗ (y; µ̂) = φ̂D(y; µ̂)


q
com t∗Di = φ̂tDi . O novo gráfico normal de probabilidades, agora com t∗Di ,
é apresentado na Figura 3.14 e não apresenta indı́cios de afastamentos sérios
das suposições feitas para o modelo. É importante observar que o novo
resı́duo t∗Di não corresponde ao componente do desvio de nenhum modelo
particular. Nos modelos de quase-verossimilhança a distribuição da resposta
é em geral desconhecida e o uso de D∗ (y; µ) deve ser encarado de forma
descritiva.

3.9.7 Aplicação
Collett (1991, Seção 6.9) descreve um experimento com duas espécies de
rotifers, um tipo microscópico de invertebrado aquático. O objetivo do ex-
perimento é determinar a densidade relativa para cada uma das espécies.
Foi utilizado um método indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substância e então
utilizar uma regressão logı́stica para ajustar a proporção de rotifers que per-
manecem suspensos segundo a densidade relativa. A densidade relativa de
cada espécie pode ser estimada pela DL50 , que nesse caso representa a den-
sidade relativa da substância que deixa suspenso 50% de rotifers.
Seja Yij o número de animais da i-ésima espécie que permanecem sus-
pensos num recipiente com densidade relativa dj da solução, onde foram
colocados nij rotifers. É assumido inicialmente que Yij ∼ B(nij , πij ), i = 1, 2
e j = 1, . . . , 20, em que
 
πij
log = αi + βi dj .
1 − πij

268
Na Tabela 3.21 e no arquivo rotifers.txt são apresentados para cada espécie
a densidade relativa da substância, o número de rotifers expostos e o número
de rotifers em suspensão. Para a espécie Polyathra as estimativas de máxima
verossimilhança são dadas por α̂1 = −109, 72(5, 22) e β̂1 = 105, 67(5, 02),
enquanto que para a espécie Keratella obtém-se α̂2 = −114, 35(4, 03) e β̂2 =
108, 75(3, 86).

Tabela 3.21
Distribuição de rotifers das duas espécies.
Polyarthra major Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019 11 58 13 161
1,020 7 86 14 248
1,021 10 76 30 234
1,030 19 83 10 283
1,030 9 56 14 129
1,030 21 73 35 161
1,031 13 29 26 167
1,040 34 44 32 286
1,040 10 31 22 117
1,041 36 56 23 162
1,048 20 27 7 42
1,049 54 59 22 48
1,050 20 22 9 49
1,050 9 14 34 160
1,060 14 17 71 74
1,061 10 22 25 45
1,063 64 66 94 101
1,070 68 86 63 68
1,070 488 492 178 190
1,070 88 89 154 154

Embora essas estimativas sejam altamente significativas, o desvio do mo-


delo D(y; µ̂) = 434, 02 (36 graus de liberdade) indica para um ajuste inade-

269
quado. O gráfico normal de probabilidades descrito na Figura 3.15 confirma
a sobredispersão. Segundo Collett (1991, Cap. 6) a sobredispersão nos dados
pode ter sido causada por uma possı́vel má distribuição dos animais nos re-
cipientes, uma vez que rotifers mais jovens são menos densos do que os mais
maduros. Collett (1991) propõe um modelo logı́stico com efeito aleatório
para ajustar a proporção de animais em suspensão e consegue uma redução
substancial no valor do desvio. Alternativamente será assumido o modelo
proposto na Seção 3.6.14, que com uma adaptação de notação corresponde a
assumir E(Yij ) = nij πij e Var(Yij ) = nij πij (1 − πij ){1 + (nij − 1)δ}, em que
δ denota a correlação intraunidade experimental.
6
4
Componente do Desvio

2
0
-2
-4
-6

-2 -1 0 1 2

Quantil da N(0,1)

Figura 3.15: Gráfico normal de probabilidades do modelo logı́stico ajustado


aos dados sobre rotifers.

270
1
Residuo de Pearson

0
-1
-2

16
-3

0.0 0.2 0.4 0.6 0.8

Valor Ajustado

Figura 3.16: Gráfico de resı́duos de Pearson contra os valores ajustados para


o modelo logı́stico de sobredispersão ajustado aos dados sobre rotifers.

Usando o processo iterativo dado na seção anterior obtém-se as novas


estimativas α̂1 = −90, 64(13, 18), β̂1 = 87, 22(12, 66), α̂2 = −117, 25(14, 91),
β̂2 = 111, 45(14, 21) e δ̂ = 0, 0815. Pela Figura 3.16 nota-se que, exceto
a observação #16 que corresponde a uma unidade experimental com baixa
proporção de rotifers (10/22) para uma densidade alta, os demais resı́duos
permanecem no intervalo [-2,2] e não apresentam nenhuma tendência sis-
temática contra os valores ajustados.
A aplicação da estatı́stica ξS para testar H0 : δ = 0 contra H1 : δ > 0
forneceu o valor ξS = 3, 126, com nı́vel descritivo P= 0, 0009, indicando forte-
mente pela rejeição da hipótese nula. Portanto, há indı́cios de sobredispersão
nos dados.

271
3.10 Modelo logı́stico condicional
Em alguns estudos de caso e controle ou de seguimento o número de estra-
tos formados pode ser relativamente grande. Isso ocorre em particular nos
estudos emparelhados de caso e controle, em que a influência de fatores sus-
peitos de confundimento é controlada através de emparelhamentos de casos
com controles, segundo alguns nı́veis desses fatores. Para cada emparelha-
mento tem-se um estrato. Assim, se é adotado um modelo logı́stico linear,
além dos parâmetros correspondentes aos efeitos incluı́dos no modelo, tem-se
um parâmetro (intercepto) para cada estrato. Nos casos de estratos com
poucas observações, o número de parâmetros pode ser da mesma ordem do
número total de observações, que pode levar a estimativas viesadas (ver Cox
e Hinkley, 1974, p. 292).
Como ilustração, supor um estudo de caso e controle com k emparelha-
mentos do tipo 1:1 (1 caso por 1 controle) segundo os nı́veis de um fator
binário de exposição representado pela variável X (X = 1 presença da ex-
posição, X = 0 ausência da exposição). Denote por Yi (x) o resultado da
resposta para o indivı́duo do i-ésimo estrato com X = x (Yi (x) = 1 caso,
Yi (x) = 0 controle). Supor que Yi (x) ∼ Be{πi (x)}, em que
 
πi (x)
log = αi + βx.
1 − πi (x)
A razão de chances de ser caso entre o indivı́duo exposto e o indivı́duo não
exposto no i-ésimo estrato fica dada por
πi (1)/{1 − πi (1)}
ψ= = exp(β)
πi (0)/{1 − πi (0)}
sendo, portanto, constante ao longo dos estratos.
Para eliminar os parâmetros αi ’s pode-se trabalhar com a distribuição
condicional de Yi (1) dado Yi (1) + Yi (0) = m. Essa distribuição foi discutida

272
na Seção 3.2.3. A função de probabilidade pode ser expressa na forma
1
 1  a
a m−a
ψ
f (a|m; ψ) = Pv 1
 1
 ,
t
t=u t m−t ψ

em que a = 0, 1 e m = 0, 1, 2. É fácil mostrar que f (a|0; ψ) = f (a|2; ψ) = 1,


havendo portanto informação a respeito de ψ somente nos estratos em que
Yi (1) + Yi (0) = 1. A função de probabilidade nesse caso é definida para a = 0
e a = 1, sendo as probabilidades dadas por

f (0|1; ψ) = 1/(1 + ψ)

e
f (1|1; ψ) = ψ/(1 + ψ).

Definindo para o i-ésimo estrato duas novas variáveis binárias X1i e X2i
representando, respectivamente, o nı́vel de exposição do caso e do controle,
é possı́vel expressar as probabilidades condicinais na forma
exp(x1i − x2i )β
f (a|1, ψ) = ,
1 + exp(x1i − x2i )β
em que a = 0, 1. Assim, para k estratos, a função de verossimilhança conjunta
condicional, que depende apenas de β e será denotada por `(β), assume a
forma
 
exp{(xi1 − xi2 )β}
`(β) = Πki=1 .
1 + exp{(xi1 − xi2 )β}
Tem-se que a expressão acima coincide com a função de verossimilhança
de uma regressão logı́stica com k sucessos em k ensaios, com uma única
covariável com valores observados zi = xi1 − xi2 , i = 1, . . . , k, e passando
pela origem.
Generalizando para p covariáveis e supondo ainda emparelhamentos 1:1,
tem-se o modelo  
πi (x)
log = αi + x> β,
1 − πi (x)

273
em que x = (x1 , . . . , xp )> , β = (β1 , . . . , βp )> e πi (x) = P r{Yi = 1|x},
i = 1, . . . , k. Observando no i-ésimo estrato os valores xi1 = (xi11 , . . . , xi1p )>
para o caso e os valores xi2 = (xi21 , . . . , xi2p )> para o controle, a função de
verossimilhança conjunta condicional assume a forma geral (ver, po exemplo,
Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)
exp{(xi1 − xi2 )> β}
 
k
`(β) = Πi=1 .
1 + exp{(xi1 − xi2 )> β}
Logo, a estimação de β pode ser feita através do ajuste de uma regressão
logı́stica com k sucessos em k ensaios, com valores observados das covariáveis
dados por zij = xi1j − xi2j , i = 1, . . . , k e j = 1, . . . , p e passando pela origem.
Deve-se observar que embora algumas quantidades da regressão logı́stica con-
dicional para estudos emparelhados do tipo 1:1 coincidam com as quantida-
des de uma regressão logı́stica não condicional passando pela origem, tais
como estimativas dos parâmetros e erros padrão assintóticos, as distribuições
dos modelos são diferentes. No primeiro caso tem-se o produto de hiper-
geométricas independentes, enquanto que no segundo caso tem-se o produto
de binomiais independentes. Isso pode refletir na obtenção de alguns resul-
tados, como por exemplo, geração de envelope para o resı́duo componente do
desvio que usa a distribuição da resposta no processo de geração dos dados.

3.10.1 Técnicas de diagnóstico


Moolgavkar et al.(1985) e Pregibon (1984) têm mostrado que a maioria das
técnicas usuais de diagnóstico do modelo logı́stico não condicional podem ser
estendidas para o modelo logı́stico condicional. Como a variável resposta no
modelo logı́stico condicional sempre assume o valor 1, o resı́duo componente
do desvio é sempre positivo, sendo dado por

2| log π̂i |
tDi = p ,
1 − ĥii

274
em que
exp(z>
i β̂)
π̂i = e ĥii = π̂i (1 − π̂i )z> > −1
i (Z V̂Z) zi .
1+ exp(z>
i β̂)

Os gráficos de tDi e ĥii contra os valores ajustados π̂i podem revelar em-
parelhamentos discrepantes com algum tipo de influência nos resultados do
modelo.
De forma similar, a distância de Cook no caso emparelhado fica dada por

ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

em que
1 − π̂i
r̂Pi = p
π̂i (1 − π̂i )
é o resı́duo de Pearson. Tem-se que r̂P1 assume sempre valores não negativos.
O gráfico de LDi contra os valores ajustados π̂i pode revelar aqueles empare-
lhamentos com maior influência nas estimativas dos parâmetros. A geração
de envelope, contudo, somente pode ser feita através do modelo logı́stico
condicional.
Para ilustrar o ajuste no R, supor um estudo com k = 20 emparelhamentos
do tipo 1:1 e que foram observados os valores de duas covariáveis V 1 e V 2.
Os valores observados dos casos serão armazenados nos objetos v11 e v12 e
os valores observados dos controles nos objetos v21 e v22. O ajuste segue os
seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp ∼ z1+z2 - 1, family=binomial).
Pode-se analisar fit.cond em geral da mesma forma que é analisada a saı́da
de um modelo logı́stico linear. Por exemplo, as estimativas e os erros padrão,

275
como foi mostrado acima, coincidem com as estimativas e os erros padrão
obtidos pelo modelo logı́stico condicional.

3.10.2 Aplicação
Como aplicação será discutido a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histórico familiar e de atividades fı́sicas no desenvolvi-
mento de diabetes não dependente de insulina. 30 indivı́duos não diabéticos
foram emparelhados com 30 indivı́duos diabéticos não dependentes de insu-
lina pela idade e pelo sexo. A obesidade foi medida através do ı́ndice de
massa coporal (IMC), que é definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histórico familiar com diabetes (HF)
e as atividades fı́sicas (ATF) foram tratadas como sendo variáveis binárias
(HF=1 presença, HF=0 ausência; ATF=1 presença, ATF=0 ausência). Os
dados são descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
estão também no arquivo diabetes.txt. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histórico familiar (HF) e
atividades fı́sicas (ATF) para o i-ésimo indivı́duo diabético e por xi21 , xi22
e xi23 os valores dessas variáveis para o i-ésimo indivı́duo não diabético. A
função de verossimilhança do modelo logı́stico condicional será dada por
 
30 exp(zi1 β1 + zi2 β2 + zi3 β3 )
`(β) = Πi=1 ,
1 + exp(zi1 β1 + zi2 β2 + zi3 β3 )
em que zi1 = xi11 − xi21 , zi2 = xi12 − xi22 e zi3 = xi13 − xi23 .
As estimativas de máxima verossimilhança (erro padrão aproximado) são
dadas por β̂1 = 0, 090(0, 065), β̂2 = 0, 968(0, 588) e β̂3 = −0, 563(0, 541),
cujos nı́veis descritivos são, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indı́cios de efeito significativo apenas para o histórico familiar.

276
Tabela 3.22
Emparelhamento de 30 diabéticos não
dependentes de insulina (casos) e 30
não diabéticos (controles).
Casos Controles
Par IMC HF ATF IMC HF ATF
1 22,1 1 1 26,7 0 1
2 31,3 0 0 24,4 0 1
3 33,8 1 0 29,4 0 0
4 33,7 1 1 26,0 0 0
5 23,1 1 1 24,2 1 0
6 26,8 1 0 29,7 0 0
7 32,3 1 0 30,2 0 1
8 31,4 1 0 23,4 0 1
9 37,6 1 0 42,4 0 0
10 32,4 1 0 25,8 0 0
11 29,1 0 1 39,8 0 1
12 28,6 0 1 31,6 0 0
13 35,9 0 0 21,8 1 1
14 30,4 0 0 24,2 0 1
15 39,8 0 0 27,8 1 1
16 43,3 1 0 37,5 1 1
17 32,5 0 0 27,9 1 1
18 28,7 0 1 25,3 1 0
19 30,3 0 0 31,3 0 1
20 32,5 1 0 34,5 1 1
21 32,5 1 0 25,4 0 1
22 21,6 1 1 27,0 1 1
23 24,4 0 1 31,1 0 0
24 46,7 1 0 27,3 0 1
25 28,6 1 1 24,0 0 0
26 29,7 0 0 33,5 0 0
27 29,6 0 1 20,7 0 0
28 22,8 0 0 29,2 1 1
29 34,8 1 0 30,0 0 1
30 37,3 1 0 26,5 0 0

277
3
18
0.6

Residuo Componente do Desvio


28

2
Distancia de Cook

0.4

1
0.2

0
0.0

0 5 10 15 20 25 30 0 5 10 15 20 25 30

Indice Indice

Figura 3.17: Gráficos de diagnóstico para o modelo logı́stico condicional


aplicado aos dados sobre diabetes.

Na Figura 3.17 são apresentados alguns gráficos de diagnóstico em que


pode-se notar destaque para as observações #18 e #28 como possivelmente
influentes nas estimativas dos parâmetros. A eliminação do emparelhamento
#18 não muda os resultados inferenciais embora aumente a significância do
histórico familiar. Já a eliminação do emparelhamento #28 muda os resul-
tados inferenciais uma vez que o ı́ndice de massa corporal passa a ser signifi-
cante ao nı́vel de 10%. Nesse emparelhamento o controle tem histórico fami-
liar e atividade fı́sica enquanto o caso não apresenta as duas caracterı́sticas.
Além disso, o caso tem um ı́ndice de massa corporal menor do que o controle.

3.10.3 Emparelhamento 1:M


Para emparelhamentos do tipo 1:M (M ≥ 2) e k estratos a função de veros-
similhança (ver, por exemplo, Breslow e Day, 1980) para β = (β1 , . . . , βp )>

278
fica dada por
M
X
`(β) = Πki=1 {exp(x>
i0 β)/ exp(x>
i` β)}, (3.20)
`=0
cujo logaritmo assume a forma
k
X M
X
L(β) = log `(β) = [x>
i0 β − log{ exp(x>
i` β)}], (3.21)
i=1 `=0

em que xi0 = (xi01 , . . . , xi0p )> denota os valores observados para o caso e
xi` = (xi`1 , . . . , xi`p )> denota os valores observados para o `-ésimo controle.
A função de verossimilhança (3.21) coincide com a função de verossimi-
lhança do modelo de regressão de Cox (Cox, 1972; Cox e Oakes, 1974) quando
não há ocorrência de empates. Isso permite que os modelos logı́sticos con-
dicionais para emparelhamentos 1:M (M ≥ 2) sejam ajustados através de
programas desenvolvidos para o modelo de Cox.

3.11 Exercı́cios
1. Supor a seguinte tabela de contingência 2 × 2:

Fator
Doença A B
D y 1 y2
D̄ y 3 y4
n

e que a amostragem foi realizada segundo distribuição multinomial, isto


é, a função de probabilidade de Y = (Y1 , Y2 , Y3 , Y4 )> é dada por
n!
P (Y = y) = π1y1 π2y2 π3y3 π4y4 ,
y1 !y2 !y3 !y4 !
com y = (y1 , y2 , y3 , y4 )> , 4i=1 yi = n, 0 < πi < 1 e 4i=1 πi = 1. Sabe-
P P

se que E(Yi ) = nπi , Var(Yi ) = nπi (1 − πi ) e cov(Yi , Yj ) = −nπi πj , para

279
i 6= j. Mostre que as estimativas de máxima verossimilhança são dadas
yi
por π̂i = n
, i = 1, 2, 3, 4, com E(π̂i ) = πi , variâncias e covariâncias
π̂i (1−π̂i ) πi πj
Var(π̂i ) = n
e cov(π̂i , π̂j ) = − n
, para i 6= j.

2. A razão de chances sob amostragem multinomial é definida por ψ =


π1 π4 /π2 π3 . Considere log(ψ)
b e mostre, usando o método delta, que a
variância assintótica de log(ψ)
b fica dada por Var{log(ψ)}
b = [1/nπ1 +
1/nπ2 + 1/nπ3 + 1/nπ4 ]. Lembre que a variância assintótica pode ser
obtida através da expressão
 >  
∂ log(ψ) ∂ log(ψ)
Var{log(ψ)}
b = Var(π̂) ,
∂π ∂π
em que π = (π1 , π2 , π3 , π4 )> e Var(π̂) denota a matriz de variâncias e
covariâncias assintóticas de π̂. Neste caso as variâncias e covariâncias
assintóticas são as mesmas obtidas em (1).

3. A tabela abaixo resume um estudo de caso e controle em que foram con-


siderados como casos 200 homens adultos diagnosticados com câncer de
esôfago num hospital de uma determinada comunidade. Os controles
foram uma amostra de 775 homens adultos escolhidos aleatoriamente
da lista de eleitores da comunidade. Esses dois grupos foram classifica-
dos segundo os nı́veis alto (mais de 80g/dia) e baixo (até 80g/dia) do
fator exposição ao alcool.

Alto Baixo Total


Caso 96 104 200
Controle 109 666 775
Total 205 770 975

Verifique, através de um teste apropriado, se há associação entre o fator


de exposição e a doença. Encontre uma estimativa intervalar de 95%

280
para a razão de chances. Indique as suposições utilizadas e interprete
os resultados.

4. Considere a tabela 2 × 2 descrita abaixo.

Fator
Doença A B Total
D 3 7 10
D̄ 6 9 15
Total 9 16 25

Aplicar o teste exato de Fisher para testar H0 : ψ = 1 contra H1 :


ψ 6= 1. Obter inicialmente as probabilidades condicionais usando a
distribuição hipergeométrica central correspondente. Comparar com o
teste assintótico.

5. Os dados abaixo são provenientes de um estudo de seguimento cujo


objetivo foi avaliar a associação de duas técnicas cirúrgicas, A e B, e
a ocorrência de problemas graves pós-operatórios segundo duas faixas
de idade.

Faixa I Faixa II
Problema A B A B
Sim 6 7 7 4
Não 14 23 9 12

Obter estimativa intervalar de 95% para a razão de chances em cada


estrato. Teste a hipótese de homogeneidade das razões de chances. Se a
hipótese nula não for rejeitada ao nı́vel de 5%, aplicar o teste de Mantel-
Haenszel (com e sem correção para continuidade) para testar ausência
de associação entre técnica cirúrgica e ocorrência de problemas graves
pós-operatórios.

281
6. (Day e Byar, 1979). Suponha Yij ∼ B(nij , πij ) mutuamente indepen-
dentes, i, j = 1, 2 com as probabilidades πij sendo definidas por
   
πi1 πi2
log = αi − ∆ e log = αi + ∆.
1 − πi1 1 − πi2
Interprete α1 , α2 e ∆. Mostre que o teste de escore para testar H0 :
∆ = 0 contra H1 : ∆ 6= 0, coincide com o teste de Mantel-Hanszel
2
(XM H ) para testar H0 : ψ = 1 contra H1 : ψ 6= 1, em que ψ =

πi2 (1 − πi1 )/πi1 (1 − πi2 ), i = 1, 2.


ind
7. Supor um modelo binomial quadrático de dose-resposta, em que Yi ∼
B(ni , πi ), com g(πi ) = α + βxi + γx2i , i = 1, . . . , k. Como fica expressa
a estimativa DL c 100p ? E a variância assintótica de DL c 100p ?

ind
8. Supor um modelo binomial quadrático de dose-resposta, em que Yi ∼
B(ni , πi ), com g(πi ) = ηi = α + βxi + γx2i , i = 1, . . . , k. Assumir que
∂ 2 η/∂x2 < 0, ∀x. Qual a solução para ∂η/∂x = 0? Denotando essa
solução por x0 , interprete e encontre uma estimativa intervalar para x0 .

9. (Paula et al.,1988). Os conjuntos de dados apresentados nos arqui-


vos dose1.txt, dose2.txt e dose3.txt são provenientes de um experi-
mento de dose-resposta conduzido para avaliar a influência dos extratos
vegetais “aquoso frio de folhas”, “aquoso frio de frutos”e de um extrato
quı́mico, respectivamente, na morte de um determinado tipo de cara-
mujo. Para cada conjunto, ajuste um modelo logı́stico linear simples e
um modelo complementar log-log linear simples. Para o melhor ajuste
(use envelopes como critério), encontre um intervalo assintótico de 95%
para a dose letal DL50 , construa as bandas de confiança e verifique se
há indı́cios de sobredispersão aplicando um teste apropriado.

282
10. (Collett, 1991, p.127). Os dados abaixo são provenientes de um ex-
perimento desenvolvido para avaliar a germinação de um determinado
tipo de semente segundo três condições experimentais: nı́vel da tempe-
ratura (21o C, 42o C e 62o C); nı́vel da umidade (baixo, médio e alto) e
temperatura da germinação (11o C e 21o C). A tabela abaixo apresenta
o número de sementes que germinaram após cinco dias para cada 100
sementes submetidas a cada condição experimental.

Temperatura da Nı́vel da Nı́vel da Temperatura


Germinação Umidade 21o C 42o C 62o C
11o C baixo 98 96 62
11o C médio 94 79 3
11o C alto 92 41 1
o
21 C baixo 94 93 65
21o C médio 94 71 2
21o C alto 91 30 1

Assuma um modelo logı́stico para explicar o número de sementes que


germinaram. Aplique o método AIC para selecionar um modelo consi-
derando interações de 1a ordem. Interprete os resultados. Faça uma
análise de resı́duos com o modelo selecionado. Esses dados estão des-
critos no arquivo sementes.txt.

11. Mostre que a variância assintótica do estimador de máxima verossimi-


lhança não condicional da razão de chances numa tabela 2 × 2 é dada
por  
2 1 1
VarA (ψ̃) = ψ + .
n1 π1 (1 − π1 ) n2 π2 (1 − π2 )
Lembre que: sob condições gerais de regularidade, os estimadores de
máxima verossimilhança são assintoticamente normais e não viesados
com variância assintótica igual à inversa da matriz de informação de
Fisher.

283
12. A tabela abaixo descreve o resultado de um experimento em que vários
pacientes foram submetidos a um de quatro nı́veis de exposição de um
tratamento particular e foi observado, após 12 meses, se o paciente foi
curado ou não curado.

Nı́vel de Exposição
Resultado E1 E2 E3 E4
Curado 20 16 12 5
Não-Curado 80 84 48 20

Seja Yi o número de pacientes curados dentre os ni submetidos ao nı́vel


de exposição Ei. Supor que Yi ∼ B(ni , πi ), i = 1, . . . , 4. Assunir o nı́vel
E1 como nı́vel de referência e teste a hipótese de homogeneidade das
razões de chances contra a alternativa de razões de chances diferentes.

13. Sejam Y1 e Y2 variáveis aleatórias independentes tais que Y1 ∼ B(n1 , π1 )


e Y2 ∼ B(n2 , π2 ). Seja RR = π1 /π2 o risco relativo. Aplique o método
delta para obter a variância assintótica de RR.
c Desenvolva o teste da
Wald para testar H0 : RR = 1 contra H1 : RR 6= 1. Qual a distribuição
nula assintótica do teste?

14. Sejam Y1 , . . . , Yn variáveis aleatórias mutuamente independentes tais


que Yi ∼ B(m, πi ), em que log{πi /(1 − πi )} = α. (i) Encontre a es-
timativa de máxima verossimilhança de α. (ii) Calcule Var(α̂). (iii)
Como fica o teste da razão de verossimilhanças para testar H0 : α = 0
versus H1 : α 6= 0? Qual a distribuição nula assintótica da estatı́stica
do teste?
ind
15. Supor Yij ∼ Be(µi ), 0 < µi < 1, para i = 1, 2 e j = 1, 2, . . . , r, em que
√ √
arcsen( µ1 ) = α + ∆ e arcsen( µ2 ) = α − ∆. Como fica a matriz X?
ˆ e as respectivas variâncias assintóticas, além de Cov(α̂, ∆).
Obter α̂ e ∆ ˆ

284
Obter a estatı́stica do teste de escore para testar H0 : ∆ = 0 contra
H1 : ∆ 6= 0. Qual a distribuição nula assintótica da estatı́stica do teste?
d √ 1 du
Use o resultado: dx
arcsen{u(x)} = 1−u2 dx
.

16. (Lawless, 1982, p.389; Efron, 1988). Considere uma aplicação de re-
gressão logı́stica em análise de sobrevivência. Seja πi (t) a probabilidade
de um equipamento do tipo i falhar no intervalo It = (t − 1, t] dado que
o mesmo não falhou até o tempo t − 1. Seja Yit o número de falhas no
intervalo It e seja nit o número de equipamentos que não falharam até
o tempo t − 1 no i-ésimo grupo. Assumir que Yit ∼ B(nit , πi (t)) e que
as falhas são independentes. Ajustar um modelo logı́stico do tipo
 
πi (t)
log = αi + βi t + γi t2 (3.22)
1 − πi (t)
ao seguinte conjunto de dados:

Tipo A Tipo B Tipo C


Tempo n1t y1t n2t y2t n3t y3t
1 42 4 50 6 48 11
2 38 3 44 11 37 10
3 35 3 32 10 27 12
4 31 5 22 8 15 8
5 26 6 12 6 6 4

Apresente o gráfico com as curvas ajustadas e os valores observados.


Tente selecionar um submodelo apropriado. Verifique a adequação do
modelo adotado através de gráficos de resı́duos. Interprete os resulta-
dos. Os dados estão descritos no arquivo equipamentos.txt.

17. (Hosmer e Lemeshow, 1989, Cap.7). No arquivo matched.txt estão os


dados de um estudo de caso-controle com emparelhamentos do tipo 1:1,
em que os casos foram mulheres com diagnóstico confirmado de tumor

285
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perı́odo dos casos. A variável de emparelhamento foi
a idade da paciente na época da entrevista AGMT. Escolha três variáveis
do arquivo mencionado e verifique através de uma regressão logı́stica
condicional a associação entre as variáveis escolhidas e o diagnóstico
da doença (sim=1, não=0) representado pela variável FNDX. Interprete
as estimativas dos parâmetros do modelo ajustado. Faça uma análise
de diagnóstico. Obsevação: caso você escolha alguma variável com
observações perdidas, exclua das análises as pacientes correspondentes.

18. Considere uma aplicação de regressão logı́stica em transportes. Seja


πi (t) a probabilidade de um caminhão do tipo i ser desativado durante
o ano t dado que o mesmo não foi desativado durante o ano t − 1.
Assuma que durante o ano t foram desativados yit caminhões dentre
os nit existentes no começo do ano, i = 1, 2 e t = 1, . . . , k. Supor que
Yit ∼ B(nit , πi (t)) e que são mutuamente independentes. Considere o
modelo
   
π1 (t) π2 (t)
log = γt e log = γt + β.
1 − π1 (t) 1 − π2 (t)
O que significa testar H0 : β = 0? Qual é a matriz X do modelo?
Como fica Var(β̂)? Mostre que a estatı́stica do teste de escore para
testar H0 : β = 0 contra H1 : β 6= 0 pode ser expressa na forma
( k  )2 X k
X yt n2t yt n1t n2t (nt − yt )
ξSR = y2t − / 3
,
t=1
n t t=1
n t

em que nt = n1t + n2t e yt = y1t + y2t . Qual é a distribuição nula


assintótica da estatı́stica do teste?

19. Sejam Y1 , . . . , Yk variáveis aleatórias independentes tais que a função

286
de probabilidade de Yi seja dada por
1 1
ψiyi
 
yi 1−yi
f (yi ; ψi ) = P1 1 1  t ,
t=0 t 1−t ψi

em que yi = 0, 1. Supor a parte sistemática log(ψi ) = β. (i) Encontre a


estimativa de máxima verossimilhança de β; (ii) encontre a informação
de Fisher para β; (iii) como fica o teste de escore para testar H0 : β = 0
contra H1 : β 6= 0? Qual a distribuição nula assintótica
q da estatı́stica
do teste? (iv) Expresse o resı́duo ri = (yi − µ̂i )/ V̂ar(Yi ) em função
de yi e β̂; (v) Como você faria para gerar valores de Yi da distribuição
dada acima?

20. (Agresti, 2013, p.408). Considere a tabela abaixo em que um grupo


de gestantes fumantes foi classificado segundo os fatores: idade (< 30
ou 30 ou +), número de cigarros consumidos por dia (< 5 ou 5 ou +),
tempo de gestação (≤ 260 dias ou > 260 dias) e a situação da criança
(sobreviveu ou não sobreviveu).

Duração da Sobrevivência
Idade No. de cigarros Gestação Não Sim
< 30 <5 ≤ 260 50 315
> 260 24 4012
5+ ≤ 260 9 40
> 260 6 459
30+ <5 ≤ 260 41 147
> 260 14 1594
5+ ≤ 260 4 11
> 260 1 124

Ajustar um modelo logı́stico linear em que a resposta é a sobrevivência


da criança (sim=1, não=0). Considere até interações de 1a ordem.
Verifique a adequação do modelo e interprete os resultados através de

287
estimativas intervalares para as razões de chances. Esss dados estão
descritos no arquivo gestantes.txt.

21. (Agresti, 2013, p.205) Construir o logaritmo da função de verossimi-


lhança de um modelo logı́stico log{π(x)/(1 − π(x))} = α + βx de duas
binomiais independentes, em que tem-se y0 sucessos em n0 ensaios para
x = 0 e y1 sucessos em n1 ensaios para x = 1. Mostre que a estimativa
de máxima verossimilhança β̂ coincide com log(razão de chances).

22. (Everitt, 1994). Os dados do arquivo leuce.txt referem-se a um es-


tudo com 51 pacientes adultos, previamente diagnosticados com um
tipo agudo de leucemia, que receberam um tipo de tratamento e foi
verificado após um certo perı́odo a eficiência ou não do tratamento.
Algumas variáveis explicativas pré-tratamento foram também observa-
das. As variáveis em estudo são as seguintes: (i) idade do paciente
na época do diagnóstico (em anos), (ii) mancha diferencial da doença
(em %), (iii) infiltração na medula (em %), (iv) células com leucemia
na medula (em %), (v) malignidade da doença (×103 ), (vi) tempera-
tura máxima antes do tratamento (×10o F ), (vii) tratamento (1: sa-
tisfatório, 0: não satisfatório), (viii) tempo de sobrevivência após o
diagnóstico (em meses) e (ix) situação (1: sobrevivente, 0: não sobre-
vivente). Considere um modelo logı́stico linear para explicar a probabi-
lidade de eficiência do tratamento dadas as seis variáveis explicativas.
Selecionar as variáveis explicativas bem como as interações de primeira
ordem através do método stepwise. Usar PE = PS = 0, 20. Fazer uma
análise de diagnóstico com o modelo selecionado e interpretar algumas
razões de chances.

23. No arquivo heart.txt (Hosmer et al., 2013, Cap.1) são descritos os

288
dados de n = 100 pacientes com ausência (HD=0) e evidência (HD=1)
de doença arterial coronariana, além da idade (Age) do paciente e a
faixa etária (FE). Para ler os dados use o comando

heart = read.table(‘‘heart.txt’’, header=TRUE)

Fazer uma análise descritiva dos dados, por exemplo boxplots robustos
da idade para cada um dos grupos, comente. Construa uma tabela de
contigência com as frequências relativas de pacientes com evidência e
ausência da doença segundo as faixas etárias, comente. Ajustar um
modelo logı́stico para explicar a probabilidade Pr(HD=1) dado Age.
Comente as estimativas. Fazer uma análise de diagnóstico como gráfico
de resı́duos e distância de Cook. Avalie o impacto das observações
destacadas como possivelmente influentes. Construa uma banda de
confiança de 95% para Pr(HD=1) dado Age. Encontre uma estimativa
intervalar de 95% para a razão de chances entre um paciente com Age+1
e um paciente com Age ter presença da doença. Construa a curva ROC
e estabeleça um critério para classificar pacientes como suspeitos de
terem presença da doença. Para esse critério obter as taxas de positivo
positivo e de falso positivo. Ajustar o modelo pelo GAMLSS através
dos comandos

y.heart = cbind(HD, 1-HD)

ajuste = gamlss(y.heart ∼ Age, family=BI)

plot(ajuste)

rqres.plot(ajuste, howmany=8, ylim.all=1)

rqres.plot(ajuste, howmany=40, plot="all")

Comente os gráficos de resı́duos.

289
24. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivı́duos consi-
derados idosos são submetidos a um exame psiquiátrico para avaliar a
ocorrência ou não de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicológico feito previamente esteja associado com
a ocorrência ou não do sintoma. Os dados são apresentados abaixo
(score: escala no exame psicológico e resp: ocorrência (resp=1) ou
não ocorrência (resp=0) do sintoma). Esses dados estão descritos no
arquivo caduquice.txt.

Score Resp Score Resp Score Resp Score Resp Score Resp
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0

Ajustar um modelo logı́stico para explicar a probabilidade de ocorrência


do sintoma em função do escore. Interpretar os resultados. Calcule a
estatı́stica de Hosmer-Lemeshow. Faça uma análise de diagnóstico com
o modelo ajustado.

25. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.txt


estão os dados referentes à distribuição de duas espécies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perı́odo do dia (manhã,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)

290
largura da madeira (estreita, larga) e (iv) local de ocupação (claro, es-
curo). Supor que o número de lagartos encontrados da espécie grahani
tenha distribuição binomial. Responda às seguintes questões: (i) pro-
ponha um modelo logı́stico (sem interação) para explicar a proporção
de lagartos da espécie grahani. Ajuste o modelo e verifique através do
teste da razão de verossimilhanças quais efeitos são significativos ao
nı́vel de 10%. (ii) Verifique separadamente se cada interação de pri-
meira ordem pode ser incluı́da no modelo ao nı́vel de 5%. Construa o
ANODEV.(iii) Interprete os resultados tentando falar de uma forma não
técnica sobre as preferências dos dois tipos de lagarto.

26. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a


incidência de dengue numa determinada cidade da costa mexicana, um
total de 196 indivı́duos, escolhidos aleatoriamente em dois setores da
cidade, respondeu às seguintes perguntas: (i) idade, idade do entre-
vistado (em anos), (ii) nivel, nı́vel sócio-econômico (nivel=1, nı́vel
alto; nivel=2, nı́vel médio; nivel=3, nı́vel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou não (caso=0)
a doença recentemente. Um dos objetivos do estudo é tentar prever
ou explicar a probabilidade de um indivı́duo contrair a doença dadas
as variáveis explicativas idade, nivel e setor. Os dados estão des-
critos no arquivo dengue.txt. Tente selecionar um modelo através da
aplicação do método AIC considerendo interações de 1a ordem. Faça
uma interpretação do modelo selecionado (através de razões de chances)
e faça uma análise de diagnóstico do modelo selecionado.

27. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.txt são apre-


sentados dados referentes a 78 famı́lias com pelo menos seis filhos cada

291
uma. Na primeira coluna tem-se a classificação dos olhos dos pais se-
gundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificação dos olhos dos avós segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: três claros e um castanho, 5:
três claros e um escuro, 6: um claro e três castanhos, 7: um escuro
e três castanhos, 8: um claro e três escuros, 9: um castanho e três
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o número de filhos
na famı́lia e na última coluna o número de filhos com olhos claros. Seja
Yi o número de filhos com olhos claros pertencentes à i-ésima famı́lia.
Assuma inicialmente que Yi ∼ B(ni , πi ), i = 1, . . . , 78. Responda às
seguintes questões:

(i) Ajustar inicialmente um modelo logı́stico linear apenas com o fator


‘cor dos olhos dos pais’. Construir gráficos de resı́duos. Identificar
os pontos aberrantes. Quais as mudanças nos resultados com a
eliminação desses pontos. Há indı́cios de sobredispersão? Ajustar
um modelo de quase-verossimilhança com e sem os pontos aber-
rantes. Comente.

(ii) Incluir agora o fator cor dos olhos dos avós. Refazer todos os
passos acima. Comente os resultados.

28. No arquivo pulso.txt são descritas as variáveis pulsação em repouso


(1: normal, 2: alta), hábito de fumar (1: sim, 2: não) e peso (em kg) de
92 adultos do sexo masculino. Ajustar um modelo logı́stico linear para

292
explicar a probabilidade de pulsação alta dadas as demais variáveis.
Faça uma análise de diagnóstico. Apresente as curvas ajustadas para
cada grupo de hábito de fumar com as respectivas bandas de confiança
de 95%.

29. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um


experimento em que a toxicidade de três concentrações (R-rotenine,
D-deguelin e M-mistura, essa última como uma mistura das duas pri-
meiras) é investigada. As concentrações foram testadas em insetos e
observado para cada dose o número de insetos mortos. Os dados estão
descritos no arquivo morgan.txt.

Concentração Dose Expostos Mortos


R 0,41 50 6
R 0,58 48 16
R 0,71 46 24
R 0,89 49 42
R 1,01 50 44

D 0,71 49 16
D 1,00 48 18
D 1,31 48 34
D 1,48 49 47
D 1,61 50 47
D 1,70 48 48

M 0,40 47 7
M 0,71 46 22
M 1,00 46 27
M 1,18 48 38
M 1,31 46 43
M 1,40 50 48

Supor inicialmente o modelo log{πi (x)/(1 − πi (x))} = αi + βi x, i =

293
1, 2, 3, em que πi (x) é a proporção esperada de insetos mortos sob a
concentração i e dose x. Faça uma análise de diagnóstico e verifique
se há indı́cios de sobredispersão aplicando um teste apropriado. Teste
a hipótese de paralelismo com todos os pontos e sem as observações
discrepantes. Comente.

30. Considere o arquivo credit da biblioteca Fahrmeir do R, em que são


descritas as seguintes variáveis referentes a empréstimos concedidos a
n = 1000 clientes de um banco alemão:

• Y: classificação do cliente com relação ao empréstimo (bom paga-


dor, mal pagador)

• Cuenta: qualidade da conta do cliente (sem classificação, boa,


ruim)

• Mes: duração do empréstimo em meses

• Ppag: informação prévia do cliente (bom pagador, mal pagador)

• Uso: finalidade do empréstimo (privado, profissional)

• DM: valor do empréstimo em DM

• Sexo: gênero do cliente (masculino, feminino)

• Estc: estado civil do cliente (vive sozinho, não vive sozinho).

Para disponibilizar e visualizar um resumo dos dados use na sequência


os seguintes comandos do R:

require(Fahrmeir)

attach(credit)

summary(credit).

294
Fazer inicialmente uma análise descritiva procurando relacionar a variável
resposta com as demais variáveis explicativas. Use tabelas de con-
tingência e boxplots. Comente. Transforme a variável resposta em
variável numérica binária. Por exemplo, usando os comandos

resp = as.numeric(Y)

resp = abs(resp-2).

Ajustar um modelo logı́stico binomial no GAMLSS para explicar a


probabilidade do cliente ser um bom pagador dadas as demais variáveis
explicativaas. Por exemplo, através do comando

fit1.credit = gamlss(resp ∼ Cuenta + Mes + Ppag + Uso + DM


+ Sexo + Estc, family=BI).

Use o comando stepGAIC para selecionar um submodelo

fit2.credit = stepGAIC(fit1.credit).

Fazer uma análise de resı́duos através dos comandos

plot(fit2.credit)

rqres.plot(fit2.credit, howmany=8, type="wp")

para o submodelo selecionado. Construir o gráfico da distância de


Cook. Comente. Apresentar estimativas intervalares de 95% para as
razões de chances. Contruir curva ROC. Comente.

295
Capı́tulo 4

Modelos para Dados de


Contagem

4.1 Introdução
Neste capı́tulo serão apresentados alguns métodos para a análise de dados
de contagem. Inicialmente são apresentados os principais métodos tradici-
onais e em seguida a modelagem através de regressão. Duas situações de
interesse são consideradas. Na primeira delas, muito comum em estudos de
seguimento, as unidades amostrais são classificadas segundo os nı́veis de cate-
gorias, tais como sexo, faixa etária e tipo de tratamento e são acompanhadas
por um perı́odo fixo pré-estabelecido ou até a ocorrência de um determinado
evento. Tem-se, portanto, um tempo particular de observação para cada
unidade amostral, o qual deverá ser incorporado nas análises. Na segunda
situação, o interesse é estudar o número de ocorrências de um evento particu-
lar segundo os nı́veis de categorias, de modo que seja possı́vel construir uma
tabela tı́pica de contingência. Aqui, a suposição de distribuição de Poisson
para o número de ocorrências do evento em cada configuração de nı́veis das
categorias leva a resultados equivalentes à suposição de distribuição multi-
nomial para as caselas da tabela de contingência formada. Assim, muitas

296
tabelas de contingência que seriam originalmente analisadas através de um
modelo log-linear multinomial podem ser analisadas, alternativamente, por
um modelo log-linear de Poisson. A vantagem disso é o fato do modelo log-
linear de Poisson ser ajustado mais facilmente do que o modelo log-linear
multinomial, além da possibilidade de todos os procedimentos desenvolvidos
para os MLGs serem diretamente estendidos para o modelo log-linear de Pois-
son. Não é discutido, contudo, aspectos particulares na análise de tabelas de
contingência, tais como testes ou modelos multinomiais mais especı́ficos.
Discute-se também neste capı́tulo o fenômeno de sobredispersão que pode
ocorrer com dados de contagem quando a variância da variável resposta é
maior do que a média. Nesses casos, a suposição de distribuição de Poisson
para a resposta é inadequada sendo necessário o uso de modelos alternati-
vos. O modelo de quase-verossimilhança com parâmetro de dispersão leva
às mesmas estimativas do modelo de Poisson, porém corrige a variabilidade
das estimativas. Em especial será dada atenção aos modelos com resposta
binomial negativa, os quais permitem uma análise mais completa dos dados
do que os modelos de quase-verossimilhança. Finalmente, será abordado de
forma mais sucinta os modelos de Poisson e binomial negativo com excesso
de zeros.

4.2 Métodos clássicos: uma única tabela 2 × 2


Considere inicialmente a tabela abaixo resultante de um estudo de segui-
mento, em que indivı́duos expostos e não expostos são acompanhados ao
longo do tempo por um perı́odo fixo ou até a ocorrência de um evento.

E Ē
Casos y1 y2
Pessoas-Tempo t1 t2

297
Assumir que Y1 e Y2 seguem, respectivamente, distribuição de Poisson com
parâmetros λ1 e λ2 , em que λ1 é a taxa média de casos (por unidade de
tempo) no grupo exposto e λ2 é a taxa média de casos no grupo não exposto.
O parâmetro de interesse nesse tipo de estudo é a razão entre as taxas,
λ1
denotada por ψ = λ2
. O objetivo principal é fazer inferências a respeito do
parâmetro ψ.

4.2.1 Modelo probabilı́stico não condicional


A função de probabilidade conjunta de (Y1 , Y2 ) fica então dada por
e−λ1 t1 (λ1 t1 )y1 e−λ2 t2 (λ2 t2 )y2
f (y1 , y2 ; λ1 , λ2 ) =
y1 ! y2 !
= exp{−ψλ2 t1 − λ2 t2 + y1 log(ψ) + (y1 + y2 ) log(λ2 ) +
y1 log(t1 ) + y2 log(t2 ) − log(y1 !) − log(y2 !)},

e consequentemente o logaritmo da função de verossimilhança pode ser ex-


presso na forma

L(ψ, λ2 ) = −ψλ2 t1 − λ2 t2 + y1 log(ψ) + (y1 + y2 ) log(λ2 ) +


y1 log(t1 ) + y2 log(t2 ) − log(y1 !) − log(y2 !).

Pode-se mostrar que a maximização de L(ψ, λ2 ) leva às estimativas de máxima


y2 y1 t2
verossimilhança λ̃2 = t2
e ψ̃ = y2 t1
. Para obter a variância assintótica
VarA (ψ̃) pode-se aplicar o método delta
 >  
∂ψ ∂ψ
VarA (ψ̃) = VarA (λ̃) ,
∂λ ∂λ
n o
> λ1 λ2
em que [∂ψ/∂λ] = [1/λ2 , −ψ/λ2 ] e VarA (λ̃) = diag ,
t1 t2
com λ =
>
(λ1 , λ2 ) . Daı́ obtém-se facilmente
 
ψ 1 ψ
VarA (ψ̃) = + .
λ2 t1 t2

298
4.2.2 Modelo probabilı́stico condicional
Pelo teorema da fatorização tem-se que as estatı́sticas (Y1 , Y1 + Y2 ) são sufici-
entes minimais para (ψ, λ2 ). Logo, condicionando em Y1 + Y2 = m, obtém-se

f (a|m; ψ) = P r{Y1 = a | Y1 + Y2 = m}
P r{Y1 = a, Y2 = m − a}
=
P r{Y1 + Y2 = m}
P r{Y1 = a}P r{Y2 = m − a}
=
P r{Y1 + Y2 = m}
e−λ1 t1 (λ1 t1 )a e−λ2 t2 (λ2 t2 )(m−a)
= a!e−λ1 t1 −λ2 t2 (λ t +λ t )m (m−a)!
1 1 2 2
m!
m (λ1 t1 )a (λ2 t2 )(m−a)
 
=
a (λ1 t1 + λ2 t2 )m
  a  (m−a)
m λ1 t1 λ2 t2
=
a λ1 t1 + λ2 t2 λ1 t1 + λ2 t2
 
m a
= π (1 − π)(m−a) ,
a
em que π = ψt1 /{t2 + ψt1 } = ψ/{t2 /t1 + ψ}, sendo π a probabilidade de um
caso ter sido exposto. Equivalentemente, tem-se que
πt2
ψ= .
(1 − π)t1
a y1 at2
Mostra-se facilmente que π̂ = m
= y1 +y2
e consequentemente que ψ̂ = bt1
=
y1 t2
y2 t1
, que coincide com a estimativa ψ̃ (não condicional). Além disso, segue a
π(1−π)
variância assintótica VarA (π̂) = m
e portanto aplicando o método delta
obtém-se a variância assintótica
 2  2
dψ t2 π
VarA (ψ̂) = VarA (π̂) = ,
dπ t1 m(1 − π)3
t1
em que dψ/dπ = t2
(1−π)−2 .
Após algumas manipulações algébricas mostra-
h i2
se que ṼarA (ψ̃) = V̂arA (ψ̂) = tt21 y1 (yy13+y2 ) . Assim, as inferências para ψ são
2

299
equivalentes sob os modelos não condicional e condicional, diferentemente das
inferências para a razão de chances descritas no Capı́tulo 3. A justificativa é
que no caso do produto de duas binomiais independentes a estatı́stica Y1 + Y2
é suficiente para o parâmetro π2 , porém não é ancilar para ψ. Logo, há
perda de informação para ψ com a distribuição condicional (hipergeométrica
não central). Mesmo assim muitas inferências para a razão de chances são
desenvolvidas sob o modelo condicional, em particular o teste exato de Fisher.
No caso do produto de duas Poissons independentes a estatı́stica Y1 + Y2 é
suficiente para λ2 e ancilar para a razão de taxas ψ. Assim, as inferências
para os modelos não condicional e condicional são equivalentes. Fica-se então
com o modelo condicional que é mais siomples.

Inferência exata
Aqui o interesse é testar H0 : ψ = 1 contra H1 : ψ 6= 1, que é equivalente a
testar H0 : π = π0 contra H1 : π 6= π0 , em que π0 = t1 /(t1 + t2 ).
O nı́vel descritivo exato para testar a hipótese H0 contra H1 é dado por
P = 2min{PI , PS }, em que
a  
X m x
PI = π0 (1 − π0 )(m−x)
x=0
x

e m  
X m x
PS = π0 (1 − π0 )(m−x) .
x=a
x
Pode-se usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressar a distribuição binomial em função de uma distribuição Fu,v , ou
seja uma distribuição F com u e v graus de liberdade. Supondo Y ∼ B(n, p),
tem-se que

P r(Y ≥ y) = P r{F2y,2(n−y+1) < (n − y + 1)p/y(1 − p)}, (4.1)

300
com 0 < p < 1. Daı́ tem-se, sob H0 : π = π0 , que
m  
X m x
PI = 1 − π0 (1 − π0 )(m−x)
x=a+1
x
 
(m − a − 1 + 1)π0
= 1 − P r Fu,v <
(a + 1)(1 − π0 )
= 1 − P r {Fu,v < bt1 /(a + 1)t2 } ,

com b = m−a, u = 2(a+1) e v = 2b. Similarmente, obtém-se sob H0 : π = π0 ,


que
PS = P r{Fu,v < (b + 1)t1 /at2 },

com u = 2a e v = 2(b + 1). De (4.1) tem-se que que os limites exatos de


confiança para p, para um coeficiente de confiança (1 − α), são tais que
α X
= P r(Y = t; p̂I ) = P r(Y ≥ y; p̂I )
2 t≥y

e
α X
= P r(Y = t; p̂S ) = 1 − P r(Y ≥ y + 1; p̂S ).
2 t≤y

Logo, usando (4.1) obtém-se


1
p̂I = n−y+1
1+ yF2y,2(n−y+1) (α/2)

e
1
p̂S = n−y ,
1+ (y+1)F2(y+1),2(n−y) (1−α/2)

em que Fu,v (α/2) denota o quantil α/2 de uma distribuição F com u e v


graus de liberdade. Portanto, tem-se para π, fazendo y = a e m = a + b, o
limite inferior exato de confiança
1
π̂I = b+1
1+ aFu,v (α/2)
= aFu,v (α/2)/{b + 1 + aFu,v (α/2)},

301
em que u = 2a e v = 2(b + 1). De forma análoga obtém-se o limite superior
exato
1
π̂S = b
1+ aFu,v (1−α/2)
= aFu,v (1 − α/2)/{b + aFu,v (1 − α/2)},

em que u = 2(a + 1) e v = 2b. A estimativa de máxima verossimilhança para


ψ considerando a distribuição condicional fica dada por
π̂t2 y1 t2
ψ̂ = = .
(1 − π̂)t1 y2 t1
Portanto, a estimativa intervalar exata de coeficiente de confiança (1 − α)
para ψ fica denotada por [ψ̂I , ψ̂S ], em que
π̂I t2 π̂S t2
ψ̂I = e ψ̂S = .
(1 − π̂I )t1 (1 − π̂S )t1

Inferência assintótica
Embora a inferência exata para a razão de taxas tenha um custo computa-
cional bem menor do que para a razão de chances, tem-se também a opção
da inferência assintótica para a razão de taxas quando λ1 e λ2 são grandes
no modelo não condicional ou quando m é grande no modelo condicional.
Similarmente ao caso da razão de chances a aproximação para a distribuição
normal é mais rápida para log(ψ̃) do que para ψ̃. Assim, aplicando o método
delta tem-se que
2
d log(ψ)
VarA {log(ψ̃)} = VarA (ψ̃)

1 1
= + ,
λ1 t1 λ2 t2
d log(ψ) 1
em que dψ
= ψ
. Daı́ segue que uma estimativa intervalar assintótica de
coeficiente de confiança (1 − α) para ψ fica dada por
q
exp[log(ψ̃) ± z(1−α/2) Ṽar{log(ψ̃)}],

302
1 1
em que Ṽar{log(ψ̃)} = y1
+ y2
. O teste de Wald para testar H0 : ψ = 1
contra H1 : ψ 6= 1 fica dado por

{log(ψ̃)}2
ξW =
Ṽar{log(ψ̃)}

que segue assintoticamente sob H0 distribuição qui-quadrado com 1 grau de


liberdade.

Aplicação
Considere, como aplicação, os dados apresentados em Boice e Monson (1977)
referentes a um estudo de seguimento com dois grupos de mulheres com
tuberculose, um grupo exposto a radiação e o outro grupo não exposto,
sendo observado ao longo do tempo o desenvolvimento ou não de câncer de
mama. Os resultados desse estudo são resumidos na Tabela 4.1.

Tabela 4.1
Casos de câncer de mama em mulheres
com tuberculose.
Radiação
Exposto Não Exposto
Casos 41 15
Pessoas-anos 28010 19017

Tem-se, portanto, que a = 41, b = 15, t1 = 28010 e t2 = 19017. Os nı́veis


descritivos correspondentes ao teste exato para testar H0 : ψ = 1 contra
H1 : ψ 6= 1 ficam dados por

PI = 1 − P r{F84,30 < 0, 526} = 0, 988

e
PS = P r{F82,32 < 0, 575} = 0, 026,

303
e obtém-se o nı́vel descritivo P= 0, 052 que indica pela rejeição de H0 . Isso
quer dizer que há indı́cios de que mulheres com tuberculose e expostas a
radiação têm uma chance maior de desenvolvimento de câncer de mama do
que mulheres não expostas com a mesma doença. Uma estimativa pontual
0,732×19017
de máxima verossimilhança para ψ fica dada por ψ̂ = 0,268×28010
= 1, 86, que
corresponde à estimativa da razão de médias (por ano) de casos de câncer de
mama entre mulheres com tuberculose que foram expostas à radiação e mu-
lheres com tuberculose não expostas à radiação. Uma estimativa intervalar
exata de de 95% para π tem os limites

π̂I = 41 × F84,30 (0, 025)/{16 + 41 × F84,30 (0, 025)}


= 0, 595 e
π̂S = 41 × F82,32 (0, 975)/{15 + 41 × F82,32 (0, 975)}
= 0, 836,

em que F84,30 (0, 025) = 0, 574 e F82,32 (0, 975) = 1, 866. Desses limites obtém-
se os limites exatos de confiança para a razão de tazas ψ
π̂I t2 0, 595 × 19017
ψ̂I = =
(1 − π̂I )t1 (1 − 0, 595) × 28010
= 0, 997 e
π̂S t2 0, 836 × 19017
ψ̂S = =
(1 − π̂S )t1 (1 − 0, 836) × 28010
= 3, 461.

Esse intervalo [0, 997; 3, 461] cobre ligeiramente o valor 1 uma vez que o nı́vel
descritivo do teste H0 : ψ = 1 contra H1 : ψ 6= 1 foi P= 0, 052.

4.2.3 Estratificação: k tabelas 2 × 2


Se o dados são estratificados segundo um fator com k nı́veis, cada tabela
resultante pode ser expressa na forma abaixo.

304
E Ē
Casos y1i y2i
Pessoas-Tempo t1i t2i

Tem-se aqui as suposições Y1i ∼ P(λ1i t1i ) e Y2i ∼ P(λ2i t2i ), i = 1, . . . , k.


Consequentemente, a distribuição condicional de Y1i dado Y1i + Y2i = mi é
uma B(mi , πi ), em que πi = ψi /{t2i /t1i + ψi }, ou equivalentemente
πi t2i
ψi = .
(1 − πi )t1i
Se há interesse em testar a homogeneidade das razões de taxas H0 : ψ1 =
. . . = ψk contra a alternativa de pelo menos duas diferentes, a estimativa
comum ψ̂, sob H0 , sai do sistema de equações
k
X k
X
y1i = ψ̂ mi /{ψ̂ + t2i /t1i },
i=1 i=1

que tem no máximo uma raiz positiva. Alternativamente, de forma análoga


aos estudos de caso e controle, pode-se construir uma versão da estimativa
de Mantel-Haenszel dada por
Pk
y1i t2i /ti
ψ̂M H = Pi=1
k
,
i=1 y2i t1i /ti

em que ti = t1i + t2i . Segundo Breslow e Day (1987), ψ̂M H é consistente e


assintoticamente normal com variância assintótica estimada por

ψ̂M H ki=1 t1i t2i mi /t2i


P
V̂arA (ψ̂M H ) = nP o2 .
k t1i t2i mi
i=1 ti (t1i +ψ̂M H t2i )

A estatı́stica sugerida para testar H0 é definida por


k 
(y1i − ŷ1i )2 (y2i − ŷ2i )2
X 
2
X = + ,
i=1
ŷ1i ŷ2i

305
em que ŷ1i = mi π̂i , ŷ2i = mi (1 − π̂i ) e

ψ̂M H
π̂i = .
t2i /t1i + ψ̂M H
A distribuição nula assintótica de X 2 é uma qui-quadrado com k − 1 graus de
liberdade. Quando a hipótese de homogeneidade das razões de chances não
é rejeitada, pode-se testar a hipótese de associação entre o fator e a doença
levando em conta o efeito de estrato. Isso equivale a testar H0 : ψ = 1 contra
H1 : ψ 6= 1. O teste qui-quadrado apropriado, com correção de continuidade,
é dado por
Pk
y1i − ki=1 E(Y1i |mi , ψ = 1)| − 0, 5}2
P
2 {| i=1
X = Pk
i=1 Var(Y1i |mi , ψ = 1)
{| i=1 y1i − ki=1 mi t1i /(t1i + t2i )| − 0, 5}2
Pk P
= Pk . (4.2)
2
i=1 mi t1i t2i /(t1i + t2i )

Para ni grandes a distribuição nula assintótica da estatı́stica X 2 é uma qui-


quadrado com (k − 1) graus de liberdade.
A distribuição assintótica de log(ψ̂) converge mais rapidamente para a
distribuição normal do que a distriuição assintótica de ψ̂. Assim, quando a
hipótese de homogeneidade de razão de taxas não é rejeitada é mais conveni-
ente, similarmente à razão de chances, obter uma estimativa intervalar para
log(ψ) comum e daı́ extrair a estimativa intervalar de ψ comum nos estratos.
Aplicando-se o método delta, tem-se que a variância assintótica de log(ψ̂M H )
é estimada por

−2
V̂arA {log(ψ̂M H )} = ψ̂M H V̂arA (ψ̂M H ).

Assim, um intervalo assintótico de confiança com coeficiente (1 − α) para


log(ψ) fica dado por
1
−1
log(ψ̂M H ) ± z(1−α/2) ψ̂M H {V̂arA (ψ̂M H )}
2

306
levando aos limites de confiança superior e inferior dados abaixo
q
−1
ψ̂I = exp{log(ψ̂M H ) − z(1−α/2) ψ̂M H V̂arA (ψ̂M H )} e
q
−1
ψ̂S = exp{log(ψ̂M H ) + z(1−α/2) ψ̂M H V̂arA (ψ̂M H )}.

Esse intervalo deve ser construı́do quando a aplicação da estatı́stica (4.2)


levar à rejeição da hipótese H0 : ψ = 1.

Aplicação
Como ilustração, na Tabela 4.2 tem-se um resumo do número de avarias
causadas por ondas em navios de carga e os respectivos tempos de exposição
(em navios-meses) para dois tipos de navios e dois perı́odos de operação.

Tabela 4.2
Número de avarias por ondas em navios
de carga segundo dois tipos de navios
e dois perı́odos de operação.
Perı́odo de Tipo de navio
operação Tipo E Tipo A
P1 avarias 12 9
n-meses 1991 2734

P2 avarias 20 33
n-meses 3140 6755

As estimativas pontuais para a razão de taxas entre os tipos E e A são,


respectivamente, dadas por
12 × 2734 20 × 6755
ψ̂1 = = 1, 83 e ψ̂2 = = 1, 30.
9 × 1991 33 × 3140
Para obter a estimativa intervalar de 95% para a razão de taxas entre os
tipos E e A para o perı́odo 1 de operação é preciso que calcular inicialmente

307
as probabilidades

π̂1I = 12F24,20 (0, 025)/{10 + 12F24,20 (0, 025)}


= 0, 340 e
π̂1S = 12F26,18 90, 975)/{9 + 12F26,18 (0, 975)}
= 0, 768.

Logo, obtém-se a estimativa intervalar de 95%


π̂1I t12 0, 340 × 2734
ψ̂1I = = = 0, 707 e
(1 − π̂1I )t11 0, 660 × 1991
π̂1S t12 0, 768 × 2734
ψ̂1S = = = 4, 546.
(1 − π̂1S )t11 0, 232 × 1991
De forma similar, para o perı́odo 2 de operação, obtém-se

π̂2I = 20F40,68 (0, 025)/{34 + 20F40,68 (0, 025)}


= 0, 248 e
π̂2S = 20F42,66 90, 975)/{33 + 20F42,66 (0, 975)}
= 0, 509.

A estimativa intervalar de 95% fica dada por


π̂2I t22 0, 248 × 6755
ψ̂2I = = = 0, 709 e
(1 − π̂2I )t21 0, 752 × 3140
π̂2S t22 0, 509 × 6755
ψ̂2S = = = 2, 230.
(1 − π̂2S )t21 0, 491 × 3140
Nota-se que ambas as estimativas intervalares cobrem o valor 1, indicando
pela não rejeição da mesma taxa de avarias entre os dois tipos de navios em
cada perı́odo de operação.
Paa aplicar o teste de homogeniedade de razão de taxas entre os dois tipos
de navios, deve-se inicialmente obter a estimativa de razão de taxas comum

308
de Mantel-Haenszel
   
12 × 2734 20 × 6755 9 × 1991 33 × 3140
ψ̂M H = + / + = 1, 44.
1991 + 2734 3140 + 6755 1991 + 2734 3140 + 6755
As estimativas da probabilidade da avaria ter sido de navio do tipo E ficam,
respectivamente, sob a hipótese de zpsi constante dadas por

π̂1 = ψ̂M H t11 /(t12 + ψ̂M H t11 )


= 1, 44 × 1991/(2734 + 1, 44 × 1991) = 0, 512 e
π̂2 = ψ̂M H t21 /(t22 + ψ̂M H t21 )
= 1, 44 × 3140/(6755 + 1, 44 × 3140) = 0, 401.

Assim, tem-se os valores esperados de avarias para os dois tipos de navios e


dois perı́odos de operação sob a hipótese de homogeneidade razão de taxas:
ŷ11 = m1 π̂1 = 21 × 0, 512 = 10, 752, ŷ12 = m1 (1 − π̂1 ) = 21 × 0, 488 = 10, 248
ŷ21 = m2 π̂2 = 53 × 0, 401 = 21, 253 e ŷ22 = m(1 − π̂2 ) = 53 × 0, 599 = 31, 747.
A estatı́stica para testar as hipóteses H0 : ψ1 = ψ2 contra H1 : ψ1 6= ψ2 fica
dada por
(12 − 10, 752)2 (9 − 10, 248)2
X2 = +
10, 752 10, 248
2
(20 − 21, 253) (33 − 31, 747)2
+ +
21, 253 31, 747
= 0, 420,

que comparado com os quantis da distribuição qui-quadrado com 1 grau de


liberdade leva ao nı́vel descritivo P = 0, 52, indicando pela não rejeição da
hipótese nula.
Finalmente, deve-se testar as hipóteses H0 : ψ = 1 contra H1 : ψ 6= 1,
em que ψ denota a razão de taxas comum. A estatı́stica do teste de Mantel-

309
Hanszel com correção de continuidade fica dada por
{|y11 + y12 − {m1 t11 /(t11 + t21 ) + m2 t12 /(t12 + t22 )}| − 0, 5}2
X2 =
m1 t11 t21 /(t11 + t21 )2 + m2 t12 t22 /(t12 + t22 )2
(|12 + 20 − (8, 85 + 16, 82)| − 0, 5)2
= = 2, 05,
5, 12 + 11, 48
cujo nı́vel descritivo, quando comparado com os quantis da distribuição qui-
quadrado com 1 grau de liberdade é dado por P = 0, 15, não rejeitando-se a
hipótese nula.

4.3 Modelos de Poisson


4.3.1 Propriedades da Poisson
Supor que Y ∼ P(λ) cuja função de probabilidade é dada por
e−λ λy
P r(Y = y) = , y = 0, 1, 2, . . . .
y!
Pode-se mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando λ → ∞

(Y − λ)/ λ →d N(0, 1).

Em outras palavras, para λ grande tem-se que Y segue aproximadamente dis-



tribuição normal de média λ e desvio padrão λ. Se, no entanto, o interesse
é aplicar um modelo normal linear para explicar λ, tem-se o incoveniente do
desvio padrão depender da média, inviabilizando o uso de um modelo normal
linear homocedástico. Uma maneira de contornar esse problema é através da
aplicação de uma transformação na resposta Y de modo a alcançar a nor-
malidade e a constância de variância, mesmo que aproximadamente. Nesse
sentido, tem-se que se Y é Poisson, segue quando λ → ∞ o seguinte resul-
tado:
√ √
{ Y − E( Y )} →d N(0, 1/4).

310
√ √
Portanto, quando λ é grande, a variável aleatória 2{ Y − E( Y )} segue
aproximadamente distribuição N(0, 1). Assim, para uma amostra aleatória
Y1 , . . . , Yn tal que Yi ∼ P(λi ) se o interesse é explicar λi através de variáveis
explicativas, pode-se propor para λi grande, ∀i, o modelo normal linear
p
Yi = x>i β + i ,

em que i ∼ N(0, σ 2 ), i = 1, . . . , n. Isso foi feito na Seção 1.12.3 no exemplo


sobre sobrevivência de bactérias.

4.3.2 Modelos log-lineares: k tabelas 2 × 2


Como visto no Capı́tulo 1, os modelos log-lineares são recomendados para
a análise de dados de contagem, mesmo quando o tempo de observação não
é o mesmo para cada unidade amostral. Em particular, para um conjunto
de k tabelas 2 × 2, uma modelagem possı́vel para a taxa média por unidade
de tempo em cada casela é supor que Y1i ∼ P(λ1i t1i ) e Y2i ∼ P(λ2i t2i ),
i = 1, . . . , k, mutuamente independentes e com a seguinte parte sistemática:

log(λ11 ) = α,
log(λ21 ) = α + β,
log(λ1i ) = α + γi e
log(λ2i ) = α + β + γi + δi ,

para i = 2, . . . , k. Portanto, tem-se a reparametrização (λ11 , λ21 , . . . , λ1k , λ2k )


→ (α, β, γ2 , δ2 , . . . , γk , δk ). A razão de taxas na i-ésima tabela fica definida
por ψi = λ2i /λ1i = exp(β + δi ), com δ1 = 0. Assim, testar H0 : ψ1 = · · · = ψk
contra H1 : pelo menos dois ψ’s diferentes é o mesmo que testar na nova
parametrização H0 : δ2 = · · · = δk = 0 contra H1 : pelo menos dois δi ’s
diferentes, que é equivalente a ausência de interação entre as tabelas. Deve-
se lembrar que γi é o efeito da i-ésima tabela com relação à primeira tabela.

311
Logo, testar H0 : γ2 = · · · = γk , dado que δi = 0, significa testar a ausência
de efeito de estrato.
Aqui tij denota o total de unidades de tempo na casela (i, j), i = 1, 2
e j = 1, . . . , k. Assim, tem-se que log(µij ) = log(tij ) + log(λij ), em que
log(tij ) desempenha o papel de um offset. Pela propriedade de que os totais
marginais Y1i + Y2i são estatı́sticas suficientes para os parâmetros λ21 , . . . , λ2k
e ancilares para ψ1 , . . . , ψk , deve-se esperar que as estimativas de máxima
verossimilhança não condicionais ψ̂i = exp(β̂ + δ̂i ), i = 1, . . . , k, coincidam
com as estimativas condicionais.
Uma maneira de verificar se é razoável a suposição de distribuição de
Poisson nas unidades de tempo é tratar log(Tij ) como sendo uma variável ex-
plicativa, isto é, ajustar o modelo com parte sistemática dada por log(µij ) =
θ log(tij ) + log(λij ). Assim, ao testar H0 : θ = 1 contra H1 : θ 6= 1, a não
rejeição de H0 indica que a suposição de distribuição de Poisson nas unidades
de tempo não é inadequada. Como será mostrado a seguir isso significa que
os tempos têm distribuição exponencial.

Relação com a exponencial


O logaritmo da função de verossimilhança do modelo de Poisson para a
análise de k tabelas 2 × 2 é dado por
2 X
X k
L(λ) ∝ (yij log(λij ) − λij tij ), (4.3)
i=1 j=1

em que λ = (λ11 , λ21 , . . . , λk1 , λk2 )> . Tem-se, portanto, para cada casela (i, j)
um estudo de seguimento em que as unidades amostrais foram observadas um
total de tij unidades de tempo. Sem perda de generalidade, supor que tij =
N e que nesse subestrato foram acompanhadas I unidades amostrais cujos
tempos de observação foram, respectivamente, N1 , N2 , . . . , NI . Considerar

312
u` = 1 se o evento sob estudo ocorrer para a `-ésima unidade amostral antes
de um tempo pré-fixado T . Quando o evento não ocorrer para a `-ésima
unidade amostral durante o perı́odo de estudo (u` = 0) não há censura,
sendo aqui o tempo de observação dado por N` = T . Supor ainda que a taxa
de ocorrência do evento, que é definida por
P r{o evento ocorrer em (t, t + ∆t)}
ξ = lim ,
∆t→0 ∆t
dado que o evento não ocorreu até o tempo t, permanece constante durante
o perı́odo de observação. Finalmente, assumir que as ocorrências são inde-
pendentes entre as unidades amostrais. Sob essas condições, mostra-se que
a distribuição conjunta das variáveis (N` , u` ), ` = 1, . . . , I, é um produto
de I exponenciais independentes de parâmetro ξ. Se o evento ocorrer antes
do tempo T para a `-ésima unidade amostral (N` < T, u` = 1) a mesma
contribui com o fator ξe−ξN` na função de verossimilhança. Caso contrário
(N` = T, u` = 0), o fator é dado por e−ξT . O logaritmo da função de veros-
similhança conjunta fica então dado por
I
X
L(ξ) = {u` log(ξ) − N` ξ}
`=1
I
X I
X
= log(ξ) u` − ξ N` . (4.4)
`=1 `=1

Se considerar que para a casela (i, j) o evento ocorreu yij vezes, as unidades
amostrais foram observadas um total de tij unidades de tempo e a taxa de
ocorrência do evento é λij , então (4.4) fica reexpressa na forma

L(λij ) = yij log(λij ) − λij tij ,

que coincide com o termo geral da expressão (4.3). Portanto, a suposição


de modelo de regressão log-linear de Poisson com offset log(tij ) equivale à

313
suposição de tempos exponenciais para as unidades amostrais. No entanto, é
importante ressaltar que as inferências exatas para ξ no modelo exponencial
são bastante complexas em virtude da ocorrência de censura (ver discussão,
por exemplo, em Breslow e Day, 1987, p. 132). Já os resultados assintóticos
são equivalentes àqueles obtidos para o modelo de Poisson.

Aplicação
A Tabela 4.3 resume os resultados de um estudo de seguimento em que dou-
tores Britânicos foram acompanhados durante a década de 1950 e observado,
em particular, a ocorrência de mortes por câncer de pulmão segundo o con-
sumo médio diário de cigarros e a faixa etária. Esses dados estão disponı́veis
no arquivo breslow.txt.

Tabela 4.3
Número de casos de morte por câncer de pulmão e pessoas-anos
de observação em doutores Britânicos segundo a faixa etária
e o consumo médio diário de cigarros.
Consumo médio diário Faixa Etária
de cigarros 40-49 50-59 60-69 70-80
0 mortes 0 3 0 3
p-anos 33679 21131,5 10599 4495,5

1-9 mortes 0 1 3 3
p-anos 6002,5 4396 2813,5 1664,5

10-30 mortes 7 29 41 45
p-anos 34414,5 25429 13271 4765,5

+ 30 mortes 3 16 36 11
p-anos 5881 6493,5 3466,5 769
Denotar por Yij o número de mortes para o i-ésimo nı́vel de consumo e
j-ésima faixa etária, i, j = 1, . . . , 4. Supor que Yij ∼ P(λij tij ), em que λij é a

314
taxa média de mortes por unidade de tempo para o consumo i e faixa etária
j. O modelo saturado nesse caso é dado por

log(λij ) = α + βi + γj + δij ,

em que β1 = 0, βi é o efeito da i-ésima classe de consumo de cigarros com


relação à classe de não fumantes, i = 2, 3, 4, γ1 = 0, γj é o efeito da j-
ésima faixa etária com relação à faixa etária de 40 − 49 anos e δij denota
a interação entre faixa etária e consumo de cigarros, em que δi1 = δ1j = 0,
para i, j = 1, . . . , 4.
O teste de ausência de interação, H0 : δij = 0, ∀ij, contra a alternativa de
pelo menos um parâmetro diferente de zero forneceu ξRV = 11, 91 (9 graus de
liberdade) que equivale a um nı́vel descritivo P= 0, 218. Adota-se, portanto,
um modelo sem interação entre faixa etária e consumo de cigarros.

Tabela 4.4
Estimativas dos parâmetros do modelo log-linear
de Poisson para explicar a taxa média de morte
de doutores Britânicos com câncer de pulmão.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α -11,424 -22,44
C(1-9) β2 1,409 2,53
C(10-20) β3 2,866 6,86
C(+30) β4 3,758 8,80
F(50-59) γ2 1,769 5,10
F(60-69) γ3 2,897 8,62
F(70-80) γ4 3,791 11,12

As estimativas são apresentadas na Tabela 4.4. Nota-se claramente que as


estimativas são significativamente diferentes de zero e que há fortes indı́cios
de um aumento (exponencial) da taxa média de mortes com o aumento da
faixa etária e/ou com o aumento do consumo médio diário de cigarros. O

315
ajuste do modelo com log(Tij ) como variável explicativa forneceu a estimativa
de máxima verossimilhança θ̂ = 1, 839(0, 610). O teste de Wald para testar
H0 : θ = 1 contra H1 : θ 6= 1 forneceu o valor
(1, 839 − 1)2
ξW = = 1, 89,
0, 6102
cujo nı́vel descritivo é dado por P= 0, 17, indicando que o modelo pode ser
ajustado com log(tij ) como sendo offset. O gráfico normal de probabilidades
descrito na Figura 4.1 indica que o modelo está bem ajustado.
3
2
1
Componente do Desvio
0
−1
−2
−3

−2 −1 0 1 2
Quantil da N(0,1)

Figura 4.1: Gráfico normal de probabilidades referente ao modelo log-linear


de Poisson ajustado aos dados sobre morte por câncer de pulmão de doutores
Britânicos.

4.3.3 Modelos gerais de Poisson


Supor agora que Yi ’s são variáveis aleatórias independentes distribuı́das tais
que Yi ∼ P(µi ), com parte sistemática dada por g(µi ) = ηi , em que ηi =
x>
i β, xi = (xi1 , . . . , xip )
>
contém valores de variáveis explicativas, para

316
i = 1, . . . , n, e β = (β1 , . . . , βp )> é um vetor de parâmetros desconhecidos.
As ligações mais utilizados são logarı́tmica (g(µi ) = log(µi )), raiz quadrada

(g(µi ) = µi ) e identidade (g(µi ) = µi ).
O processo iterativo para a estimação de β, como foi visto na Seção 1.6.1,
é dado por
β (m+1) = (X> W(m) X)−1 X> W(m) z(m) ,
1 1
m = 0, 1, . . ., com variável dependente modificada z = η + W− 2 V− 2 (y − µ),
η = (η1 , . . . , ηn )> , y = (y1 , . . . , yn )> , µ = (µ1 , . . . , µn )> , V = diag{µ1 , . . . , µn }
e W = diag{ω1 , . . . , ωn } com ωi = (dµi /dηi )2 /µi . Em particular tem-se
ωi = µi para ligação logarı́tmica, ωi = 4 para ligação raiz quadrada e ωi = µ−1
i

para ligação identidade.


No caso das unidades experimentais serem observadas em tempos distin-
ind
tos ti ’s e for assumido que Yi ∼ P(λi ti ), i = 1, . . . , n, a parte sistemática do
modelo para ligação logarı́tmica fica dada por

log(µi ) = log(ti ) + x>


i β,

em que log(ti ) desempenha o papel de offset e isso deve ser informado ao


sistema. Outra possibilidade é incluir os tempos ti ’s como valores da variável
explicativa log(Ti ). Nesse caso, a parte sistemática assume a forma

log(µi ) = θ log(ti ) + x>


i β.

O teste de H0 : θ = 1 contra H1 : θ 6= 1 verifica se log(ti ) deve ser incluı́do


no modelo como offset. A não rejeição da hipótese nula significa a suposição
de tempos exponenciais nas unidades experimentais.
O estimador de máxima verossimilhança β̂ é consistente, eficiente e tem
distribuição assintótica dada por

β̂ − β ∼ Np (0, (X> WX)−1 ),

portanto, assintoticamente, Var(β̂) = (X> WX)−1 .

317
4.3.4 Qualidade do ajuste
A função desvio de um modelo de Poisson supondo yi > 0, ∀i, é definida por
n
X
D(y; µ̂) = 2 {yi log(yi /µ̂i ) − (yi − µ̂i )}.
i=1

Porém, se yi = 0, o i-ésimo termo de D(y; µ̂) fica dado por 2µ̂i .


Em particular, para ligação logarı́tmica e se o modelo inclui uma cons-
Pn
tante na parte sistemática, mostra-se facilmente que i=1 (yi − µ̂i ) = 0,
Pn
ficando a função desvio reexpressa na forma D(y; µ̂) = i=1 yi log(yi /µ̂i ).

Logo, particionando o vetor de parâmetros tal que β = (β > > >


1 , β 2 ) , em que

β 1 e β 2 são subvetores de dimensão p−q e q, respectivamente, a estatı́stica do


teste da razão de verossimilhanças para testar H0 : β 2 = 0 contra H1 : β 2 6= 0
em modelos log-lineares fica dada por

ξRV = D(y; µ̂0 ) − D(y; µ̂)


n
X
= 2 yi log(µ̂0i /µ̂i ).
i=1

Sob H0 e para grandes amostras ξRV ∼ χ2q . Os resultados assintóticos para


os modelos de Poisson valem tanto para p fixo e n → ∞ como para n fixo e
µi → ∞, ∀i.

4.3.5 Técnicas de diagnóstico


Um dos resı́duos mais recomendados para modelos com resposta de Poisson
é o componente do desvio padronizado, que para yi > 0, fica dado por
s
2 1
tDi = ± {yi log(yi /µ̂i ) − (yi − µ̂i )} 2 ,
1 − ĥii
em que hii é o i-ésimo elemento da diagonal principal da matriz de projeção
1 1
H = W 2 X(X> WX)−1 X> W 2 . Quando yi = 0 o resı́duo componente do
√ p
desvio padronizado assume a forma tDi = ± 2µ̂i / 1 − ĥii .

318
Estudos de simulação (ver Williams, 1984) mostram que em geral a dis-
tribuição de tDi não se afasta muito da distribuição normal padrão, podendo
ser usadas nas análises de diagnóstico as mesmas interpretações da regressão
normal linear. Em particular, a construção de envelopes é fortemente reco-
mendada para tDi .
Conforme descrito na Seção 3.6.8, uma outra opção é o resı́duo quantı́lico
(Dunn e Smyth, 1996) definido para variáveis discretas por

rqi = Φ−1 (ui ),

em que Φ(·) denota a função de distribuição acumulada da N (0, 1) e ui é um


valor gerado no intervalo (0, 1) com base em F (yi ; β̂) (função de distribuição
acumulada da distribuição discreta ajustada). Tem-se para n grande que
os resı́duos rq1 , . . . , rqn são independentes e igualmente distribuı́dos N (0, 1).
Logo, o gráfico entre os quantis amostrais rq(1) ≤ · · · ≤ rq(n) contra os quan-
tis teóricos da normal padrão é recomendado para avaliar afastamentos da
distribuição postulada para a resposta. Esse resı́duo é disponibilizado na
biblioteca GAMLSS do R (ver, por exemplo, Stasinopoulos et al., 2017) e como
é aleatorizado para variáveis discretas, uma sugestão é gerar m gráficos do
worm plot (gráfico entre rq(i) − E(Z(i) ) contra E(Z(i) )) para avaliar com mais
segurança a adequação do ajuste.
Por exemplo, se o ajuste é armazenado no arquivo fit, a geração do
resı́duo quantı́lico e de m gráficos do worm plot podem ser obtidos por meio
dos comandos
plot(fit)
rqres.plot(fit, howmany=8, type=‘‘wp’’).
A Figura 4.1 apresenta o gráfico normal de probabilidades para o resı́duo
tDi correspondente ao modelo ajustado aos dados da Tabela 4.2. Como pode-
se notar, todos os resı́duos cairam dentro do envelope gerado sem apresen-

319
tarem nenhuma tendência sistemática, indicando que a suposição de distri-
buição de Poisson parece ser bastante razoável. O programa utilizado para
gerarmos o gráfico de envelopes é apresentado no Apêndice B.

4.3.6 Aplicação
Como ilustração considere os dados apresentados em Neter et al. (1996, p.
613) sobre o perfil dos clientes de uma determinada loja oriundos de 110
áreas de uma cidade. O objetivo do estudo é relacionar o número esperado
de clientes em cada área com as seguintes variáveis explicativas em cada área:
número de domicı́lios (em mil), renda média anual (em mil USD), idade média
dos domicı́lios (em anos), distância ao concorrente mais próximo (em milhas)
e distância à loja (em milhas). Portanto, a área é a unidade experimental.
Esses dados estão também descritos no arquivo store.txt.
Na Figura 4.2 são apresentados os diagramas de dispersão entre o número
de clientes (variável resposta) e as variáveis explicativas renda e idade média,
distância ao concorrente mais próximo (dist1) e distância à loja (dist2).
Indı́cios mais evidentes de relação linear podem ser observados entre a res-
posta e as distâncias dist1 e dist2. Ou seja, há indı́cios de que o número
de clientes aumenta à medida que a distância ao concorrente mais próximo
aumenta e a distância à loja diminui.
Denote por Yi o número de clientes da i-ésima área que foram à loja no
ind
perı́odo determinado. Supor que Yi ∼ P(µi ) com parte sistemática dada por

log(µi ) = α + β1 domici + β2 rendai + β3 idadei + β4 dist1i + β5 dist2i .

Tem-se que a variável número de domicı́lios (domic) deve ser incluı́da no


modelo uma vez que as áreas não têm o mesmo número de domicı́lios. As
estimativas dos parâmetros são apresentadas na Tabela 4.5 e como pode-se

320
notar todas as estimativas são altamente significativas. O desvio do modelo
foi de D(y; µ̂) = 114, 98 (104 graus de liberdade) que equivale a um nı́vel
descritivo P= 0, 35 indicando um ajuste adequado. Nota-se pela tabela que
o número esperado de clientes na loja cresce com o aumento do número de
domicı́lios na área e da distância ao concorrente mais próximo, porém diminui
com o aumento da renda média e da idade média dos domicı́lios bem como da
distância da área à loja. Isso sugere que deve ser uma loja de conveniência.
30

30
20

20
Clientes

Clientes
10

10
5

5
0

20000 60000 100000 0 10 20 30 40 50 60

Renda Idade
30

30
20

20
Clientes

Clientes
10

10
5

5
0

1 2 3 4 5 6 2 4 6 8 10

Dist1 Dist2

Figura 4.2: Diagramas de dispersão entre o número de clientes que visitaram


a loja e algumas variáveis explicativas.

321
Tabela 4.5
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado aos dados sobre perfil
de clientes.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,942 14,21
Domicı́lio β1 0,606 4,27
Renda β2 -0,012 -5,54
Idade β3 -0,004 -2,09
Dist1 β4 0,168 6,54
Dist2 β5 -0,129 -7,95
0.7

43
2

0.6

20
1

0.5
Componente do Desvio

Distância de Cook
0.4
0

0.3
−1

0.2
−2

0.1
0.0
−3

5 10 15 20 25 30 35 0 20 40 60 80 100
Valor Ajustado Índice

Figura 4.3: Gráficos de diagnóstico referentes ao modelo log-linear de Poisson


ajustado aos dados sobre perfil de clientes.

Pode-se fazer algumas interpretações. Por exemplo, aumentando-se em 1

322
2
Componente do Desvio
0
−2
−4

−2 −1 0 1 2
Quantil da N(0,1)

Figura 4.4: Gráfico normal de probabilidades referente ao modelo log-linear


de Poisson ajustado aos dados sobre perfil de clientes.

mil USD a renda média dos domicı́lios de uma determinada área espera-se au-
mento relativo no número de clientes que irão à loja de exp(−0, 012) = 0, 988.
Ou seja, decrescimento de 1,2%, com estimativa intervalar de 95% dada por
[0,8%,1,2%]. Por outro lado, se a distância ao concorrente mais próximo au-
mentar em uma milha espera-se aumento relativo no número de clientes de
exp(0, 168) = 1, 183. Ou seja, aumento de 18,3% com estimativa intervalar
de 95% de [15%, 20%]. Pela Figura 4.3 nota-se que os resı́duos estão bem
comportados com o valor ajustado, sugerindo que a variabilidade foi con-
trolada. A distância de Cook destaca as áreas #20 e #43, que apresentam
algumas variações desproporcionais nas estimativas dos parâmetros, porém
sem ocorrência de mudança inferencial. O gráfico normal de probabilida-
des (Figura 4.4) não apresenta indicações de afastamentos da suposição de
distribuição de Poisson para o número de clientes que visitaram a loja no
perı́odo.

323
4.4 Modelos com resposta binomial negativa
4.4.1 Distribuição binomial negativa
O fenômeno de sobredispersão, similarmente ao caso de dados com resposta
binária discutido na Seção 3.6.14, ocorre quando é esperada uma distribuição
de Poisson para a resposta, porém a variância é maior do que a resposta
média. Uma causa provável desse fenômeno é a heterogeneidade das unidades
amostrais que pode ser devido à variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto fixo x =
(x1 , . . . , xp )> de valores de variáveis explicativas, Y |z tem média z e variância
z, no entanto Z, que é não observável, varia nas unidades amostrais com x
fixo, de modo que E(Z) = µ. Então,

E(Y ) = E[E(Y |Z)] = E[Z] = µ e

Var(Y ) = E[Var(Y |Z)] + Var[E(Y |Z)]


= µ + Var(Z).

Pode-se, adicionalmente, supor que Y |z tem distribuição de Poisson com


média z e função de probabilidade denotada por f (y|z) e que Z segue uma
distribuição gama de média µ e parâmetro de dispersão k = φµ cuja função
de densidade será denotada por g(z; µ, k).
Tem-se E(Z) = µ e Var(Z) = µ2 /k de modo que E(Y ) = µ e Var(Y ) =
µ + µ2 /k = µ(1 + φ)/φ. Assim, as funções densidades f (y|z) e g(z; µ, k)
assumem as seguintes formas:
k
e−z z y

1 zk kz 1
f (y|z) = e g(z; µ, k) = e− µ .
y! Γ(k) µ z

324
Logo, Y tem função de probabilidade dada por
Z ∞
P r{Y = y} = f (y|z)g(z; µ, k)dz
0
 k Z ∞
1 k
= e−z(1+k/µ) z k+y−1 dz.
y!Γ(k) µ 0

Fazendo a transformação de variável t = z(1 + µk ) tem-se que dz


dt
= (1 + µk )−1 .
Então,
 k  −(k+y) Z ∞
1 k k
P r{Y = y} = 1+ e−t tk+y−1 dt
y!Γ(k) µ µ 0
Γ(y + k)φk
=
Γ(y + 1)Γ(k)(1 + φ)y+k
 k  y
Γ(y + k) φ 1
=
Γ(y + 1)Γ(k) 1 + φ 1+φ
Γ(y + k)
= (1 − π)k π y , y = 0, 1, 2, . . . ,
Γ(y + 1)Γ(k)

em que π = 1/(1 + φ). Portanto, Y tem distribuição binomial negativa de


média µ e parâmetro de forma k.
Pode-se, similarmente, supor que Y |z ∼ P(z) e que Z ∼ G(µ, φ), em que
φ não depende de µ. Nesse caso E(Z) = µ e Var(Z) = µ2 /φ de onde segue
que E(Y ) = µ e Var(Y ) = µ + µ2 /φ. Tem-se então que

e−z z y

1 zφ φz 1
f (y|z) = e g(z; µ, φ) = e− µ .
y! Γ(φ) µ z
A função de probabilidade de Y fica dada por
Z ∞
P r{Y = y} = f (y|z)g(z; µ, φ)dz
0
 φ Z ∞
1 φ
= e−z(1+φ/µ) z φ+y−1 dz.
y!φ µ 0

325
Fazendo a transformação de variável t = z(1 + µφ ) tem-se que dz
dt
= (1 + µφ )−1 .
Daı́ segue que
 φ  −(φ+y) Z ∞
1 φ φ
P r{Y = y} = 1+ e−t tφ+y−1 dt
y!Γ(φ) µ µ 0
y φ
Γ(φ + y)µ φ
=
Γ(φ)Γ(y + 1)(µ + φ)φ+y
 y  φ
Γ(φ + y) µ φ
=
Γ(y + 1)Γ(φ) µ + φ µ+φ
Γ(φ + y)
= (1 − π)φ π y , y = 0, 1, 2, . . . ,
Γ(y + 1)Γ(φ)
com π = µ/(µ + φ). Portanto, neste caso Y também segue distribuição
binomial negativa de média µ e parâmetro de forma φ. Será denotado Y ∼
BN(µ, φ). Pode-se mostrar (ver, por exemplo, Jørgensen,1996, p. 96) que
1
√ (Y − µ) →d N(0, π/(1 − π)2 ), quando φ → ∞.
φ
Pode-se obter também aproximações da binomial negativa para a Poisson e
gama.

4.4.2 Modelos de regressão com resposta binomial ne-


gativa
Supor então que Y1 , . . . , Yn são variáveis aleatórias independentes tais que
Yi ∼ BN(µi , φ). A função de probabilidade de Yi fica dada por
 yi  φ
Γ(φ + yi ) µi φ
f (yi ; µi , φ) = , yi = 0, 1, 2, . . . .
Γ(yi + 1)Γ(φ) µi + φ µi + φ

Tem-se que E(Yi ) = µi e Var(Yi ) = µi +µ2i /φ. Similarmente aos MLGs a parte
sistemática será denotada por g(µi ) = ηi = x>
i β, em que xi = (xi1 , . . . , xip )
>

contém valores de variáveis explicativas, β = (β1 , . . . , βp )> é um vetor de


parâmetros desconhecidos e g(·) é a função de ligação. Como nos modelos

326
de Poisson as ligações mais utilizados são logarı́tmica (g(µi ) = log(µi ), raiz

quadrada (g(µi ) = µi ) e identidade (g(µi ) = µi ).
Definindo θ = (β > , φ)> o logaritmo da função de verossimilhança fica
dado por
n    
X Γ(φ + yi )
L(θ) = log + φ log(φ) + yi log(µi ) − (φ + yi ) log(µi + φ) ,
i=1
Γ(yi + 1)Γ(φ)

em que µi = g −1 (x>
i β). A fim de obter-se a função escore para β obtém-se

inicialmente as derivadas
n  
X yi dµi ∂ηi (φ + yi ) dµi ∂ηi
∂L(θ)/∂βj = −
i=1
µi dηi ∂βj (φ + µi ) dηi ∂βj
n  
X yi dµi (φ + yi ) dµi
= xij − xij
i=1
µi dηi (φ + µi ) dηi
n  
X φ(dµi /dηi )
= (yi − µi )xij
i=1
µ i (φ + µ i )
n
X
= ωi fi−1 (yi − µi )xij ,
i=1

em que ωi = (dµi /dηi )2 /(µ2i φ−1 + µi ) e fi = dµi /dηi . Logo, pode-se espressar
a função escore na forma matricial

Uβ (θ) = X> WF−1 (y − µ), (4.5)

em que X é a matriz modelo com linhas x>


i , i = 1, . . . , n, W = diag{ω1 , . . . , ωn },

F = diag{f1 , . . . , fn }, y = (y1 , . . . , yn )> e µ = (µ1 , . . . , µn )> . De forma simi-


lar a função escore para φ fica dada por
n
X
Uφ (θ) = [ψ(φ + yi ) − ψ(φ) − (yi + φ)/(φ + µi )+ log{φ/(φ + µi )} +1], (4.6)
i=1

em que ψ(·) é a função digama.

327
Para obter-se a matriz de informação de Fisher calcula-se as derivadas
n   2
2
X (φ + yi ) yi dµi
∂ L(θ)/∂βj ∂β` = − 2
− 2 xij xi`
i=1
(φ + µ i ) µ i dη i
n 
(φ + yi ) d2 µi

X yi
+ − xij xi` ,
i=1
µi (φ + µi ) dηi2

cujos valores esperados ficam dados por


n
2
X φ(dµi /dηi )2
E{∂ L(θ)/∂βj ∂β` } = − xij xi`
i=1
(φ + µi )
Xn
= − ωi xij xi` .
i=1

Logo, pode-se expressar a informação de Fisher para β em forma matricial


∂ 2 L(θ)
 
Kββ (θ) = E − = X> WX.
∂β∂β >
Lawless (1987) mostra que a informação de Fisher para φ pode ser expressa
na forma
n
X ∞
X
Kφφ (θ) = { (φ + j)−2 P r(Yi ≥ j) − φ−1 µi /(µi + φ)},
i=1 j=0

e que β e φ são parâmetros ortogonais. Assim , a matriz de informação de


Fisher para θ assume a forma bloco diagonal
 
Kββ 0
Kθθ = .
0 Kφφ
As estimativas de máxima verossimilhaça para β e φ podem ser obtidas
através de um algoritmo de mı́nimos quadrados reponderados, aplicando o
método escore de Fisher, a partir de (4.5) e do método de Newton-Raphson
para obter φ̂ desenvolvido a partir de (4.6), os quais são descritos abaixo

β (m+1) = (X> W(m) X)−1 X> W(m) y∗(m)

328
e
(m) (m)
φ(m+1) = φ(m) − {Uφ /L̈φφ },

para m = 0, 1, 2, . . ., em que

y∗ = Xβ + F−1 (y − µ)

é uma variável dependente modificada e


n
X
L̈φφ = {ψ 0 (φ + yi ) + (yi − 2µi − φ)/(φ + µi )2 } + nφ−1 {1 − φψ 0 (φ)}.
i=1

Tabela 4.5
Quantidades ωi e fi para algumas ligações.
Ligação ωi fi
log(µi ) = ηi µi /(µi φ−1 + 1) µi
µ = ηi (µ2i φ−1 + µi )−1 1
√i √
µi = η i 4/(µi φ−1 + 1) 2 µi

Os dois procedimentos são aplicados simultaneamente até a convergência.


>
Pode-se encontrar as estimativas de máxima verossimilhança (β̂ , φ̂)> pela
aplicação do comando library(MASS) do R. Como ilustração, supor um mo-
delo log-linear com resposta binomial negativa resp e covariáveis cov1 e
cov2. Deve-se acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp ∼ cov1 + cov2).
No objeto fit.bn estarão os resultados do ajuste. Outras ligações, além
da ligação logarı́tmica, podem ser usadas com a distribuição binomial ne-
gativa. Por exemplo, para o ajuste de um modelo com resposta binomial
negativa e ligação identidade se resp é considerada resposta e cov1 e cov2
são consideradas variáveis explicativas, deve-se fazer o seguinte:
library(MASS)

329
fit.bn = glm.nb( resp ∼ cov1 + cov2, link=identity).
A Tabela 4.5 apresenta as expressões para ωi e fi para algumas ligações
usuais em modelos com resposta binomial negativa.
Usando os mesmos argumentos da Seção 1.6 tem-se que para n grande
β̂ segue distribuição aproximadamente normal p-variada de média β e ma-
triz de variância-covariância K−1 −1
ββ , ou seja , para n grande β̂ ∼ Np (β, Kββ ).

Similarmente para n grande φ̂ ∼ N(φ, K−1


φφ ). Além disso, β̂ e φ̂ são assintoti-

camente independentes.

4.4.3 Qualidade do ajuste


A função desvio assumindo φ fixo fica dada por
n     

X µ̂i + φ yi (µ̂i + φ)
D (y; µ̂) = 2 φ log + yi log ,
i=1
yi + φ µ̂i (yi + φ)

em que µ̂i = g −1 (x>


i β). Quando yi = 0 o i-ésimo componente da função

desvio D∗ (y; µ̂) fica dado por

d∗2 (yi , µ̂i ) = 2[log{f (0; yi , φ)} − log{f (0; µ̂i , φ)}]
= 2φ log{φ/(yi + φ)} − 2φ log{φ/(µ̂i + φ)}
= 2φ log{(µi + φ)/(ŷi + φ)}
= 2φ log{(µ̂i + φ)/φ}.

Portanto, os componentes do desvio no caso binomial negativo assumem as


seguintes formas:
 h n o n oi
 2 φ log (µ̂i +φ) + yi log yi (µ̂i +φ) se yi > 0;
d∗2 (yi ; µ̂i ) = n (yi +φ) o µ̂i (yi +φ)
 2φ log (µ̂i +φ) se yi = 0.
φ

Sob a hipótese de que o modelo adotado está correto D∗ (y; µ̂) segue para
φ grande e µi grande, ∀i, distribuição qui-quadrado com (n − p) graus de
liberdade.

330
Supor agora a partição β = (β > > >
1 , β 2 ) em que β 1 é um vetor q-dimensional

enquanto β 2 tem dimensão p − q e que φ é fixo ou conhecido. O teste da


razão de verossimilhanças para testar H0 : β 1 = 0 contra H1 : β 1 6= 0 reduz,
neste caso, à diferença entre dois desvios

ξRV = D∗ (y; µ̂0 ) − D∗ (y; µ̂),

em que µ̂0 e µ̂ são, respectivamente, as estimativas de µ sob H0 e H1 . Para φ


desconhecido o teste da razão de verossimilhanças fica expresso na seguinte
forma:
n
X
ξRV = 2 [log{Γ(φ̂ + yi )Γ(φ̂0 )/Γ(φ̂0 + yi )Γ(φ̂)} + φ̂log{φ̂/(φ̂ + µ̂i )}
i=1

−φ̂ log{φ̂0 /(φ̂0 + µ̂0i )} + yi log{µ̂i (φ̂0 + µ̂0i )/µ̂0i (φ̂ + µ̂i )}],
0

em que φ̂0 e φ̂ são as estimativas de máxima verossimilhança de φ sob H0 e


H1 , respectivamente. Para n grande e sob H0 tem-se que ξRV ∼ χ2q .

4.4.4 Técnicas de diagnóstico


Fazendo uma analogia com os MLGs a matriz de projeção H assume aqui a
seguinte forma:
1 1
H = W 2 X(X> WX)−1 X> W 2 .

O i-ésimo elemento da diagonal principal de H fica dado por


(dµi /dηi )2 > >
hii = −1
xi (X WX)−1 xi .
(µi φ + µi )
Em particular, para os modelos log-lineares hii fica dado por
φµi
hii = x> (X> WX)−1 xi ,
(φ + µi ) i
em que ωi = φµi /(φ + µi ). Como ĥii deverá depender de µ̂i , gráficos de ĥii
contra os valores ajustados são mais informativos do que os gráficos de ĥii
contra a ordem das observações.

331
Estudos de Monte Carlo desenvolvidos por Svetliza (2002) indicam boa
concordância entre o resı́duo componente do desvio
d∗ (yi ; µ̂i )
tDi = p
1 − ĥii
com a distribuição normal padrão, em que
 √ h n o n oi 1
 ± 2 φ log µ̂i +φ + y log yi (µ̂i +φ) 2 se y > 0;
i i
d∗ (yi ; µ̂i ) = √ h n yi +φ oi µ̂i (yi +φ)
 ± 2 φ log (µ̂i +φ) se yi = 0.
φ

Para extrair a quantidade d∗i (yi ; µ̂i ) do objeto fit.bn deve-se fazer o
seguinte:
d = resid(fit.bn, type= ‘‘deviance").
Uma versão da distância de Cook aproximada é dada por

ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

p
em que rPi = (yi − µi )/ Var(Yi ) e Var(Yi ) = µi + µ2i /φ. A quantidade rPi é
obtida no R através do comando
rp = resid(fit.bn, type=‘‘pearson").
O gráfico de LDi contra as observações ou valores ajustados pode reve-
lar pontos influentes nas estimativas β̂ e φ̂. Svetliza (2002) desenvolveu as
expressões matriciais para a obtenção de `max para β̂ e φ̂.

4.4.5 Seleção de modelos


Similarmente aos modelos lineares generalizados, pelo critério de Akaike deve-
se encontrar um submodelo para o qual a quantidade abaixo seja minimizada

AIC = D∗ (y; µ̂) + 2p.

Deve-se acionar no R os seguintes comandos:

332
library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajus-
tado.

4.4.6 Aplicações
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um es-
tudo sociológico desenvolvido na Austrália com 146 estudantes de 8a série e
ensino médio com o objetivo de comparar a ausência na escola segundo os
seguintes fatores: ano que o estudante está cursando (1: 8a série, 2: 1o ano
do ensino médio, 3: 2o ano do ensino médio, 4: 3o ano do ensino médio),
etnia (0: aborı́gine, 1: não aborı́gine), desempenho escolar (0: insuficiente,
1: suficiente) e sexo (0: masculino, 1: feminino). Para obter esses dados no R
deve-se acionar o comando library(MASS) e em seguida quine. Uma cópia
desses dados está disponı́vel no arquivo quine.txt.
Denota-se por Yijk`m o número de faltas num determinado perı́odo refe-
rentes ao m-ésimo aluno, cursando o i-ésimo ano, de etnia j, com desempenho
escolar k e pertencente ao `-ésimo sexo, em que i = 1, 2, 3, 4, j, k, ` = 1, 2 e
ind
m = 1, . . . , 144. Supor que Yijk`m ∼ BN(µijk` , φ), em que

log(µijk` ) = α + βi + γj + δk + θ` ,

com β1 = 0, γ1 = 0, δ1 = 0 e θ1 = 0. Assim, tem-se um modelo casela de


referência com β2 , β3 e β4 denotando os incrementos do primeiro, segundo
e terceiro anos do ensino médio, respectivamente, em relação à 8a série, γ2
é a diferença entre os efeitos do grupo não aborı́gine com relação ao grupo
aborı́gine, δ2 denota a diferença entre os efeitos dos grupos com desempenho

333
suficiente e insuficiente e θ é a diferença entre os efeitos do sexo feminino e
masculino.

Tabela 4.6
Estimativas de máxima verossimilhança referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausência
escolar de estudantes australianos.
Efeito Modelo 1 E/E.Padrão Modelo 2 E/E.Padrão
Intercepto 2,895 12,70 2,628 10,55
Etnia -0,569 -3,72 0,131 0,38
Sexo 0,082 0,51
Ano2 -0,448 -1,87 0,178 0,56
Ano3 0,088 0,37 0,827 2,61
Ano4 0,357 1,44 0,371 1,11
Desemp 0,292 1,57
Etn*Ano2 -0,991 -2,26
Etn*Ano3 -1,239 -2,78
Etn*Ano4 -0,176 -0,38
φ 1,275 7,92 1,357 7,80

Na Tabela 4.6 tem-se as estimativas de máxima verossimilhança com os


respectivos erros padrão aproximados. O desvio do modelo ajustado (modelo
1) foi de D∗ (y; µ̂) = 167, 95 (139 graus de liberdade). Nota-se que os fatores
sexo e desempenho escolar não são significativos marginalmente ao nı́vel de
10%. Após testar a ausência de efeito conjunto desses fatores, tem-se que
ambos são conjuntamente não significativos sendo portanto retirados do mo-
delo. Contudo, nota-se a necessidade de inclusão da interação entre etnia e
ano no modelo. O valor da estatı́stica do teste da razão de verossimilhanças
nesse caso é de ξRV = 11, 16 (P= 0, 0109). As novas estimativas são também
apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2) foi de
D∗ (y; µ̂) = 167, 84 (138 graus de liberdade).

334
30
Abor
Nabo
25
Valore Ajustado

20
15
10

8a.Serie Ano1 Ano2 Ano3

Ano

Figura 4.5: Valores médios estimados pelo modelo log-linear binomial nega-
tivo ajustado aos dados sobre ausência escolar de estudantes australianos.

A Figura 4.5 apresenta as médias ajustadas do modelo final com resposta


binomial negativa. Pode-se notar que o grupo não aborı́gine tem em geral um
no médio menor de dias ausentes. A maior média é observada para estudantes
do grupo aborı́gine cursando o 2o ano do ensino médio e o menor valor médio
é observado para estudantes do grupo não aborı́gine cursando o 1o ano do
ensino médio. Embora a interação entre etnia e ano seja significativa, não
implica que para cada ano a diferença entre o número médio de faltas nos
grupos aborı́gene e não aborı́gene seja significativa. Isso poderia ser avaliado
através de testes de contrastes. A presença de interação significa que pelo
menos uma das diferenças médias entre os dois grupos é significativa.

335
10

3
2
5
Componente do Desvio

Componente do Desvio
1
0
0

−1
−2
−5

−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.6: Gráficos normais de probabilidade referentes ao modelo log-linear


de Poisson (esquerda) e ao modelo log-linear binomial negativo (direita) ajus-
tados aos dados sobre ausência escolar de estudantes australianos.

Verifica-se também, neste estudo, como fica o ajuste através de um modelo


log-linear de Poisson. Tem-se nas Figura 4.6 os gráficos normais de proba-
bilidade para os dois ajustes e nota-se uma clara superioridade do modelo
log-linear com resposta binomial negativa. O modelo log-linear de Poisson
apresenta fortes indı́cios de sobredispersão com os resı́duos cruzando o enve-
lope gerado. Isso é justificado pelo valor do desvio D∗ (y; µ̂) = 1597, 11 (138
graus de liberdade).
Na Figura 4.7 são apresentados gráficos de diagnóstico referentes ao ajuste
do modelo log-linear binomial negative. Nota-se que o resı́duo componente
do desvio se comporta de forma aleatória com o valor ajustado, indicando que
a variabilidade foi controlada. Pelo gráfico da distância de Cook nota-se três
pontos com mais destaque como possivelmente influentes em β̂, são os alunos
#72, #104 e #36. Os três alunos têm vários dias ausentes, respectivamente,

336
2
72

1.0
1

0.8
Componente do Desvio

Distância de Cook
36 104

0.6
0

0.4
−1

0.2
−2

0.0
−3

10 15 20 25 30 0 50 100 150
Valor Ajustado Índice

Figura 4.7: Gráficos de diagnóstico referentes ao modelo binomial negativo


ajustado aos dados sobre ausência escolar de estudantes australianos.

67, 69 e 45. O aluno #72 é não aborı́gine e estava cursando a 8a série.


O aluno #104 é também não aborı́gine, porém estava cursando o 3o ano,
enquanto o aluno #36 é aborı́gine e estava também cursando a 8a série. A
retirada desses pontos causa aumentos desproporcionais nas estimativas, mas
não altera os resultados inferenciais.

Demanda de TV a cabo
Na Tabela 4.7 é apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 áreas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados estão também disponı́veis no arquivo tvcabo.txt. Foram observadas,
para cada área, o número de assinantes (em milhares) de TV a cabo (nass),
o número de domicı́lios (em milhares) na área (domic), a porcentagem de
domicı́lios com TV a cabo (perc), a renda per capita (em mil USD) por
domicı́lio com TV a cabo (percap), a taxa de instalação de TV a cabo (taxa)
em USD, o custo médio mensal de manutenção de TV a cabo (custo) em

337
Tabela 4.7
Demanda de TV a cabo em 40 áreas metropolitanas dos EUA.
Nass Domic Perc Percap Taxa Custo Ncabo Ntv
105 350 30,000 9,839 14,95 10 16 13
90 255,631 35,207 10,606 15 7,5 15 11
14 31 45,161 10,455 15 7 11 9
11,7 34,840 33,582 8,958 10 7 22 10
46 153,434 29,980 11,741 25 10 20 12
11,217 26,621 42,136 9,378 15 7,66 18 8
12 18 66,667 10,433 15 7,5 12 8
6,428 9,324 68,940 10,167 15 7 17 7
20,1 32 62,813 9,218 10 5,6 10 8
8,5 28 30,357 10,519 15 6,5 6 6
1,6 8 20,000 10,025 17,5 7,5 8 6
1,1 5 22,000 9,714 15 8,95 9 9
4,355 15,204 28,644 9,294 10 7 7 7
78,910 97,889 80,612 9,784 24,95 9,49 12 7
19,6 93 21,075 8,173 20 7,5 9 7
1 3 33,333 8,967 9,95 10 13 6
1,65 2,6 63,462 10,133 25 7,55 6 5
13,4 18,284 73,288 9,361 15,5 6,3 11 5
18,708 55 34,015 9,085 15 7 16 6
1,352 1,7 79,529 10,067 20 5,6 6 6
170 270 62,963 8,908 15 8,75 15 5
15,388 46,540 33,064 9,632 15 8,73 9 6
6,555 20,417 32,106 8,995 5,95 5,95 10 6
40 120 33,333 7,787 25 6,5 10 5
19,9 46,39 42,897 8,890 15 7,5 9 7
2,45 14,5 16,897 8,041 9,95 6,25 6 4
3,762 9,5 39,600 8,605 20 6,5 6 5
24,882 81,98 30,351 8,639 18 7,5 8 4
21,187 39,7 53,368 8,781 20 6 9 4
3,487 4,113 84,780 8,551 10 6,85 11 4
3 8 37,500 9,306 10 7,95 9 6
42,1 99,750 42,206 8,346 9,95 5,73 8 5
20,350 33,379 60,966 8,803 15 7,5 8 4
23,15 35,5 65,211 8,942 17,5 6,5 8 5
9,866 34,775 28,371 8,591 15 8,25 11 4
42,608 64,840 65,713 9,163 10 6 11 6
10,371 30,556 33,941 7,683
338 20 7,5 8 6
5,164 16,5 31,297 7,924 14,95 6,95 8 5
31,150 70,515 44,175 8,454 9,95 7 10 4
18,350 42,040 43,649 8,429 20 7 6 4
USD, o número de canais a cabo disponı́veis na área (ncabo) e o número de
canais não pagos com sinal de boa qualidade disponı́veis na área (ntv). Como
são dados de contagem pode-se pensar inicialmente num modelo de Poisson
ind
em que nassi denota o número de assinantes na i-ésima região, nassi ∼ P(µi ),
e componente sistemático dado por log(µi ) = α + β1 domici + β2 percapi +
β3 taxai + β4 custoi + β5 ncaboi + β6 ntvi , para i = 1, . . . , 40. No entanto, o
ajuste do modelo forneceu desvio D(y; µ̂) = 225 para 33 graus de liberdade
indicando fortes indı́cios de sobredispersão, que é confirmado pelo gráfico
normal de probabilidades da Figura 4.8. Então um modelo log-linear com
ind
resposta binomial negativa foi ajustado, em que nassi ∼ BN(µi , φ). 3
8

2
6

1
Componente do Desvio

Componente do Desvio
4

0
2

−1
0

−2
−2

−3
−4

−4

−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.8: Gráficos normais de probabilidade referentes aos modelos log-


linear de Poisson (esquerda) e log-linear binomial negativo (direita) ajustados
aos dados sobre demanda de TV a cabo.

O gráfico normal de probabilidades (Figura 4.8) bem como o desvio

339
4
14

3
Distância de Cook
1

2
1
0

0 10 20 30 40
Índice

Figura 4.9: Gráfico de diagnóstico referente ao modelo log-linear binomial


negativo ajustado aos dados sobre demanda de TV a cabo.

D∗ (y; µ̂) = 42, 35 fornecem indı́cios de ajuste adequado do modelo log-linear


com resposta binomial negativa. No entanto, pela Figura 4.9, nota-se uma
área suspeita de ser altamente influente (observação #14) nas estimativas dos
coeficientes e outra área com suspeita de moderada influência (observação
#1). A área #14 apresenta custos altos de instalação e manutenção de TV a
cabo, porém um alto ı́ndice de assinantes. A área #1 tem um baixo ı́ndice de
assinantes com grande oferta de canais a cabo e canais não pagos de boa qua-
lidade. As estimativas dos coeficientes com todos os pontos e eliminando as
observações mais discrepantes (1 e 14) são apresentadas na Tabela 4.8. Como
pode-se observar há indı́cios de que quatro coeficientes (percap, taxa, ncabo
e ntv) são marginalmente não significativos a 10%. Aplica-se então o teste
da razão de verossimilhanças para testar H0 : β2 = β3 = β5 = β6 = 0 contra
pelo menos um parâmetro diferente de zero que forneceu o valor ξRV = 2, 50
para 4 graus de liberdade (P=0,64), indicando pela não rejeição da hipótese
nula. Isso significa que as duas observações discrepantes são responsáveis

340
pela significância de três desses coeficientes que aparecem significativos mar-
ginalmente com todos os pontos, bem como pelo aumento da sobredispersão
uma vez que a estimativa de φ cresce com a eliminação das duas áreas. Uma
maneira de reduzir a influência dessas duas áreas seria através da atribuição
de pesos para as mesmas, por exemplo aplicando-se procedimentos robustos
em que os pesos são obtidos de forma iterativa. Modelos alternativos também
poderiam ser aplicados no sentido de reduzir a inflêncua dessas observações,
tais como modelos de quase-verossimilhança ou modelos com resposta beta,
em que a resposta seria a porcentagem de domicı́lios com TV a cabo.

Tabela 4.8
Estimativas de máxima verossimilhança referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito Todos pontos E/E.Padrão Sem 1 e 14 E/E.Padrão
Intercepto 2,437 1,99 3,608 3,34
Domic 0,013 8,24 0,014 9,69
Percap 0,065 0,42 -0,002 -0,02
Taxa 0,041 1,84 0,010 0,50
Custo -0,207 1,95 -0,266 -2,69
Ncabo 0,067 2,01 0,050 1,63
Ntv -0,135 1,84 -0,071 -1,02
φ 3,311 3,49 5,060 2,89

4.4.7 Sobredispersão e quase-verossimilhança


De uma forma geral o fenômeno de sobredispersão sugere que a variância de
Y seja dada por Var(Y ) = σ 2 µ, em que σ 2 > 1. Uma maneira mais simples
de resolver o problema é ajustar um modelo log-linear de Poisson aos dados e
estimar σ 2 separadamente (método de quase-verossimilhança), por exemplo,
usando a estimativa proposta por Wedderburn (1974), dada por
n
2
X (yi − µ̂i )2
σ̂ = /(n − p), (4.7)
i=1
µ̂i

341
em que µ̂i = exp(x>
i β̂). Algumas quantidades, tais como a matriz de
variância-covariância assintótica de β̂, o desvio, resı́duos etc, deverão ser
corrigidos de maneira similar ao caso tratado na Seção 3.6.14. Finalmente,
pode-se pensar na aplicação de modelos mais gerais de quase-verossimilhança
que serão discutidos no Capı́tulo 5.

Aplicação
Como ilustração, considere os dados descritos na Tabela 4.9 (McCullagh e
Nelder, 1989, Seção 6.3.2) e também no arquivo navios.txt em que avarias
causadas por ondas em navios de carga são classificadas segundo o tipo do
navio (A-E), ano da fabricação (1:1960-64, 2:1965-69, 3:1970-74 e 4:1975-79)
e perı́odo de operação (1:1960-74 e 2:1975-79).
Foi também considerado o tempo em que cada navio ficou em operação
(em meses). Inicialmente, um modelo log-linear de Poisson com offset, dado
por log(meses), e efeitos principais é ajustado aos dados. Assim, denotando
por Yijk o número de avarias observadas para o navio do tipo i, construı́do
ind
no ano j que operou no perı́odo k e supondo que Yijk ∼ P(λijk tijk ), em que
tijk é o total de meses de operação e λijk o número médio esperado de avarias
por unidade de tempo. A parte sistemática do modelo é dada por

log(λijk ) = α + β1(i) + β2(j) + β3(k) ,

com as restrições β1(1) = β2(1) = β3(1) = 0, para i = 1, . . . , 5; j = 1, . . . , 4 e


k = 1, 2, com β1 , β2 e β3 denotando, respectivamente, o efeito de tipo, de
ano de construção e perı́odo de operação.
O desvio do modelo foi de D(y; µ̂) = 38, 69 (25 graus de liberdade) que
corresponde a um nı́vel descritivo P= 0, 040, indicando que o ajuste não está
satisfatório. Pelo gráfico normal de probabilidades, descrito na Figura 4.10,

342
Tabela 4.9
Distribuição de avarias em navios de
carga segundo o tipo do navio, ano de
fabricação perı́odo de operação
e total de meses em operação.
Tipo Ano Perı́odo Meses Avarias
A 1 1 127 0
A 1 2 63 0
A 2 1 1095 3
A 2 2 1095 4
A 3 1 1512 6
A 3 2 3353 18
A 4 2 2244 11
B 1 1 44882 39
B 1 2 17176 29
B 2 1 28609 58
B 2 2 20370 53
B 3 1 7064 12
B 3 2 13099 44
B 4 2 7117 18
C 1 1 1179 1
C 1 2 552 1
C 2 1 781 0
C 2 2 676 1
C 3 1 783 6
C 3 2 1948 2
C 4 2 274 1
D 1 1 251 0
D 1 2 105 0
D 2 1 288 0
D 2 2 192 0
D 3 1 349 2
D 3 2 1208 11
D 4 2 2051 4
E 1 1 45 0
E 2 1 789 7
E 2 2 437 7
E 3 1 1157 5
E 3 2343 2161 12
E 4 2 542 1
3

2
2
1

1
Componente do Desvio

Componente do Desvio
0

0
−1

−1
−2

−2
−3

−3
−2 −1 0 1 2 −2 −1 0 1 2
Quantil da N(0,1) Quantil da N(0,1)

Figura 4.10: Gráficos normais de probabilidades referentes ao modelo log-


linear de Poisson (esquerda) e log-linear de quase-verossimilhança (direita)
ajustados aos dados sobre avarias em navios de carga.

nota-se a maioria dos resı́duos próximos dos limites superior e inferior do


envelope gerado, sugerindo sobredispersão que neste caso deve ser devido ao
fato de um mesmo navio ter sido observado mais de uma vez. Usando (4.7)
obtém-se σ̂ 2 = 1, 69, e corrigindo o componente do desvio padronizado de
modo que q
t∗Di = ±di /σ̂ 1 − ĥii ,

obtém-se um novo gráfico normal de probabilidades descrito na Figura 4.10,


em que os resı́duos estão melhor distribuı́dos dentro do envelope gerado.
O desvio corrigido fica dado por D∗ (y; µ̂) = D(y; µ̂)/σ̂ 2 = 38,69/1,69
= 22,89 (25 graus de liberdade), indicando um ajuste adequado. Deve-se
observar que tanto o resı́duo t∗Di como o desvio D∗ (y; µ̂) devem ser olha-
dos de maneira meramente descritiva uma vez que em modelos de quase-
verossimilhança a distribuição da resposta é em geral desconhecida. As esti-

344
mativas de máxima verossimilhança e os valores padronizados pelos respecti-
vos erros padrão aproximados, já multiplicados pelo fator σ̂, são apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredispersão
neste exemplo é causado particularmente por duas observações discrepantes
e sugere a inclusão da interação tipo*ano com pelo menos uma dessas ob-
servações excluı́das. Pela Tabela 4.10 nota-se que os navios de tipos B e C
são aqueles com uma incidência menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como também aqueles que ope-
raram de 75 a 79 apresentam uma inicidência maior de avarias por unidade
de tempo do que os demais.

Tabela 4.10
Estimativas dos parâmetros referentes ao modelo
log-linear de quase-verossimilhança ajustado
aos dados sobre avarias em navios de carga.
Efeito Estimativa E/E.Padrão
Constante -6,406 -22,69
Tipo
A 0,000 -
B -0,543 -2,36
C -0,687 -1,61
D -0,076 0,20
E 0,326 1,06
Ano
60-64 0,000 -
65-69 0,697 3,59
70-74 0,818 3,71
75-79 0,453 1,50
Perı́odo
60-74 0,000 -
75-79 0,384 2,50

345
4.5 Relação entre a multinomial e a Poisson
Supor agora que todas as unidades amostrais são acompanhadas durante
o mesmo perı́odo e que são classificadas segundo s nı́veis de exposição e r
grupos, conforme descrito abaixo.

Exposição
Grupo E1 E2 E3 · · · Es
G1 y11 y12 y13 · · · y1s
G2 y21 y22 y23 · · · y2s
···
Gr yr1 yr2 yr3 · · · yrs
ind
Supondo que Yij ∼ P(µij ), i = 1, . . . , r e j = 1, . . . , s, tem-se que
X n! a
P r{Y = a| Yij = n} = Πi,j πijij ,
i,j
Πi,j aij !

µij , Y = (Y11 , . . . , Yrs )> e a = (a11 , . . . , ars )> .


P
em que πij = µij /µ++ , µ++ = i,j

Considere o modelo log-linear de Poisson com parte sistemática dada por


log(µij ) = α + β1(i) + β2(j) + β12(ij) e restrições β1(1) = β2(1) = β12(1j) =
β12(i1) = 0, para i = 1, . . . , r e j = 1, . . . , s. Segue que
r X
X s
τ = µ++ = exp{α + β1(i) + β2(j) + β12(ij) }
i=1 j=1
Xr X s
α
= e exp{β1(i) + β2(j) + β12(ij) },
i=1 j=1

e pode-se definir as probabilidades


exp{β + β2(j) + β12(ij) }
πij = Pr Ps 1(i) ,
i=1 j=1 exp{β1(i) + β2(j) + β12(ij) }

em que o total do denominador é invariante com a parametrização utilizada


no modelo. Tem-se que as probabilidades πij0 s não dependem do parâmetro

346
α. Como será mostrado a seguir, a estimativa de máxima verossimilhança
do vetor β correspondente ao modelo multinomial coincide com a estimativa
de máxima verossimilhança para β = (β > > > >
1 , β 2 , β 12 ) referente ao modelo
log-linear de Poisson.
Por outro lado, se for ajustado um modelo multinomial do tipo log-linear
aos dados tal que

log(πij ) = α∗ + β1(i) + β2(j) + β12(ij) ,

πij = 1, que exp(α∗ ) = 1/


P P P
tem-se, devido à imposição i,j i j exp{β1(i) +
β2(j) + β12(ij) }, ou seja, α∗ = α − log(τ ). O que muda é a estimativa do
intercepto, embora na prática sempre seja possı́vel obter α∗ através de α e
vice-versa. Para mostrar a equivalência das estimativas considere a relação
abaixo
P r{Y = a; Y++ = n}
P r{Y = a|n} = ,
P r{Y++ = n}
P
em que Y++ = i,j Yij . Denotando Ly|n (β) = log{P r(Y = a|n)}, Ly (τ, β) =
log{P r(Y = a; Y++ = n)} e Ly++ (τ ) = log{P r(Y++ = n)} tem-se que

Ly (τ, β) = Ly++ (τ ) + Ly|n (β), (4.8)

em que
Ly++ (τ ) = −τ + y++ log(τ ) − log(y++ !)

e
X X
Ly|n (β) = log(n!) + aij log(πij ) − log(aij !).
i,j i,j

Portanto, maximizar Ly (τ, β) com relação a β é equivalente a maximizar


Ly|n (β) com relação a β. Isso quer dizer que as estimativas de máxima
verossimilhança para o vetor β são as mesmas sob o modelo log-linear multi-
nomial com probabilidades π11 , . . . , πrs e sob o modelo log-linear de Poisson

347
de médias µ11 , . . . , µrs . As matrizes de segundas derivadas com relação a β,
para os dois modelos, são tais que

∂ 2 Ly (τ, β) ∂ 2 Ly|n (β)


= .
∂β∂β > ∂β∂β >

Devido à linearidade em (4.8) segue que a matriz de informação observada


para (τ, β > )> é bloco-diagonal com elementos dados por −∂ 2 Ly (τ, β)/∂τ 2
e −∂ 2 Ly (τ, β)/∂β∂β > , respectivamente. Segue, portanto, que a matriz de
informação de Fisher será também bloco-diagonal com os valores esperados
das quantidades acima,
 n 2 o 
Ey − ∂ L∂τ
y (τ,β)
2 0
Kτ β =  n 2 o .
0 Ey − ∂ ∂β∂β
Ly (τ,β)
>

A variância assintótica de β̂ fica então dada por

Vary (β̂) = [Ey {−∂ 2 Ly (τ, β)/∂β∂β > }]−1 .

Palmgren (1981) mostra que Kτ β coincide com a matriz de informação ob-


servada sob a restrição τ = n.
Esses resultados podem ser generalizados para quaisquer dimensões de
tabelas bem como sob a presença de variáveis explicativas contı́nuas. A
variância assintótica de β̂ fica no modelo multinomial dada por
  2 −1
∂ Ly|n (β)
Vary|n (β̂) = Ey|n − ,
∂β∂β >
coincidindo com a variância assintótica do modelo não condicional sob a
restrição τ = n. Contudo, do ponto de vista prático, as variâncias assintóticas
de β̂ devem coincidir uma vez que a estimativa de máxima verossimilhança
de τ é dada por τ̂ = n.

348
4.5.1 Modelos log-lineares hierárquicos
Um modelo log-linear é dito hierárquico se dado que uma interação está
no modelo, todas as interações de ordem menor como também os efeitos
principais correspondentes deverão estar também no modelo. A utilização de
tais modelos tem a vantagem de permitir uma interpretação das interações
nulas como probabilidades condicionais. Em muitos casos estimativas dos
valores médios podem ser expressas em forma fechada, evitando assim a
utilização de processos iterativos.
Como ilustração, supor o modelo log-linear apresentado na seção anterior.
Pode-se mostrar que a hipótese H0 : β12(ij) = 0, ∀ij, é equivalente à hipótese
de independência na tabela, isto é H0 : πij = πi+ π+j , ∀ij. Dado que não há
interação, testar a ausência de efeito de exposição, isto é testar H0 : β1(i) = 0,
i = 1, . . . , r, é equivalente a testar H0 : π1+ = · · · = πr+ = 1/r. Finalmente,
dado que não há interação, testar a ausência de efeito de grupo, isto é testar
H0 : β2(j) = 0, j = 1, . . . , s, é equivalente a testar H0 : π+1 = · · · = π+s = 1/s.
Supor agora um modelo log-linear de Poisson com três fatores de r, s e t
nı́veis, respectivamente. Pode-se representar a parte sistemática do modelo
saturado da seguinte forma:

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) + β23(jk) + β123(ijk) , (4.9)

com as restrições β1(1) = β2(1) = β3(1) = 0, β12(1j) = β12(i1) = 0, β13(1k) =


β13(i1) = 0, β23(1k) = β23(j1) = 0, β123(1jk) = β123(i1k) = β123(ij1) = 0, para
i = 1, . . . , r; j = 1, . . . , s e k = 1, . . . , t. Há várias classes de modelos
hierárquicos que correspondem a situações de interesse na tabela de con-
tingência formada. Uma primeira classe corresponde à hipótese de ausência
de interação de segunda ordem, representada por H0 : β123(ijk) = 0, ∀ijk,
sendo equivalente à hipótese de associação entre dois fatores quaisquer ser

349
constante nos nı́veis do terceiro fator. Isso quer dizer, em outras palavras,
que a razão de produtos cruzados πijk πi0 j 0 k /πij 0 k πi0 jk , representando a asso-
ciação entre os nı́veis (i, j) e (i0 , j 0 ) dos dois primeiros fatores, é constante
nos nı́veis do terceiro fator. Se for omitido no modelo (4.9) a interação de
segunda ordem mais uma interação de primeira ordem, os dois fatores omi-
tidos correspondentes à interação de primeira ordem são independentes do
terceiro fator. Por exemplo, se for omitido β123(ijk) e β23(jk) , ∀ijk, ficando o
modelo com a parte sistemática

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) ,

os fatores 2 e 3 são independentes nos nı́veis do primeiro fator, ou equivalen-


temente, tem-se que

πijk = πij+ πi+k /πi++ , ∀ijk.

Se agora for omitido além de β123(ijk) e β23(jk) também β13(ik) , ∀ijk, ficando
a parte sistemática dada por

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) ,

o terceiro fator é independente dos dois primeiros, ou equivalentemente, tem-


se que
πijk = πij+ π++k , ∀ijk.

O modelo apenas com os efeitos principais, cuja parte sistemática é dada por

log(µijk ) = α + β1(i) + β2(j) + β3(k) ,

equivale à hipótese de independência entre os três fatores, isto é, tem-se que

πijk = πi++ π+j+ π++k , ∀ijk.

A Tabela 4.11 resume as três situações de independência para o modelo (4.9).

350
Tabela 4.11
Algumas interações em modelos log-lineares de Poisson.
Forma para πijk Interação Interpretação
πi++ π+j+ π++k nenhuma fatores mutuamente
independentes
πij+ π++k β12(ij) fatores 1 e 2 independentes
do fator 3
πij+ πi+k /πi++ β12(ij) + β13(ik) fatores 2 e 3 independentes
nos nı́veis do fator 1

Em muitos desses casos é possı́vel expressar as estimativas das probabilidades


πijk ’s em forma fechada. Uma análise mais completa de modelos hierárquicos
pode ser encontrada, por exemplo, Agresti (2013).

4.5.2 Aplicações
Associação entre renda e satisfação no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivı́duos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
satisfação no emprego. Denote por Yij o número de indivı́duos pertencentes
à classe de renda i com grau de satisfação j. Esses dados estão disponı́veis
no arquivo emprego.txt.

Tabela 4.12
Classificação de indivı́duos segundo a renda
e o grau de satisfação no emprego.
Grau de Satisfação
Renda (US$) Alto Bom Médio Baixo
<6000 20 24 80 82
6000-15000 22 38 104 125
15000-25000 13 28 81 113
>25000 7 18 54 92

351
2
Componente do Desvio

1
0
-1
-2
-3

-2 -1 0 1 2

Percentil da N(0,1)

Figura 4.11: Gráfico normal de probabilidades referente ao modelo log-linear


de Poisson ajustado aos dados sobre renda e satisfação no emprego.

Tabela 4.13
Estimativas dos parâmetros do modelo log-linear
de Poisson ajustado ao dados sobre renda e
satisfação no emprego.
Efeito Parâmetro Estimativa E/E.Padrão
Constante α 2,651 18,80
Renda 2 β1(2) 0,338 3,71
Renda 3 β1(3) 0,132 1,389
Renda 4 β1(4) -0,186 -1,81
Grau 2 β2(2) 0,555 3,49
Grau 3 β2(3) 1,638 11,87
Grau 4 β2(4) 1,894 13,93

Supor que Yij ∼ P(µij ) com parte sistemática inicialmente dada por (mo-
delo saturado)
log(µij ) = α + β1(i) + β2(j) + β12(ij) ,

352
em que µij denota o número esperado de indivı́duos pertencentes à classe
de renda i com grau de satisfação j, β1(i) denota o efeito renda, β2(j) de-
nota o efeito satisfação e β12(ij) denota a interação. Tem-se as restrições
β1(1) = β2(1) = 0. O teste da razão de verossimilhanças para testar H0 :
β12(ij) = 0, ∀ij (ausência de interação) fornece o valor ξRV = 12, 04 com nı́vel
descritivo P= 0, 21, indicando pela ausência de interação ou independência
entre os dois fatores. Denotando por πij a proporção de indivı́duos na classe
de renda i e grau de satisfação j, não rejeitar H0 é equivalente a escrever
πij = πi+ π+j , ∀ij, em que πi+ denota a proporção de indivı́duos na classe
de renda i e π+j denota a proporção de indivı́duos com grau de satisfação
j. Ou seja, tem-se independência entre renda e satisfação no emprego. Isso
significa que a distribuição do grau de satisfação no emprego é mesma em
todos as faixas de renda.
A Tabela 4.13 apresenta as estimativas dos parâmetros do modelo com
efeitos principais. Os fatores renda e grau de satisfação são altamente signi-
ficativos. Nota-se pelas estimativas dos parâmetros que há uma proporção
maior de indivı́duos na classe de renda 2 (6000-15000) e uma proporção me-
nor na classe de renda 4 (>25000). Por outro lado, nota-se que a proporção
de indivı́duos cresce com o aumento do grau de satisfação. O desvio do mo-
delo foi de D(y; µ̂) = 12, 04 (9 graus de liberdade) com nı́vel descritivo de
P= 0, 21, indicando um ajuste adequado.
Pelo gráfico normal de probabilidades com o resı́duo componente do des-
vio tDi , descrito na Figura 4.11, não há indı́cios fortes de que o modelo
adotado seja incorreto, embora o fato dos resı́duos negativos estarem abaixo
da reta mediana e os resı́duos positivos ligeiramente acima seja uma indı́cio
de sobredispersão nos dados. Assim, um modelo log-linear com resposta
binimoail negativa poderia levar a um ajuste mais adequado;

353
3
2

2
Componente do Desvio

Componente do Desvio

1
1

0
0

-1
-1

-2
-2

-3
-3

-2 -1 0 1 2 -2 -1 0 1 2

Percentil da N(0,1) Percentil da N(0,1)


(a) (b)

Figura 4.12: Gráficos normais de probabilidades referentes ao modelo log-


linear de Poisson (a) e log-linear de quase-verossimilhança (b) ajustados aos
dados sobre doença das coronárias.

Doença das coronárias


Considere agora os dados da Tabela 4.14 (Everitt, 1977) referente à classi-
ficação de 1330 pacientes segundo três fatores: doença das coronárias (sim
ou não), nı́vel de colesterol (1: menor do que 200 mg/100 cc, 2: 200-219,
3: 220-259 e 4: 260 ou +) e pressão arterial (1: menor do que 127 mm Hg,
2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados estão também descritos
no arquivo heart.txt. Denote por Yijk o número de pacientes nos nı́veis
(i, j, k) dos três fatores: doença das coronárias, nı́vel de colesterol e pressão
arterial, respectivamente. Supor que Yijk ∼ P(µijk ) com parte sistemática
inicialmente dada por (modelo saturado)

log(µijk ) = α + β1(i) + β2(j) + β3(k) + β12(ij) + β13(ik) + β23(jk) + β123(ijk) ,

354
Tabela 4.14
Distribuição de 1330 pacientes segundo
ocorrência de doença das coronárias,
nı́vel de colesterol e pressão arterial.
Doença das Nı́vel de Pressão arterial
coronárias colesterol 1 2 3 4
1 2 3 3 4
Sim 2 3 2 1 3
3 8 11 6 6
4 7 12 11 11

1 117 121 47 22
Não 2 85 98 43 20
3 119 209 68 43
4 67 99 46 33

em que µijk denota o número esperado de indivı́duos pertencentes aos


nı́veis (i, j, k), respectivamente, β1(i) denota o efeito doença das coronárias,
β2(j) denota o efeito nı́vel de colesterol, β3(k) denota o efeito pressão arte-
rial e β12(ij) , β13(ik) , β23(jk) e β123(ijk) são as interações de 1a e 2a ordens,
respectivamente, com as restrições dadas na Seção 4.4.1.

Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doença das coronárias.
(D:doença, C:colesterol e P:pressão)
Efeito Desvio g.l. Diferença g.l.
D+C+P 78,96 24 - -
+ D.C 48,51 21 30,45 3
+ D.P 24,40 18 24,10 3
+ C.P 4,77 9 19,63 9

Pela Tabela 4.15 nota-se que, segundo o princı́pio hierárquico, apenas


a interação de segunda ordem pode ser eliminada. A inclusão dos efeitos

355
principais é altamente significativa. Dado que os efeitos principais estão no
modelo, a inclusão da interação doença*colesterol (β12(ij) ) leva a ξRV = 30, 45
(3 graus de liberdade) com P= 0, 00. Dado que essa interação está no modelo,
a inclusão da interação doença*pressão (β13(ik) ) fornece ξRV = 24, 10 (3 graus
de liberdade) com P= 0, 00. Finalmente, dadas as duas interações de primeira
ordem, a inclusão da interação remanescente, colesterol*pressão, leva a ξRV =
19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do modelo (4.9) sem a
interação de segunda ordem é de D(y; µ̂) = 4, 77 (9 graus de liberdade) para
um nı́vel descritivo de P= 0, 853, indicando um ajuste adequado.
A ausência de interação de segunda ordem neste exemplo significa que as
razões de chances (entre os nı́veis de colesterol ou entre os nı́veis de pressão
arterial) são as mesmas nos grupos de doentes e não doentes. Contudo,
o gráfico normal de probabilidades descrito na Figura 4.12a indica que os
resı́duos negativos estão acima da média esperada, ocorrendo o contrário
com os resı́duos positivos, embora todos sejam em geral pequenos. Isso é
um indı́cio modesto de subdispersão, fenômeno que também pode ocorrer
em modelos de Poisson. Um modelo de quase-verossimilhança similar ao que
foi usado no exemplo da Seção 4.2.6 leva à estimativa σ̂ 2 = 0, 53. Na Figura
4.12b tem-se o gráfico normal de probabilidades com o resı́duo componente
do desvio corrigido pela estimativa de dispersão. Nota-se que os resı́duos
estão melhor distribuı́dos dentro do envelope gerado.

4.6 Modelos com excesso de zeros


4.6.1 Modelos ajustados em zero
Os modelos de contagem ajustados em zero são também conhecidos como
modelos de barreira (ver, por exemplo, Mullaby, 1986). Para formalizá-los

356
vamos supor que Z é uma variável aleatória com função de probabilidades
dada por
(
π se z = 0,
P {Z = z} = fY (z)
(1 − π) {1−fY (0)} se z = 1, 2, . . . ,

em que 0 < π < 1 e fY (z) denota a função de probabilidades de uma variável


aleatória Y de contagem, por exemplo, Poisson ou binomial negativa. Por-
tanto, desde que ∞
P
z=1 fY (z) = 1 − fY (0), segue que

X
P {Z ≥ 1} = (1 − π) fY (z)/{1 − fY (0)}
z=1
= (1 − π){1 − fY (0)}/{1 − fY (0)}
= 1 − π.
P∞
Logo, y=0 P {Z = z} = π + (1 − π) = 1. Um exemplo poderia ser Z
denotando o número de dias que pacientes dependendes de álcool que estão
fazendo tratamento consumiram a bebida. O zero representa os pacientes que
ficaram em abstinência no perı́odo mas que poderiam ter consumido alcool.
Um outro exemplo poderia ser estudar o número de vezes que um idoso visita
um médico no perı́odo de 1 ano. Os zeros são aqueles idosos que naquele ano
não precisaram ir ao médico. Os fatores que explicam a probabilidade de zero
podem ser diferentes daqueles que explicam a probabilidade de ocorrência do
evento.
Os dois primeiros momentos de Z ficam dados por

X fY (z)
E(Z) = z(1 − π)
z=1
{1 − fY (0)}

(1 − π) X
= zfY (z)
{1 − fY (0)} z=1
E(Y )(1 − π)
=
{1 − fY (0)}

357
e

2
X fY (z)
E(Z ) = z 2 (1 − π)
z=1
{1 − fY (0)}

(1 − π) X 2
= z fY (z)
{1 − fY (0)} z=1
E(Y 2 )(1 − π)
= .
{1 − fY (0)}
Daı́ segue que
E2 (Y )(1 − π)
 
(1 − π) 2
Var(Z) = E(Y ) − .
{1 − fY (0)} {1 − fY (0)}

Iremos denotar Z ∼ ZAP(λ, π) para o modelo de Poisson ajustado em


zero e Z ∼ ZANB(λ, φ, π) para o modelo binomial negativo ajustado em zero.
Logo, se Y ∼ P(λ) então fY (y) = e−λ λy /y! e em particular fY (0) = e−λ . Para
Y ∼ BN(λ, φ) temos que
 y  φ
Γ(φ + y) λ φ
fY (y) = ,
Γ(y + 1)Γ(φ) λ+φ λ+φ

em particular fY (0) = φφ /(λ + φ)φ .

4.6.2 Modelos de regressão ajustados em zero


Vamos supor agora que Z1 , . . . , Zn são variáveis aleatórias independentes com
distribuição de Poisson ou binomial negativa ajustadas em zero. Então,
(
πi se zi = 0,
P {Zi = zi } = fYi (zi )
(1 − πi ) {1−fY (0)} se zi = 1, 2, . . . ,
i

para i = 1, . . . , n. O logaritmo da função de verossimilhança fica dado por


L= ni=1 logfZi (zi ), em que logfZi (0) = logπi e logfZi (zi ) = log(1 − πi ) +
P

logfYi (zi ) − log{1 − fYi (0)} para zi = 1, 2, . . . .

358
Por exemplo, se assumimos que Zi ∼ ZAP(λi , π) em que λi = exi β e
>

µi = E(Zi ), então segue que


E(Yi )(1 − π)
µi =
{1 − fY (0)}
λi (1 − π)
=
{1 − e−λi }
exi β (1 − π)
>

= .
[1 − exp{−exp(x> i β)}]

Portanto,

logµi = x> >


i β + log(1 − π) − log[1 − exp{−exp(xi β)}].

4.6.3 Modelos inflacionados de zeros


Os modelos de contagem inflacionados de zeros (ver, por exemplo, Lambert,
1992) são caracterizados pela ocorrência de zeros em duas situações: (i) ze-
ros que ocorrem segundo uma distribuição de contagem ou (ii) zeros inflados
que podem ser zeros estruturais. Por exemplo, podemos estar interessados
em estudar o número de dias num perı́odo que um indivı́duo consumiu um
determinado produto. Aqueles indivı́duos que não consomem o produto por
alguma razão, por exemplo intolerância ao produto, serão tratadas como
zeros estruturais e aqueles indivı́duos que não consumiram o produto no
perı́odo, mas podem vir a consumı́-lo, como zeros eventuais que serão asso-
ciados a alguma distribuição de contagem Y . Um outro exemplo poderia ser
o estudo do número de vezes que um indı́viduo contraiu um tipo de infecção
num determinado perı́odo. Aqueles indivı́duos imunes à infecção seriam tra-
tados como zeros inflados. Nesses casos, a variável aleatória Z tem função
de probabilidades expressa na seguinte forma:

π + (1 − π)fY (0) se z = 0,
P {Z = z} =
(1 − π)fY (z) se z = 1, 2, . . . ,

359
em que 0 < π < 1 e fY (z) denota a função de probabilidades de uma
variável aleatória Y , por exemplo, Poisson ou binomial negativa. Desde que
P∞ P∞
z=1 fY (z) = 1 − fY (0) obtemos z=0 P {Z = z} = π + (1 − π)fY (0)} + (1 −

π){1 − fY (0)} = π + (1 − π) = 1.
Os dois primeiros momentos de Y ficam dados por

X
E(Z) = z(1 − π)fY (z)
z=1

X
= (1 − π) zfY (z)
z=1
= (1 − π)E(Y )

e

X
2
E(Z ) = z 2 (1 − π)fY (z)
z=1

X
= (1 − π) z 2 fY (z)
z=1
= (1 − π)E(Y 2 ).

Assim,

Var(Z) = E(Z 2 ) − E2 (Z)


= (1 − π)E(Y 2 ) − (1 − π)2 E2 (Y )
= (1 − π){E(Y 2 ) − (1 − π)E2 (Y )}.

Iremos denotar Z ∼ ZIP(λ, π) para a distribuição de Poisson inflacio-


nada de zeros e por Z ∼ ZINB(λ, φ, π) para a distribuição binomial negativa
inflacionada de zeros.

360
4.6.4 Modelos de regressão inflacionados de zeros
Vamos supor agora que Z1 , . . . , Zn são variáveis aleatórias independentes com
distribuição de Poisson ou binomial negativa inflacionadas de zeros. Então,

πi + (1 − πi )fY (0) se zi = 0,
P {Zi = zi } =
(1 − πi )fY (zi ) se zi = 1, 2, . . . ,

para i = 1, . . . , n. O logaritmo da função de verossimilhança fica dado por


L= ni=1 logfZi (zi ), em que logfZi (0) = log{πi +(1−πi )fYi (0)} e logfZi (zi ) =
P

log(1 − πi ) + logfYi (zi ) para zi = 1, 2, . . ..


Por exemplo, podemos supor que Yi ∼ P(λi ) com λi = exi β e log{πi /(1−
>

πi )} = u>
i γ. Dessa forma segue que µi = E(Zi ) fica expresso como

µi = (1 − πi )E(Yi )
= (1 − πi )λi
( )
eui γ
>

= 1− e i β
x>
1+e u >
i γ

exi β
>

= .
{1 + eui γ }
>

Isto é,
logµi = x> i γ }.
u>
i β − log{1 + e

Os modelos de contagem ajustados em zero e inflacionados de zeros podem


ajustados, por exemplo, pela bibilioteca pscl (Zeileis et al. 2008) do R.

4.7 Exercı́cios
1. Seja Y uma variável aleatória com distribuição binomial negativa, isto
é, Y é o número de ensaios até a ocorrência do r-ésimo sucesso, em que
π é a probabilidade de sucesso em cada ensaio. Mostre que a função de

361
probabilidades de Y pode ser expressa na forma exponencial. Calcule
µ e V (µ). Use a forma abaixo para a função de probabilidades de Y
 
y−1 r
f (y; π, r) = π (1 − π)(y−r) ,
r−1
em que y = r, r+1, . . .. Obtenha a função desvio supondo uma amostra
de n variáveis aleatórias independentes de probabilidades de sucesso πi .

2. Seja Y variável aleatória com distribuição binomial negativa biparamétrica


de média µ e parâmetro de forma ν, cuja função de probabilidades é
dada por
 y  ν
Γ(ν + y) µ ν
f (y; µ, ν) = ,
Γ(y + 1)Γ(ν) µ+ν µ+ν
em que µ > 0, ν > 0 e y = 0, 1, 2, . . . . Mostre que para ν conhecido
a distribuição de Y pertence à famı́lia exponencial de distribuições.
Encontrar a função de variância. Obtenha a função desvio supondo
uma amostra de n variáveis aleatórias independentes de médias µi e
parâmetro de dispersão ν.

3. Sejam Y1 e Y2 variáveis aleatórias independentes tais que Yi ∼ P(λi ),


i = 1, 2. Considere a razão de taxas ψ = λ1 /λ2 . Encontre a variância
assintótica de ψ̃, VarA (ψ̃).

4. (Breslow e Day, 1987). A tabela abaixo apresenta o número de mortes


por câncer respiratório e o número de pessoas-anos de observação entre
trabalhadores de indústrias siderúrgicas do estado de Montana (EUA)
segundo o nı́vel de exposição ao arsênico.

Nı́vel de Exposição
Alto Baixo
Casos 68 47
Pessoas-Anos 9018 13783

362
Sejam Y1 e Y2 o número de casos observados para o nı́vel alto e baixo de
arsênico, respectivamente. Suponha que Yi ∼ P(λi ti ), em que ti denota
o número de pessoas-anos, i = 1, 2. Considere a razão de taxas ψ =
λ1 /λ2 . Encontre ψ̃ e um intervalo de confiança exato de 95% para ψ.
Com base neste intervalo qual sua conclusão sobre a hipótese H0 : ψ =
1? Informações úteis: F136,96 (0, 025) = 0, 694 e F138,94 (0, 975) = 1, 461.

5. (Neter et al., 1996, p. 623). No arquivo geriatra.txt estão descritos


os dados de um estudo prospectivo com 100 indivı́duos de pelo menos
65 anos de idade em boas condições fı́sicas. O objetivo do estudo é
tentar relacionar o número médio de quedas num perı́odo de seis me-
ses com algumas variáveis explicativas. Os dados estão descritos na
seguinte ordem: quedas (número de quedas no perı́odo), intervenç~
ao
(=0 educação somente, =1 educação e exercı́cios fı́sicos), sexo (=0 fe-
minino, =1 masculino), balanço (escore) e força (escore). Para as
variáveis balanço e força quanto maior o valor maior o balanço e a
força do indivı́duo, respectivamente. Tente selecionar um modelo apro-
priado apenas com os efeitos principais. Interprete os resultados e faça
uma análise de diagnóstico.

6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.txt


são provenientes de um estudo de seguimento para estudar a associação
entre a taxa anual de câncer nasal em trabalhadores de uma refinaria de
nı́quel no Paı́s de Gales e algumas variáveis explicativas: idade no pri-
meiro emprego (4 nı́veis), ano do primeiro emprego (4 nı́veis) e tempo
decorrido desde o primeiro emprego (5 nı́veis). São também apresenta-
dos o número de casos de câncer nasal e o total de pessoas-anos para
cada combinação desses três fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o número de casos de câncer nasal com

363
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos três fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Veri-
fique se é possı́vel incluir alguma interação de primeira ordem. Faça
uma análise de diagnóstico com o modelo final e interprete os resul-
tados, por exemplo, fazendo uma comparação das taxas estimadas de
câncer nasal entre os nı́veis de um mesmo fator.

7. (Hinde, 1982). No arquivo rolos.txt são apresentados os dados refe-


rentes à produção de peças de tecido numa determinada fábrica. Na
primeira coluna tem-se o comprimento da peça (em metros) e na se-
gunda coluna o número de falhas. Faça inicialmente um gráfico do
número de falhas contra o comprimento da peça. Ajuste um modelo
log-linear de Poisson apropriado. Faça uma análise de resı́duos e ve-
rifique se há indı́cios de sobredispersão. Em caso afirmativo ajuste
um modelo de quase-verossimilhança e um modelo log-linear com dis-
tribuição binomial negativa. Interprete os resultados pelas razões de
médias µ(x + 1)/µ(x), em que x denota o comprimento da peça.

8. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ P(µi )


e parte sistemática dada por ηi = pj=1 xij βj tal que ni=1 xij xi` = 0,
P P

para j 6= `. Ou seja, as colunas da matriz modelo X são ortogonais.


Encontre a ligação que faz com que Corr(β̂j , β̂` ) = 0, para j 6= `.
Comente sobre as vantagens desse resultado.

9. Considere um experimento em que duas máquinas, M1 e M2, são ob-


servadas durante o mesmo perı́odo sendo computados para cada uma
o número de peças defeituosas produzidas, conforme descrito pelo es-
quema abaixo.

364
M1 M2
P. Defeituosas y1 y2

Suponha que Y1 ∼ P(λ1 ) e Y2 ∼ P(λ2 ) e considere o modelo log-linear


logλ1 = α e logλ2 = α + β. Obtenha a variância assintótica de β̂,
Vary (β̂), expressando-a em função de α e β. Proponha agora um mo-
delo binomial condicional, dado Y1 + Y2 = m. Expresse a probabilidade
de sucesso π em função de β. Interprete π e encontre a variância as-
sintótica de β̂, Vary|m (β̂). Mostre que as duas variâncias assintóticas
estimadas coincidem e são dadas por

(1 + eβ̂ )2
V̂ar(β̂) = ,
meβ̂
em que β̂ é o estimador de máxima verossimilhança de β. Comente.

10. Supor Y1 , . . . , Yn variáveis aleatórias independents tais que Yi ∼ P(µi )



e seja µi = α + β(xi − x̄), em que x̄ é a média amostral de x1 , . . . , xn .
(i) Obtenha a matriz modelo X. (ii) Calcule as variâncias assintóticas
Var(α̂) e Var(β̂). (iii) Mostre também que Cov(α̂, β̂) = 0 e comente.
(iv) Como fica o teste de escore para testar H0 : β = 0 contra H1 : β 6=
0? Qual a distribuição nula assintótica da estatı́stica do teste?

11. Sejam Yij variáveis aleatórias mutuamente independentes tais que Yij ∼
BN(µi , ν) para i = 1, 2 e j = 1, . . . , m com parte sistemática dada por
µ1 = α −β e µ2 = α +β. (i) Como fica a matriz modelo X? (ii) Calcule
Var(β̂) e (iii) mostre que a estatı́stica de escore para testar H0 : β = 0
contra H1 : β 6= 0 pode ser expressa na forma
mν̂ 0 (ȳ2 − ȳ1 )2
ξSR = ,
2ȳ (ȳ + ν̂ 0 )
em que ȳ = (ȳ1 + ȳ2 )/2 e ν̂ 0 denota a estimativa de ν sob H0 .

365
12. Sejam Y1 , . . . , Yn variáveis aleatórias independentes tais que Yi ∼ BN(µi , ν)
P
xi
com parte sistemática dada por logµi = α + β(xi − x̄) em que x̄ = n
.
(i) Como fica a matriz modelo X? (ii) Obtenha Var(β̂). (iii) Como fica
o teste de escore para testar H0 : β = 0 contra H1 : β 6= 0? Qual a
distribuição nula assintótica da estatı́stica do teste?

13. Sejam Y1 , . . . , Yn variáveis i.i.d. tais que Yi ∼ BN(µ, φ), i = 1, . . . , n.


Como fica o teste da razão de verossimilhanças para testar H0 : φ = 1
contra H1 : φ 6= 1? Qual a distribuição nula assintótica da estatı́stica
do teste? Como fica a estimativa de µ sob as duas hipóteses?

14. Na tabela abaixo uma amostra de 174 alunos de Estatı́stica Básica no


IME-USP foi classificada segundo o curso e o desempenho na disciplina.

Resultado da Avaliação
Curso Aprovado Reprovado Reavaliação
Pedagogia 32 16 3
Geografia 32 18 10
Fı́sica 35 14 14

Ajustar um modelo log-linear de Poisson para explicar πij , a proporção


de alunos do curso i com resultado j, em que i, j = 1, 2, 3. Interprete
os resultados e faça uma análise de diagnóstico.

15. (Hand et al., 1994). No arquivo recrutas.txt são descritos os resul-


tados de um estudo desenvolvido em 1990 com recrutas americanos
referente a associação entre o número de infeções de ouvido e alguns
fatores. Os dados são apresentados na seguinte ordem: hábito de nadar
(ocasional ou frequente), local onde costuma nadar (piscina ou praia),
faixa etária (15-19, 20-25 ou 25-29), sexo (masculino ou feminino) e

366
número de infecções de ouvido diagnosticadas pelo próprio recruta. Ve-
rifique qual dos modelos, log-linear de Poisson, quase-verossimilhança
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
métodos de diagnóstico como critério.

16. Supor, por um lado, o modelo log-linear de Poisson em que Yi ∼ P(µi ),


i = 1, 2, 3, em que logµ1 = α, logµ2 = α + β2 e logµ3 = α + β3 . Fazendo
τ = µ1 +µ2 +µ3 expresse o logaritmo da função de verossimilhança desse
modelo em função de (τ, β2 , β3 ). Mostre que a matriz de informação de
Fisher é bloco diagonal Kτ β = diag{Kτ , Kβ }, em que β = (β2 , β3 )> .
Por outro lado, sabe-se que a distribuição condicional Y = a|Y1 + Y2 +
Y3 = n, em que Y = (Y1 , Y2 , Y3 )> e a = (a1 , a2 , a3 )> , é multinomial
M (a1 , a2 , a3 ; π1 , π2 , π3 ). Supor o modelo log-linear logπ1 = α∗ , logπ2 =
α∗ + β2 e logπ3 = α∗ + β3 , em que α∗ = −log(1 + eβ2 + eβ3 ) devido
à restrição π1 + π2 + π3 = 1. Encontre a matriz de informação de
Fisher K∗β para β = (β2 , β3 )> no modelo multinomial. Mostre que
as estimativas de máxima verossimilhança para β coincidem nos dois
modelos log-lineares. Mostre também que Kβ = K∗β quando τ = n,
comente.

17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apre-


senta o resultado de uma pesquisa em que 1008 pessoas receberam
duas marcas de detergente, X e M, e posteriormente responderam às
seguintes perguntas: maciez da água (leve, média ou forte); uso an-
terior do detergente M (sim ou não); temperatura da água (alta ou
baixa); preferência (marca X ou marca M). Esses dados estão descritos
no arquivo detergente.txt.

367
Maciez
Temperatura Uso de M Preferência Leve Média Forte
Alta Sim X 19 23 24
M 29 47 43
Não X 29 33 42
M 27 23 30
Baixa Sim X 57 47 37
M 49 55 52
Não X 63 66 68
M 53 50 42

Ajustar um modelo log-linear de Poisson para explicar πijk` , a pro-


porção de indivı́duos que responderam, respectivamente, nı́vel de tem-
peratura (i=1 alta, i=2 baixa), uso prévio de M (j=1 sim, j=2 não),
preferência (k=1 X, k=2 M) e nı́vel de maciez (` = 1 leve, ` = 2
médio, ` = 3 forte). Selecionar através do método AIC os efeitos prin-
cipais significativos. Depois incluir apenas as interações significativas
de primeira ordem. Interpretar os resultados e fazer uma análise de
diagnóstico.

18. Supor que Yij ∼ P(µij ), para i = 1, . . . , r e j = 1, . . . , c, com parte


sistemática dada por

logµij = α + βi + γj ,

em que β1 = γ1 = 0. Supor ainda que os βi ’s referem-se aos efeitos


do fator A e os γj ’s aos efeitos do fator B. Defina um modelo multi-
nomial equivalente e mostre que a representação acima corresponde à
independência (no sentido probabilı́stico) entre os fatores A e B.

19. Seja o modelo trinomial em que π0 = P r(Y = 0), π1 = P r(Y = 1) e


π2 = P r(Y = 2) com a restrição π0 + π1 + π2 = 1. Suponha que Y = 0

368
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2
se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
função de probabilidades de (Z0 , Z1 , Z2 ) fica dada por

g(z0 , z1 , z2 ; π0 , π1 , π2 ) = π0z0 π1z1 π2z2 .

Logo, para uma amostra aleatória de tamanho n a função de probabi-


lidades de Y = (Y1 , . . . , Yn )> pode ser expressa na forma

z0i z1i z2i


g(y; π 0 , π 1 , π 2 ) = Πni=1 π0i π1i π2i .

É usual considerar a parte sistemática


   
π1i > π2i
log = η1i = xi β 1 e log = η2i = x>
i β2
π0i π0i
sendo que xi = (xi1 , . . . , xip )> , β 1 = (β11 , . . . , β1p )> e β 2 = (β21 , . . . , β2p )> .
Responda aos itens abaixo:

(a) Verifique que π0i = {1 + eη1i + eη2i }−1 , π1i = eη1i /{1 + eη1i + eη2i }
e π2i = eη2i /{1 + eη1i + eη2i }.

(b) Encontre as funções escore Uβ1 e Uβ2 de β 1 e β 2 , respectivamente.

(c) Encontre a matriz de informação de Fisher para β = (β > > >


1 , β2 ) .

(d) Desenvolva um processo iterativo para obter a estimativa de máxima


verossimilhança de β. Deixe o processo iterativo em forma matri-
cial. Como iniciá-lo?

(e) Como fica o desvio do modelo? E o resı́duo componente do desvio?


iid
20. Supor que Zi ∼ ZAP(µ, π), para i = 1, . . . , n. Obtenha as estimativas
de máxima verossimilhança µ̂ e π̂ e a matriz de informação de Fisher
para (µ, π). Sugestão: supor que o total de zeros na amostra segue
uma B(n, π).

369
iid
21. Supor que Zi ∼ ZANBI(µ, ν, π), para i = 1, . . . , n, em que a função de
probabilidades de zi fica dada por
(
π se zi = 0
fz (zi ; µ, ν, π) = fy (zi ;µ,ν)
(1 − π) 1−fy (0;µ,ν) se zi = 1, 2, . . . ,

em que fy (yi ; µ, ν) denota a função de probabilidades de uma BN(µ, ν).


Supondo ν = 1 obter a estatı́stica da razão de verossimilhanças para
testar H: µ = 1 contra A: µ 6= 1?

22. (Lang et al., 1994). No arquivo nitrofen.txt estão descritos os dados


de um experimento com uma amostra de 50 C.dubia (pequeno animal
invertebrado aquático de água doce), que foram submetidos a dosagens
diferentes do herbicida Nitrofen: 0, 80, 160, 235 e 310 mg/`. Para
cada nı́vel de Nitrofen 10 animais ficaram expostos e foi observado o
total de ovos eclodidos após 3 ninhadas. Faça inicialmente uma análise
descritiva dos dados, por exemplo um diagrama de dispersão entre o
número de ovos eclodidos (tovos) contra o nı́vel de exposição do her-
bicida (dose). Compare os ajustes de alguns modelos com resposta
de Poisson para explicar o total de ovos eclodidos dado o nı́vel de ex-
posição. Escolha o melhor ajuste através de métodos de diagnóstico.
Para o modelo selecionado faça uma interpretação dos coeficientes es-
timados.
iid
23. Supor que Zi ∼ ZAP(µ, π), em que π = eα /(1 + eα ), para i = 1, . . . , n.
Obtenha a estimativa de máxima verossimilhança α̂ bem como Var(α̂).
Como fica a estatı́stica do teste da razão de verossimilhanças para testar
H0 : α = 0 contra H1 : α 6= 0?

24. Supor que Yi são variáveis aleatórias iid Poisson truncada em zero com

370
função de probabilidades dada por

e−λ λyi
f (yi ; λ) = ,
yi !(1 − e−λ )
para yi = 1, 2, . . ., em que λ > 0 e i = 1, . . . , n. Mostre que Uλ =
n
λ
{ȳ − λeλ /(eλ − 1)}, obtenha Kλλ e apresente o procedimento iterativo
escore de Fisher para obter µ̂.

371
Capı́tulo 5

Modelos de
Quase-Verossimilhança

5.1 Introdução
Wedderburn (1974) propôs uma função biparamétrica, denominada função de
quase-verossimilhança, que engloba algumas funções de verossimilhança da
famı́lia exponencial. Todavia, na maioria das situações não é possı́vel através
da função de quase-verossimilhança recuperar a verdadeira distribuição da
variável resposta. Se Y é a variável aleatória de interesse o logaritmo da
função de quase-verossimilhnaça é definido por
Z µ
1 y−t
Q(µ; y) = 2 dt,
σ y V (t)
em que V (t) é uma função positiva e conhecida, −∞ < y, µ < ∞ e σ 2 > 0 é
um parâmetro de dispersão. Como temos acima uma integral definida, segue
que
∂Q(µ; y) y−t µ
= |
∂µ σ 2 V (t) y
y−µ
= .
σ 2 V (µ)
Aplicando as condições abaixo de regularidade

372
n o
∂Q(µ;Y )
(i) E ∂µ
=0 e
n o2  n o
∂Q(µ;Y ) ∂ 2 Q(µ;Y )
(ii) E ∂µ
= −E ∂µ2
,

mostra-se facilmente que E(Y ) = µ e Var(Y ) = σ 2 V (µ). Ou seja, µ é a


média da variável resposta e a variância de Y é proporcional a V (µ), como
nos MLGs, embora nem sempre V (µ) seja uma função de variância. Uma
terceira propriedade mostrada por Wedderburn (1974) é a seguinte:
n 2 o n 2 o
∂ Q(µ;Y ) ∂ L(µ;Y )
(iii) −E ∂µ2
≤ −E ∂µ2
.

Essa relação mostra que a informação a respeito de µ quando se conhece


apenas a relação entre a variância e a média é menor do que a informação
a respeito de µ quando se conhece a distribuição da resposta (informação de
Fisher). Assim, a quantidade E{∂ 2 (Q − L)/∂µ2 } pode ser interpretada como
o ganho quando acrescenta-se ao conhecimento da relação média-variância
também o conhecimento da distribuição da resposta.
Dependendo das especificações de σ 2 e V (µ) poderemos recuperar a dis-
tribuição de Y . Abaixo são apresentados alguns exemplos.

Exemplos
Normal
Vamos supor V (t) = 1 e −∞ < t, y < ∞. Logo, o logaritmo da função de
quase-verossimilhança fica dado por
Z µ
y−t (y − t)2 µ (y − µ)2
Q(µ; y) = dt = − |y = − ,
y σ2 2σ 2 2σ 2

que é proporcional ao logaritmo da função de verossimilhança de uma N (µ, σ 2 )


para σ 2 conhecido.

373
Poisson
Vamos supor V (t) = t e y ≥ 0, t > 0. Logo, obtemos
Z µ
y−t
Q(µ; y) = dt
y σ2t
1
= (ylogt − t)|µy
σ2
1
= {ylogµ − µ − ylogy + y}.
σ2
Se assumirmos σ 2 = 1 e y > 0 temos que Q(µ; y) é proporcional ao logaritmo
da função de verossimilhança de uma P(µ).
Para y = 0 obtemos
µ
−t −t
Z
µ
Q(µ; y) = 2
dt = 2 |µ0 = − 2 ,
0 σ t σ σ

que coincide quando σ 2 = 1 com logP (Y = 0), em que Y ∼ P(µ).

Binomial
Supor a função V (t) = t(1 − t), 0 ≤ y ≤ 1 e 0 < t < 1. O logaritmo da
função de quase-verossimilhança fica nesse caso dado por

µ
y−t
Z
Q(µ; y) = dt
y σ 2 t(1
− t)
Z µ Z µ
y 1 1 1
= 2
dt − 2 dt
σ y t(1 − t) σ y (1 − t)
 
y t 1
= 2
log |µy + 2 log(1 − t)|µy
σ 1−t σ
y 1
= 2
[log{µ(1 − µ) − log{y/(1 − y)}] + 2 {log(1 − µ) − log(1 − y)},
σ σ
para 0 < y, µ < 1.

374
Para y = 0 temos que
µ
−t
Z
Q(µ; y) = 2
dt
0 σ t(1 − t)
Z µ
1 t
= − 2 dt
σ 0 t(1 − t)
1
= log(1 − t)|µ0
σ2
1
= log(1 − µ),
σ2
que para σ 2 = 1 coincide com logP (Y = 0), em que Y ∼ Be(µ).
Quando y = 1 segue que
µ
(1 − t)
Z
Q(µ; y) = dt
1 σ 2 t(1
− t)
Z µ
1 1
= 2
σ 1 t
1
= 2
logt|µ1
σ
1
= logµ,
σ2
que para σ 2 = 1 coincide com logP (Y = 1), em que Y ∼ Be(µ).

Gama
Supor a função V (t) = t2 e y, t > 0. O logaritmo da função de quase-
verossimilhança fica nesse caso dado por
Z µ
y−t
Q(µ; y) = dt
y σ 2 t2
1
= (−y/t − logt)|µy
σ2
1
= {−y/µ − logµ + 1 + logy}.
σ2
Para σ 2 conhecido temos que Q(y; µ) é proporcional ao logaritmo da função
de verossimilhança de uma G(µ, φ), em que φ = 1/σ 2

375
Função V (t) = t2 (1 − t)2
Suponha 0 < t < 1 e 0 ≤ y ≤ 1. Nesse caso o logaritmo da função de
quase-verossimilhança fica dada por
Z µ
1 y−t
Q(µ; y) = dt
σ y t (1 − t)2
2 2

1
∝ [(2y − 1)log{µ/(1 − µ)} − y/µ − (1 − y)/(1 − µ)].
σ2
A função Q(µ; y) obtida acima não corresponde a nenhuma função com ve-
rossimilhança conhecida. Portanto, apenas para algumas funções de quase-
verossimilhança tem-se uma função de verossimilhança correspondente.
Em particular, para as funções V (t) = t3 , t > 0, V (t) = t(1 + t), t > 0 e
V (t) = e−t , t ∈ IR, é possı́vel recuperar distribuições da famı́lia exponencial
uniparamétrica, bem como definir novos modelos de quae-verossimilhança.

5.2 Respostas independentes


Vamos supor que Y1 , . . . , Yn são variáveis aleatórias independentes com loga-
ritmo da função de quase-verossimilhança Q(µi ; yi ), i = 1, . . . , n. O logaritmo
da função de quase-verossimilhança correspondente à distribuição conjunta
fica dado por
n
X
Q(µ; y) = Q(µi ; yi ). (5.1)
i=1

Vamos supor ainda que


g(µi ) = ηi = xTi β, (5.2)

em que xi = (xi1 , . . . , xip )T contém valores de variáveis explicativas, β =


(β1 , . . . , βp )T e g(·) é uma função de ligação. Note que os MLGs são um caso
particular de (5.1)-(5.2).

376
5.2.1 Estimação
Denotando Q(β) = Q(µ(β); y), podemos mostrar que a função quase-escore
para β fica expressa na forma
∂Q(β) 1
Uβ = = 2 DT V−1 (y − µ),
∂β σ
em que D = ∂µ/∂β = W1/2 V1/2 X, µ = (µ1 , . . . , µn )T , y = (y1 , . . . , yn )T ,
V = diag{V1 , . . . , Vn }, W = diag{ω1 , . . . , ωn } com ωi = (dµ/dη)2i /Vi e X é
uma matriz n × p de linhas xTi , i = 1, . . . , n. A matriz de quase-informação
para β fica dada por
∂ 2 Q(β)
 
1 T −1
Kββ = −E = D V D.
∂β∂β T σ2
A estimativa de quase-verossimilhança para β sai da solução da equação
Uβ = 0 que pode ser resolvida pelo método escore de Fisher resultando no
seguinte processo iterativo:

β (m+1) = β (m) + {D(m)T V−(m) D(m) }−1 D(m)T V−(m) {y − µ(m) }, (5.3)

m = 0, 1, 2, . . . . Note que o processo iterativo (5.3) não depende de σ 2 , no


entanto, precisa ser iniciado numa quantidade β (0) . Mostra-se, sob certas
condições de regularidade (vide, por exemplo, McCullagh e Nelder, 1989, p.
333), que β̂ é consistente e assintoticamente normal com matriz de variância-
covariância dada por Var(β̂) = σ 2 (DT V−1 D)−1 . O parâmetro de dispersão
σ 2 deve ser estimado separadamente.

5.2.2 Estimador de momentos


Podemos verificar facilmente que
( )
(Yi − µi )
Var p = 1,
σ V (µi )

377
e daı́ segue ( )
(Yi − µi )
Var p = σ2,
V (µi )
e, portanto, um estimador de momentos para σ 2 fica dado por
n
X (yi − µ̂i )2
2 1
σ̂ = .
(n − p) i=1 V (µ̂i )

5.2.3 Função quase-desvio


É possı́vel definir uma função tipo desvio para os modelos de quase-verossimilhança
de forma similar aos MLGs. Sejam Q(y; y) e Q(µ̂; y), respectivamente, as
funções de quase-verossimilhança do modelo saturado e do modelo sob inves-
tigação. A função quase-desvio não escalonada é definida por

D(y; µ̂) = 2σ 2 {Q(y; y) − Q(µ̂; y)}


n
X
2 2
= −2σ Q(µ̂; y) = −2σ Q(µ̂i ; yi )
i=1
n Z yi
X yi − t
= 2 dt,
i=1 µ̂i V (t)

que não depende de σ 2 . É natural que se compare a função quase-desvio


escalonada D∗ (y; µ̂) = σ −2 D(y; µ̂) com os percentis da distribuição χ2(n−p) ,
embora não seja em geral conhecida a distribuição nula de σ −2 D(y; µ̂). Apre-
sentamos abaixo a função quase-desvio não escalonada para alguns casos
particulares supondo uma única observação.

V (µ) Componente de D(y; µ)


µ −2{ylogµ − µ − ylogy + y}, y, µ > 0
µ(1 − µ) −2[ylog{µ/(1 − µ)} + log(1 − µ) − logy], 0 < y, µ < 1
µ2 −2{1 − y/µ − logµ + logy}, y, µ > 0

378
5.2.4 Teste de hipóteses
Seja o vetor paramétrico β particionado tal que β = (β T1 , β T2 )T , β 1 e β 2
são subvetores de dimensão q e p − q, respectivamente. Suponha que temos
interesse em testar H0 : β 1 = 0 contra H1 : β 1 6= 0. McCullagh (1983)
mostra que também no caso de quase-verossimilhança a diferença entre duas
funções quase-desvio funciona como um teste da razão de verossimilhanças.
Ou seja, se denotarmos por D(y; µ̂0 ) a função quase-desvio sob H0 e por
D(y; µ̂) a função quase-desvio sob H1 , para n grande e sob H0 , temos que
1 
D(y; µ̂0 ) − D(y; µ̂) ∼ χ2q ,
σ2
para σ 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore são também possı́veis de serem desenvolvidos.
Usando resultados do Capı́tulo 1 podemos mostrar que

Var(β̂ 1 ) = {DT1 V1/2 M2 V1/2 D1 }−1 ,

em que M2 = I − H2 , H2 = V1/2 D2 (DT2 VD2 )−1 DT2 V1/2 , D1 = W1/2 V1/2 X1


e D2 = W1/2 V1/2 X2 . Assim, um teste tipo Wald fica dado por
T −1
ξW = β̂ 1 V̂ar (β̂ 1 )β̂ 1 ,

em que V̂ar(β̂ 1 ) denota que a variância está sendo avaliada em β̂. Já o teste
quase-escore para testar H0 : β 1 = 0 contra H1 : β 1 6= 0 fica dado por
0 0
ξSR = Uβ1 (β̂ )T V̂ar0 (β̂ 1 )Uβ1 (β̂ ),

em que
∂Q(β)
Uβ1 =
∂β 1
1 T −1
= D V (y − µ),
σ2 1
379
0 0T 0
com todas as quantidades sendo avaliadas em β̂ = (0T , β̂ 2 )T e β̂ 2 sendo
a estimativa de β 2 sob H0 . Sob H0 e sob condições usuais de regularidade
temos que, para n → ∞, ξW , ξSR ∼ χ2q .

5.2.5 Resı́duos
O não conhecimento da verdadeira função de verossimilhança de β dificulta
o desenvolvimento de alguns métodos de diagnóstico. Tanto o estudo de
resı́duos como de medidas de influência dependem em geral do conhecimento
de L(β). O que tem sido proposto em modelos de quase-verossimilhança
no sentido de avaliar a qualidade do ajuste são gráficos de resı́duos. Uma
sugestão (vide McCullagh e Nelder, 1989, Cap. 9) é o gráfico do resı́duo de
Pearson
yi − µ̂i
r̂Pi = p
σ̂ V (µ̂i )
contra alguma função dos valores ajustados, como por exemplo contra g(µ̂i ),
em que g(·) é a função de ligação. Espera-se uma distribuição aleatória dos
resı́duos em torno do eixo zero. Tendências diferentes, como por exemplo
aumento da variabilidade, podem indicar que a função V (µi ) não é adequada.
Um outro resı́duo que pode também ser utilizado, embora de forma descritiva,
é dado por
±d( yi ; µ̂i )
tDi = p ,
σ̂ 1 − ĥii
em que d(yi ; µ̂i ) é a raiz quadrada com sinal de yi − µ̂i do i-ésimo compo-
nente do quase-desvio D(y; µ̂), enquanto hii é o i-ésimo elemento da diagonal
principal da matriz

H = V−1/2 D(DT V−1 D)−1 DT V−1/2 .

380
5.2.6 Influência
Uma versão da distância de Cook para os modelos de quase-verossimilhança
fica dada por
ĥii
LDi = r̂P2 i ,
(1 − ĥii )2

em que r̂Pi é o resı́duo de Pearson e ĥii denota o i-ésimo elemento da diagonal


principal da matriz Ĥ. Gráficos de LDi contra a ordem das observações ou
contra os valores ajustados podem revelar pontos possivelmente influentes
nos parâmetros do preditor linear.

5.2.7 Seleção de Modelos


Uma extensão natural do método de Akaike para os modelos de quase-
verossimilhança (ver, por exemplo, Pan, 2001) é considerar

AIC = −2Q(β̂) + 2p,

em que Q(β̂) á a função de quase-verossimilhança avalianda em β̂.

5.2.8 Aplicações
Mosca do chifre
No arquivo mosca.txt é apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuição do número de ácaros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas são depósitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuária brasileira. Os ácaros são inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.txt tem-se a distribuição do número de ácaros
de quatro espécies segundo algumas variáveis de interesse: (i) N, número de

381
partes da posição da placa onde foram coletados os ácaros, (ii) Posiç~
ao,
posição na placa onde foram coletados os ácaros (1: lateral, 0: central), (iii)
ao, região onde a placa foi coletada (1: São Roque, 2: Pindamonhan-
Regi~
gaba, 3: Nova Odessa e 4: Ribeirão Preto) e (iv) Temp, temperatura no local
da coleta (em o C).

Tabela 5.1
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (µ) = µ2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos Sem pontos aberrantes
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Constante -0,828 -0,74 -2,575 -2,13
Posição -0,288 -0,64 0.380 0,78
Pinda -0,424 -0,66 -0,910 -1,31
N. Odessa -1,224 -1,71 -1,836 -2,36
R. Preto -2,052 -2,98 -2,589 -3,46
Temp. 0,029 0,67 0,087 1,84
2
σ 5,129 5,913

Pensou-se inicialmente, como trata-se de dados de contagem, num modelo


log-linear de Poisson para explicar o número médio de ácaros segundo as
variáveis explicativas. Denotando por Yijk o número de ácaros coletados na
i-ésima posição da k-ésima placa e j-ésima região, vamos supor que Yijk ∼
P(µijk ), µijk = Nijk λijk , i = 1, 2 e j = 1, . . . , 6, com Nijk denotando o número
de partes na i-ésima posição da k-ésima placa coletada na j-ésima região. A
parte sistemática do modelo fica dada por

logµijk = logNijk + logλijk , (5.4)

em que
logλijk = α + βi + γj + δTempjk , (5.5)

382
logNijk desempenha papel de offset, βi denota o efeito da posição, γj o efeito
da região e Tempjk a temperatura na j-ésima região no momento da coleta
da k-ésima placa. Temos as restrições β1 = γ1 = 0. O desvio do modelo
ajustado para a espécie 6 foi de D(y; µ̂) = 318, 69 (96 graus de liberdade)
indicando fortes indı́cios de sobredispersão. Propomos então um modelo
de quase-verossimilhança com função dada por V (µijk ) = µijk . Esse modelo
parece também inadequado pelo gráfico de resı́duos de Pearson r̂Pijk = (yijk −
p
µ̂ijk )/σ̂ µ̂ijk contra logµ̂ijk (Figura 5.1).
5
4
Residuo de Pearson

3
2
1
0
-1

-2 -1 0 1

Log Valor Ajustado

Figura 5.1: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ aos dados sobre a mosca do chifre.

Nota-se um aumento da variabilidade com o aumento do logaritmo das


médias ajustadas, indı́cio de que a variabilidade não foi totalmente contro-
lada. Para ajustar o modelo no R, vamos supor que as variáveis Posiç~
ao,
ao e Temp sejam colocadas em posicao, regiao e temp, respectivamente,
Regi~

383
e que logN denota o logaritmo do número de partes da placa. O número de
ácaros será denotado por acaros. A sequência de comandos é dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).

84
28 61
3
Residuo de Pearson

2
1
0

-2 -1 0 1

Log Valores Ajustado

Figura 5.2: Gráfico do resı́duo de Pearson contra logµ̂ para o modelo ajustado
com função V (µ) = µ2 aos dados sobre a mosca do chifre.

Se colocarmos em phi a estimativa do parâmetro de dispersão, o resı́duo de


Pearson padronizado será obtido pelo comando
phi = summary(fit1.mosca)$dispersion
rp = resid(fit.mosca, type = "pearson")/sqrt(phi).
No objeto fit.mosca estão os principais resultados do ajuste. Propomos
agora, a fim de controlar a variabilidade, um modelo de quase-verossimilhança

384
com função quadrática V (µijk ) = µ2ijk e parte sistemática dada por (5.4)-
(5.5). O gráfico do resı́duo de Pearson contra o logaritmo das médias ajus-
tadas (Figura 5.2) parece bastante razoável, embora apareçam 9 placas com
valores para r̂Pijk acima de 2. Na Tabela 5.1 apresentamos as estimativas dos
parâmetros com todas as placas e também eliminando as placas com resı́duos
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos são dados abaixo
fit1.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2"), maxit=50)
fit2.mosca = glm(acaros ∼ posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu^ 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeirão Preto apresentam um número médio de ácaros bem menor do
que as outras duas regiões. Não há indı́cios de efeito de posição, porém a
eliminação das três placas com valores mais aberrantes faz com que o efeito de
temperatura fique mais acentuado, havendo indı́cios de que o número médio
de ácaros cresce com o aumento da temperatura.
As placas #28, #61 e #84 têm em comum o fato de apresentarem um
número médio de ácaros (por parte de placa) pelo menos duas vezes acima da
média em temperaturas relativamente baixas. Essas placas foram coletadas
nas regiões de Pindamonhangaba, Nova Odessa e Ribeirão Preto, respectiva-
mente. Assim, é esperado que a eliminação dessas placas reduza o valor das
estimativas dos efeitos dessas regiões como também aumente a estimativa
do coeficiente da temperatura. A fim de que as 9 placas com resı́duos mais
aberrantes possam ser melhor ajustadas pode-se tentar outras formas para
a função V (µ), como por exemplo V (µ) = µ2 (1 + µ)2 (vide Paula e Tavares,

385
1992).

Demanda de TV a cabo
Vamos reanalisar nesta seção o exemplo sobre demanda de TV a cabo discu-
tido no Capı́tulo 4 sob um enfoque de modelo log-linear com resposta bino-
mial negativa. Proporemos aqui um modelo um pouco diferente. Ao invés de
ser ajustado o número médio esperado de assinantes de TV a cabo será ajus-
tada a proporção esperada de assinantes de TV a cabo em cada área. A pro-
porção observada é dada por Razao = Nass/Domic. Como 0 ≤ Razao ≤ 1,
propomos o seguinte modelo de quase-verossimilhança:

E(Razaoi ) = πi e
Var(Razaoi ) = σ 2 πi (1 − πi ),

em que πi denota a proporção esperada de assinantes na i-ésima área, i =


1, . . . , 40. A parte sistemática do modelo será dada por
 
πi
log = α + β1 Percapi + β2 Taxai + β3 Custoi + β4 Ncaboi + β5 Ntvi .
1 − πi
Na Figura 5.3 é apresentado o gráfico da distância de Cook contra das
observações com destaque para as áreas #5 e #14. A observação #5 cor-
responde a uma área de renda alta porém com uma proporção pequena de
assinantes de TV a cabo, talvez devido aos altos custos de instalação e ma-
nutenção. Já a área #14 tem uma proporção alta de assinantes de TV a
cabo embora as taxas também sejam altas. Também na Figura 5.3 temos o
p
gráfico do resı́duo r̂Pi = (Razaoi − π̂i )/σ̂ π̂i (1 − π̂i ) contra o logito dos va-
lores ajustados e como pode-se notar há um ligeiro aumento da variabilidade
com o aumento da proporção de áreas com o TV a cabo.

386
14

3
0.5

2
0.4

1
Resíduo de Pearson
Distância de Cook

0.3

0
0.2

−1
0.1

−2
0.0

−3

0 10 20 30 40 −1.5 −1.0 −0.5 0.0 0.5

Índice Preditor Linear

Figura 5.3: Distância de Cook e gráfico do resı́duo de Pearson contra o logito


de π̂ para o modelo ajustado com função V (π) = π(1 − π) aos dados sobre
demanda de TV a cabo.

Tabela 5.2
Estimativas dos parâmetros do modelo de quase-verossimilhança
com função V (π) = π(1 − π) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos Sem áreas 5 e 14
Efeito Estimativa E/E.Padrão Estimativa E/E.Padrão
Intercepto -2,407 -1,72 -2,440 -1,60
−4 −4
Percap 4 × 10 2,50 4 × 10 2,80
Taxa 0,023 0,93 0,016 0,64
Custo -0,203 -1,79 -0,252 -2,27
Ncabo 0,073 1,94 0,079 2,22
Ntv -0,216 -2,61 -0,201 -2,61
σ2 0,114 0,098
387
0.5
14

3
5
0.4

2
1
Resíduo de Pearson
0.3
Distância de Cook

0
0.2

−1
0.1

−2
0.0

−3

0 10 20 30 40 −1.5 −1.0 −0.5 0.0 0.5

Índice Preditor Linear

Figura 5.4: Distância de Cook e gráfico do resı́duo de Pearson contra o logito


de π̂ para o modelo ajustado com função V (π) = π 2 (1 − π)2 aos dados sobre
demanda de TV a cabo.
A eliminação dessas duas áreas, como pode ser observado pela Tabela
5.2, não altera os resultados inferenciais (ao nı́vel de 5%) com todas as ob-
servações, embora aumente a significância dos coeficientes. Nota-se que ape-
nas o coeficiente da variável Taxa parece não ser significativo marginalmente.
Uma tentativa no sentido de tentar reduzir a variabilidade observada na
Figura 5.3 é utilizando uma função do tipo V (π) = π 2 (1 − π)2 . Na Figura
5.4 temos o gráfico da distância de Cook e o gráfico do resı́duo de Pearson
contra o logito dos valores ajustados supondo V (π) = π 2 (1 − π)2 . Nota-se
comportamentos muito similares àqueles encontrados na Figura 5.3. Assim,
podemos assumir para esse exemplo o ajuste com a função V (π) = π(1 − π).

388
Nota-se, que sob esse ajuste, mais variáveis permanecem no modelo do que
sob o ajuste do número esperado de domicı́lios com TV a cabo com resposta
binomial negativa, como foi visto no Capı́tulo 4.
Para o ajuste do modelo de quase-verossimilhança com V (π) = π 2 (1−π)2
é preciso requerer a library gnm e usar a famı́lia wedderburn conforme os
comandos dados abaixo
require(gnm)
ajuste.tvcabo = glm(razao ∼ percap + taxa + custo + ncabo + ntv,
family=wedderburn).
Todavia, os resultados com a famı́lia wedderburn ficaram muito parecidos
com aqueles resultados apresentados com a função V (π) = π(1 − π).
0.8
Area Afetada

0.6
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 10

Variedade

Figura 5.5: Boxplots da proporção da área afetada segundo a variedade para


os dados sobre manchas na folha da cevada.

389
0.8
Area Afetada

0.6
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9

Local

Figura 5.6: Boxplots da proporção da área afetada segundo o local para os


dados sobre manchas na folha da cevada.

Manchas na folha da cevada


Esses dados estão descritos em McCullagh e Nelder (1982, Tabela 9.2) e no
arquivo cevada.txt, em que a incidência de um tipo de mancha é observada
na folha da cevada segundo 10 variedades em 9 locais diferentes. A amostra
consiste de 90 observações em que a resposta é a área afetada da folha (em
proporção) e os fatores são a variedade e o local.
Nas Figuras 5.5 e 5.6 são apresentados os boxplots da área afetada (em
proporção) segundo a variedade e local, respectivamente. Nota-se no primeiro
gráfico um aumento da mediana da proporção da área afetada e também
da dispersão com a variedade. Tendência similar pode ser observada no
segundo gráfico. Seja Yij a proporção da área afetada da folha da cevada
correspondente ao i-ésimo local e j-ésima variedade para i = 1, . . . , 9 e j =
1, . . . , 10. Conforme sugerido por McCullagh e Nelder (1989, Cap. 9) vamos

390
supor o seguinte modelo de quase-verossimilhança:

E(Yij ) = πij e
Var(Yij ) = σ 2 V (πij ),

com parte sistemática dada por


 
πij
log = α + βi + γj ,
1 − πij
em que πij denota a proporção esperada da área afetada para a j-ésima
variedade do i-ésimo local, β1 = 0 e γ1 = 0.
Nas Figuras 5.7 e 5.8 são apresentados gráficos de diagnóstico para ajus-
tes do modelo de quase-verossimilhança supondo V (πij ) = πij (1 − πij ) e
V (πij ) = πij2 (1 − πij )2 , respectivamente. Nota-se ao compararmos os gráficos
de resı́duos que o segundo ajuste é mais adequado embora algumas ob-
servações sejam destacadas como possivelmente influentes. As observações
#24, #65 e #76 apresentam proporções amostrais acima das proporções
médias amostrais das variedades e locais correspondentes, enquanto a ob-
servação #52 tem uma proporção amostral abaixo da proporção média do
local correspondente. A eliminação dessas observações não muda a inferência
com relação às proporções médias dos locais, porém muda a inferência com
relação às menores proporções médias das variedades. Em geral as estima-
tivas de quase-verossimilhança indicam um aumento da proporção esperada
da área afetada com o aumento da variedade e do local conforme descrito
nos boxplots apresentados nas Figuras 5.5 e 5.6.

5.3 Classe estendida


O logaritmo da função de quase-verosssimilhança Q(µ; y) assume que a função
V (µ) é conhecida, logo a mudança dessa função significa que um novo mo-
delo está sendo definido. No sentido de permitir comparações de diferentes

391
funções V (µ) para um mesmo modelo como também possibilitar a obtenção
de uma estimativa para o erro padrão assintótico de σ̂ 2 , Nelder e Pregibon
(1987) propuseram uma (log) quase-verossimilhança estendida, definida por
1 1
Q+ (µ; y) = − 2
D(y; µ) − log{2πσ 2 V (y)},
2σ 2
Ry 1
em que D(y; µ) = 2 µ
{(y −t)/V (t)}dt é o quase-desvio e φ = σ2
o parâmetro
de dispersão.

65
3
1.5

38
1
Resíduo de Pearson
1.0
Distância de Cook

0
−1
0.5

−2
0.0

−3

0 20 40 60 80 −8 −6 −4 −2 0 2

Índice Preditor Linear

Figura 5.7: Distância de Cook e gráfico do resı́duo de Pearson contra o logito


de π̂ para o modelo ajustado com função V (π) = π(1 − π) aos dados sobre
manchas na folha da cevada.

392
24

3
1.0

2
0.8

65

1
Resíduo de Pearson
Distância de Cook

0.6

76

52

0
0.4

−1
0.2

−2
0.0

−3

0 20 40 60 80 −8 −6 −4 −2 0 2

Índice Preditor Linear

Figura 5.8: Distância de Cook e gráfico do resı́duo de Pearson contra o logito


de π̂ para o modelo ajustado com função V (π) = π 2 (1 − π)2 aos dados sobre
manchas na folha da cevada.

Similarmente a Q, Q+ não pressupõe que a distribuição completa de Y


seja conhecida, mas somente os dois primeiros momentos. A estimativa de β
maximizando-se Q+ (y; µ), para uma amostra aleatória de tamanho n, coin-
cide com a estimativa de quase-verossimilhança para β, uma vez que Q+ é
uma função linear de Q. A estimativa de φ maximizando Q+ é dada por
φ̂ = D(y; µ̂)/n. Portanto, para os casos especiais em que Q+ corresponde às
distribuições normal e normal inversa, φ̂ corresponde à estimativa de máxima
verossimilhança de φ. Para a distribuição gama, Q+ difere do logaritmo da
função de verossimilhança por um fator dependendo somente de φ. Para as

393
distribuições de Poisson, binomial e binomial negativa, Q+ é obtida do lo-
garitmo da função de verossimilhança correspondente substituindo qualquer
fatorial k! pela aproximação de Stirling k! ∼
= (2πk)1/2 k k e−k . Discussões mais
interessantes e aplicações da classe estendida são dadas em Nelder e Pregibon
(1987).

5.4 Respostas correlacionadas


A fim de estabelecermos a notação a ser utilizada nesta seção, denotaremos
por Yi = (Yi1 , . . . , Yiri )T o vetor resposta multivariado para a i-ésima uni-
dade experimental, i = 1, . . . , n, e assumiremos em princı́pio que apenas é
conhecida a distribuição marginal de Yit , dada por

f (y; θit , φ) = exp[φ{yθit − b(θit )} + c(y, φ)], (5.6)

em que E(Yit ) = µit = b0 (θit ), Var(Yit ) = φ−1 Vit , Vit = dµit /dθit é a função
de variância e φ−1 > 0 é o parâmetro de dispersão, em geral desconhecido.
Podemos definir um modelo linear generalizado para cada instante t acres-
centando a (5.6) a parte sistemática

g(µit ) = ηit , (5.7)

em que ηit = xTit β é o preditor linear, β = (β1 , . . . , βp )T é um vetor de


parâmetros desconhecidos a serem estimados, xit = (xit1 , . . . , xitp )T repre-
senta os valores de variáveis explicativas observadas para a i-ésima unidade
experimental no tempo t e g(·) é a função de ligação.
A função escore e a matrix de informação para β, ignorando-se a estrutura
de correlação intraunidade experimental, ficam, respectivamente, dadas por
n
X
Uβ = φ DTi Vi−1 (yi − µi ) (5.8)
i=1

394
e n
X
Kββ = φ DTi Vi Di , (5.9)
i=1
1/2 1/2
em que Di = Wi Vi Xi , Xi é uma matriz ri × p de linhas xTit , Wi =
diag{ωi1 , . . . , ωiri } é a matriz de pesos com ωit = (dµit /dηit )2 /Vit , Vi =
diag{Vi1 , . . . , Viri }, yi = (yi1 , . . . , yiri )T e µi = (µi1 , . . . , µiri )T . Quando há
ligação canônica a função escore e a matriz de informação de Fisher ficam
dadas por Uβ = φ ni=1 XTi (yi − µi ) e Kββ = φ ni=1 XTi Vi Xi , respectiva-
P P

mente. O estimador de β, ignorando-se a estrutura de correlação intrauni-


dade experimental, sai da equação Uβ = 0. Esse estimador é consistente e
assintoticamente normal. Note que podemos supor que a distribuição mar-
ginal de Yit é desconhecida assumindo uma função V (µit ) diferente daquela
que caracteriza a distribuição de Yit . Nesse caso, teremos um modelo de
quase-verossimilhança em cada instante t com função escore e matriz de in-
formação, ignorando-se a estrutura de correlação, dadas por (5.8) e (5.9),
respectivamente.
Um tópico de pesquisa importante, que tem interessado a vários pesquisa-
dores, é o desenvolvimento de metodologias para a estimação dos parâmetros
de interesse quando os dados são correlacionados e a distribuição marginal
não é normal, como é o caso introduzido nesta seção. Uma maneira de
resolver o problema é ignorar a estrutura de correlação, como vimos acima,
produzindo estimadores consistentes e assintoticamente normais, porém mui-
tas vezes com perda de eficiência. Uma outra maneira, que descreveremos
a seguir, é introduzindo alguma estrutura de correlação na função escore,
produzindo um novo sistema de equações para estimar β. A fim de facili-
tarmos o entendimento dessa metodologia, vamos supor inicialmente que os
dados são não correlacionados e que a matriz de correlação correspondente
ao i-ésimo grupo é denotada por Ri . Logo, teremos Ri = Iri . A matriz de

395
variância-covariância para Yi , por definição, é dada por
1/2 1/2
Var(Yi ) = φ−1 Vi Ri Vi , (5.10)

que no caso de dados não correlacionados fica simplesmente dada por φ−1 Vi .
A ideia é introduzirmos em (5.10) uma matriz de correlação não diagonal,
por exemplo dada por Ri (β), com reflexos na função escore que passaria a
depender também de Ri (β). O incoveniente dessa proposta é o fato da cor-
relação, que é restrita ao intervalo [−1, 1], depender de β, o que aumentaria
a complexidade do processo de estimação. A solução encontrada para con-
tornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlação dada por Ri (ρ), em que ρ = (ρ1 , . . . , ρq )T é um vetor de
parâmetros de perturbação que não dependem de β. Ou seja, os parâmetros
da matriz de correlação não dependem dos parâmetros de posição.
Para entender melhor essa proposta definimos
1/2 1/2
Ωi = φ−1 Vi Ri (ρ)Vi ,

em que Ωi é a matriz de variância-covariância de Yi se a verdadeira correlação


entre os elementos de Yi for dada por Ri (ρ). Note que Ri (ρ) é uma matriz
ri × ri que depende de um número finito de parâmetros ρ = (ρ1 , . . . , ρq )T ,
sendo denominada matriz trabalho. Para estimarmos β devemos resolver o
seguinte sistema de equações:

Sβ (β̂ G ) = 0, (5.11)

denominado equações de estimação generalizadas (EEGs), em que


n
X
Sβ (β) = DTi Ω−1
i (yi − µi ).
i=1

Note que (5.11) reduz-se a Uβ = 0 quando Ri (ρ) = Iri , isto é, quando é igno-
rada a estrutura de correlação intraunidade experimental. Na verdade Sβ (β)

396
depende também de φ e ρ = (ρ1 , . . . , ρq )T que são estimados separadamente
de β.

5.4.1 Estimação
O processo iterativo para a estimação de β, que é uma modificação do método
escore de Fisher, é dado por
n
−(m)
(m+1) (m)
X (m)T (m)
βG = βG +{ Di Ωi Di }−1 ×
i=1
n
−(m)
X (m)T (m)
[ Di Ωi {yi − µi }], (5.12)
i=1

m = 0, 1, 2 . . . . As estimativas φ̂ e ρ̂ são dadas inicialmente e modificadas


separadamente a cada passo do processo iterativo.
Supondo que ρ̂ e φ̂ são estimadores consistentes de ρ e φ, respectivamente,
temos que

n(β̂ G − β) →d Np (0, Σ),

em que
n
X n
X n
X
Σ = lim [n( DTi Ω−1 −1
i Di ) { DTi Ω−1 −1
i Var(Yi )Ωi Di }( DTi Ω−1 −1
i Di ) ].
n→∞
i=1 i=1 i=1

Se a matriz de correlação Ri (ρ) é definida corretamente, então um estimador


consistente para Var(β̂ G ) é dado por H−1
1 (β̂ G ), em que

n
X −1
H1 (β̂ G ) = (D̂Ti Ω̂i D̂i ),
i=1

com D̂i sendo avaliado em β̂ G e Ω̂i avaliado em (φ̂, ρ̂, β̂ G ). Entretanto, se a


matriz trabalho Ri (ρ) é definida incorretamente H−1
1 (β̂ G ) pode ser inconsis-

tente. Um estimador robusto para Var(β̂ G ), sugerido por Liang and Zeger

397
(1986), é dado por

V̂G = H−1 −1
1 (β̂ G )H2 (β̂ G )H1 (β̂ G ),
−1 −1
em que H2 (β̂ G ) = ni=1 {D̂Ti Ω̂i (yi − µ̂i )(yi − µ̂i )T Ω̂i D̂i }. O estimador
P

V̂G é consistente mesmo se a matriz trabalho for definida incorretamente.

5.4.2 Estruturas de correlação


Não estruturada
Quando a matriz de correlação Ri é não estruturada teremos ri (ri − 1)/2
parâmetros para serem estimados. Denotando Ri = {Rijj 0 }, o (j, j 0 )-ésimo
elemento de Ri poderá ser estimado por
n
φ X (yij − µ̂ij ) (yij 0 − µ̂ij 0 )
R̂jj 0 = q q .
n i=1
V̂ij V̂ij 0

Simétrica ou permutável
Neste caso assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de Ri
fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ, para j 6= j 0 . Um estimador
consistente para ρ fica dado por
n ri ri
φX 1 X X (yij − µ̂ij ) (yij 0 − µ̂ij 0 )
ρ̂ = q q .
n i=1 ri (ri − 1) j=1 j 0 =1,j 0 6=j
V̂ij V̂ij 0

Autoregressiva AR(1)
Aqui também assumimos Ri = Ri (ρ), em que o (j, j 0 )-ésimo elemento de
0
Ri fica dado por Rijj 0 = 1, para j = j 0 , e Rijj 0 = ρ|j−j | , para j 6= j 0 . Um
estimador consistente para ρ fica dado por
n i r −1
φX 1 X (yij − µ̂ij ) (yi(j+1) − µ̂i(j+1) )
ρ̂ = q q .
n i=1 (ri − 1) j=1
V̂ij V̂i(j+1)

398
Parâmetro de dispersão
O parâmetro de dispersão φ−1 pode ser estimado consistentemente por
in r
−1 1 XX (yij − µ̂ij )2
φ̂ = ,
(N − p) i=1 j=1 V̂ij
Pn
em que N = i=1 ri . Assim, o processo iterativo (5.12) deve alternar com
as estimativas para ρ e φ até a convergência.
Testes de hipóteses para β ou para subconjuntos de β podem ser desenvol-
vidos através de estatı́sticas tipo Wald com a matriz de variância-covariância
estimada V̂G .

5.4.3 Métodos de diagnóstico


Técnicas de diagnóstico para EEGs podem ser encontradas, por exemplo,
em Hardin e Hilbe (2003) e Venezuela et al. (2007) e mais recentemente
em Venezuela et al. (2011). Os procedimentos apresentados a seguir foram
extraı́dos de Venezuela et al. (2007).

Resı́duos
Aplicando para as EEGs um procedimento similar àquele apresentado na
Seção 1.10.2 chega-se ao seguinte resı́duo de Pearson:
1/2
eTij Âi (V̂i Ŵi )−1 (yi − µ̂i )
r̂Pij = q ,
1 − ĥijj
1/2 1/2 1/2
para i = 1, . . . , n e j = 1, . . . , ri , em que Ai = φWi R−1
i Wi é uma
matriz de dimensão ri × ri , eTij é um vetor de dimensão 1 × ri de zeros com
1 na j-ésima posição e hijj é o j-ésimo elemento da diagonal principal da
matriz
1/2 1/2
Hi = Ai Xi (XT AX)−1 XTi Ai ,

399
em que X = (XT1 , . . . , XTn )T tem dimensão N × p e A = diag{A1 , . . . , An }
tem dimensão N × N com N = ni=1 ri .
P

Alavanca
Duas medidas de alavanca são usualmente aplicadas em EEGs. Medida de
alavanca referente ao j-ésimo indivı́duo do i-ésimo grupo, dada por ĥijj e
medida de alavanca referente ao i-ésimo grupo, definida por
ri
1X
ĥi = hijj .
ri j=1

Gráficos de ı́ndices para ĥijj e ĥi ou contra os valores ajustados são recomen-
dados.

Influência
Uma versão aproximada da distância de Cook para avaliar o impacto da
eliminar individual das observações na estimativa β̂ G é dada por

ĥijj
LDij = r̂P2 ij .
(1 − ĥijj )

Gráficos de ı́ndices para LDij são recomendados.

5.4.4 Seleção de modelos


Uma proposta de critério para seleção de modelos em EEGs (ver, por exem-
plo, Hardin e Hilbe, 2003) é dado por

QIC = −2Q(β̂ G ) + 2tr(V̂G Ĥ1I ),

em que β̂ G é a estimativa de quase-verossimilhança para uma matriz es-


pecı́fica de correlação Ri (ρ) e H1I é a matriz H1 avaliada sob a estrutura

400
de independência. Esse critério pode ser aplicado para selecionar submode-
los encaixados ou para selecionar a matriz de correlação para um modelo
especı́fico.

5.5 Exemplos
5.5.1 Ataques epilépticos
100

placebo
progabide
80
60
Ataques

40
20
0

8 10 12 14 16

Tempo

Figura 5.9: Gráfico de perfis com o número de ataques por perı́odo de 2


semanas.

No arquivo ataques.txt (Diggle, Liang e Zeger, 1994, Seção 8.4) são


resumidos os resultados de um ensaio clı́nico com 59 indivı́duos epilépticos
os quais foram aleatorizados de modo que cada um recebesse uma droga

401
antiepiléptica denominada progabide ou placebo. Os dados de cada indivı́duo
consistiram de um número inicial de ataques epilépticos num perı́odo de
oito semanas antes do tratamento, seguido do número de ataques em cada
perı́odo de duas semanas, num total de quatro perı́odos, após o tratamento.
O interesse da pesquisa é saber se a droga reduz a taxa de ataques epilépticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada através do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais através de outras subrotinas que facilitam, por exemplo,
a elaboração de gráficos de perfis. Nesses casos, será necessário informarmos
nos comandos de ajuste como as unidades experimentais estão dispostas e o
tipo de correlação intraunidade experimental a ser assumida.
No caso dos ataques epilépticos uma possı́vel distribuição marginal para
os dados é a distribuição de Poisson, uma vez que tem-se dados de contagem.
Contudo, observando-se a tabela abaixo, onde estão descritos os valores amos-
trais para a razão variância/média para os 10 grupos experimentais, nota-se
um forte indı́cio de sobredispersão sugerindo que o parâmetro de dispersão
φ não deve ser fixado como sendo igual a um.

Antes Per1 Per2 Per3 Per4


Placebo 22,13 10,98 8,04 24,50 7,24
Progradibe 24,76 38,77 16,70 23,75 18,79

Para compararmos o número de ataques epilépticos nos 10 perı́odos ex-


perimentais, devemos padronizar os valores referentes ao perı́odo anterior ao
tratamento em que os pacientes foram observados por 8 semanas. Assim,

402
será possı́vel uma comparação com os demais perı́odos de 2 semanas. Na Fi-
gura 5.9 temos o gráfico de perfis com os dois tratamentos. Nota-se que pelo
menos um paciente (#49), que foi tratado com a droga progabide, apresenta
um número alto de ataques antes e depois do tratamento.
20

(49,1)
(18,1)

(15,1)
15
Resíduo de Pearson Padronizado

(29,1)
(38,1)

(5,1) (25,4)
10
5
0

0 10 20 30 40 50 60

Unidade Experimental

Figura 5.10: Gráfico do resı́duo de Pearson referente ao modelo de Poisson


com estrutura de correlação permutável ajustado aos dados sobre ataques
epilépticos.

Vamos supor então que Yijk representa o número de ataques epilépticos


ocorridos com o k-ésimo indivı́duo do i-ésimo grupo no j-ésimo perı́odo. As-
sumimos que Yijk ∼ P(λij tj ), tj denota o número de semanas do j-ésimo
perı́odo, i = 1, 2; j = 0, 1, 2, 3, 4 e k = 1, . . . , rij , em que r1j = 28 (grupo
placebo), r2j = 31 (grupo tratado), t0 = 8 e t1 = t2 = t3 = t4 = 2. Assumi-

403
mos também uma estrutura de correlação permutável para cada indivı́duo,
isto é, Corr(Yijk , Yijk0 ) = ρ, para k 6= k 0 e (i, j) fixos. A parte sistemática do
modelo será dada por

logλ10 = α,
logλ1j = α + β,
logλ20 = α + γ e
logλ2j = α + γ + β + δ,
20
15
Resíduo de Pearson Padronizado

10
5
0
−5

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.11: Gráfico normal de probabilidades referente ao modelo de Poisson


com estrutura de correlação permutável ajustado aos dados sobre ataques
epilépticos.

para j = 1, 2, 3, 4, em que α denota o nı́vel base, β o efeito de tratamento, γ

404
o efeito de grupo e δ a interação entre tratamento e grupo. Note que, antes
do tratamento, o logaritmo da razão entre as taxas dos dois grupos é dado
por
log{λ20 /λ10 } = α + γ − α = γ. (5.13)

Após o tratamento, o logaritmo da razão entre as taxas fica dado por

log{λ2j /λ1j } = α + γ + β + δ − α − β = γ + δ. (5.14)

Portanto, se o tratamento não é eficaz espera-se que o logaritmo da razão não


mude após o tratamento. Logo, avaliar a eficiência do tratamento equivale a
testar H0 : δ = 0 contra H1 : δ 6= 0.

Tabela 5.3
Estimativas dos parâmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilépticos.
Com todos os pacientes Sem o paciente #49
Parâmetro Estimativa z-robusto Estimativa z-robusto
α 1,347 8,564 1,347 8,564
β 0,112 0,965 0,112 0,965
γ 0,027 0,124 -0,107 -0,551
δ -0,105 -0,491 -0,302 -1,768
ρ 0,771 0,593
−1
φ 19,68 10,53
Se denotarmos por µij = E(Yijk ), a parte sistemática do modelo em função
das médias fica dada por

logµij = logtj + logλij ,

em que logtj desempenha o papel de offset. Para ajustarmos esse modelo no


R deve-se seguir a sequência abaixo de comandos
fit1.ataques = gee(ataques ∼ grupo + periodo + grupo*perido +
offset(log(semanas)), id=paciente, family=poisson,
corstr="exchangeable"),

405
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo re-
presenta o perı́odo (=0 antes, =1 depois), semanas o número de semanas,
paciente o número do paciente (são 59 pacientes) e corstr o tipo de cor-
relação a ser assumida.
8

(18,1)
(49,1)
6

(15,1)
Distância de Cook

4
2
0

0 10 20 30 40 50 60

Unidade Experimental

Figura 5.12: Distância de Cook referente ao modelo de Poisson com estrutura


de correlação permutável ajustado aos dados sobre ataques epilépticos.

As estimativas dos parâmetros (erro padrão aproximado) são apresenta-


das na Tabela 5.3. Não há portanto nenhum indı́cio de efeito de tratamento.
Para a análise de resı́duos vamos considerar o resı́duo de Pearson r̂Pij defi-
nido na Seção 5.4.3. A geração de envelopes para esse resı́duo é um pouco
mais complexa do que no caso usual de respostas independentes, uma vez
que requer o conhecimento da distribuição conjunta das respostas de cada

406
indivı́duo. No entanto, mesmo quando essa distribuição não é totalmente
desconhecida é possı́vel, em alguns casos, gerar a distribuição empı́rica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parâmetro de dispersão φ−1
é muito diferente da suposição de φ = 1 para modelos com resposta de Pois-
son, sugerindo indı́cios fortes de sobredispersão. Assim, para uma análise
de resı́duos mais qapropriada deve-se considerar o resı́duo de Pearson pa-
dronizado r̂P∗ ij = φ̂r̂Pij cujo gráfico é descrito na Figura 5.10. Nota-se 7
resı́duos com valores superiores a 10,0, todos referentes a medidas de diferen-
tes pacientes. O gráfico normal de probabilidades para o resı́duo de Pearson
padronizado r̂P∗ ij (Figura 5.11) mostra alguns afastamentos da suposição de
modelo marginal de Poisson, provavelmente devido à sobredispersão que não
foi totalmente controlada.
Finalmente, na Figura 5.12, temos a distância de Cook aproximada em
que três medidas se destacam. Nota-se novamente uma medida referente ao
paciente (#49) cujo perfil destoa na Figura 5.9. Vamos fazer um estudo das
estimativas não considerando esse paciente no ajuste. Os comandos em R são
dados abaixo:

fit2.ataques = gee(ataques ∼ grupo + periodo + grupo*perido +


offset(log(semanas)), id=paciente, subset=-c(241, 242, 243, 244,
245), family=poisson, corstr="exchangeable").

As novas estimativas (vide Tabela 5.3) indicam evidência de que o tratamento


com a droga progabide reduz o número médio de ataques epilépticos, ou seja,
há mudança inferencial em relação ao modelo com todos os pontos.

407
5.5.2 Condição Respiratória
Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seção 6.5) que envolve a comparação de dois tratamentos apli-
cados em pacientes com problemas respiratórios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
paciente foi observado em quatro ocasiões em que mediu-se a condição res-
piratória (boa ou ruim). Foram também observados o sexo e a idade (em
anos) de cada paciente além da pré-existência de um nı́vel base (sim ou não).
Apenas como ilustração descrevemos abaixo a incidência do problema respi-
ratório em cada ocasião segundo os dois tratamentos.

Visita 1 Visita 2 Visita 3 Visita 4


Tratamento 22/27 13/27 5/27 1/27
Placebo 20/29 18/29 21/29 15/29

Nota-se pela tabela acima que na primeira visita há uma incidência alta para
ambos os tratamentos de pacientes em condição respiratória ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variação para os pacientes tratados com
placebo. Portanto, há fortes indı́cios de que a droga reduz a chance de
condição respiratória ruim. Os dados completos desse experimento estão
descritos no arquivo respiratorio.txt.
Vamos denotar por Yij a condição (=1 ruim, =0 boa) do i-ésimo paci-
ente na j-ésima ocasião, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binária será assumido marginalmente que Yij ∼ Be(πij ) com parte
sistemática dada por
 
πij
log α + β1 Idadei + β2 Trati + β3 Sexoi + β4 Basei ,
1 − πij

408
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 pla-
cebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausência do nı́vel
base, =1 presença do nı́vel base) do i-ésimo paciente. Seguindo a sugestão
de Myers, Montgomery e Vining (2002, Seção 6.5) será assumida uma estru-
tura de correlação AR(1) para as respostas de cada paciente, ou seja, que
0
Corr(Yij , Yij 0 ) = 1 para j = j 0 e Corr(Yij , Yij 0 ) = ρ|j−j | para j 6= j 0 . Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao ∼ idade + trat + sexo + base,
id=paciente, family=binomial, corstr="AR-M", M=1).

Tabela 5.4
Estimativas dos parâmetros do modelo logı́stico aplicado
aos dados sobre condição respiratória.
Correlação AR(1) Independência
Parâmetro Estimativa z-robusto Estimativa z-robusto
α -0,377 -0,529 -0,404 -0,563
β1 0,043 3,380 0,048 3,683
β2 1,001 3,066 1,070 3,254
β3 -2,003 -2,988 -2,178 -3,207
β4 0,492 0,586 0,498 0,585
ρ 0,275 0,00

As estimativas dos parâmetros dos modelos com estrutura AR(1) e in-


dependente são apresentadas na Tabela 5.4. Nota-se que as estimativas não
diferem muito e os resultados inferencias são os mesmos. Isso pode ser expli-
cado pela baixa correlação entre as respostas do mesmo indivı́duo, ρ̂ = 0, 275.
Pelas estimativas da Tabela 5.4 pode-se concluir que o resultado da condição
respiratória independe do nı́vel base, no entanto depende da idade, do tra-
tamento e do sexo. Por exemplo, há um aumento na chance de condição
respiratória ruim com o aumento da idade, conforme esperado. A razão de
chances entre sexo feminino e masculino é estimada por ψ̂ = e2,003 = 7, 41,

409
ou seja, as mulheres têm aproximadamente 7,41 vezes a chance dos ho-
mens terem o problema. Pacientes que foram tratados com placebo têm
ψ̂ = e1,001 = 2, 72 vezes a chance dos pacientes que foram tratados com
a droga de terem condição respiratória ruim. Em todos os cálculos acima
supõe-se que as demais variáveis estão fixadas.
2
1
0
Resíduo de Pearson

−1
−2
−3

(18,4) (28,4)

0 10 20 30 40 50

Unidade Experimental

Figura 5.13: Gráfico do resı́duo de Pearson referente ao modelo binomial com


estrutura de correlação AR(1) ajustado aos dados sobre condição respiratória.

Na Figura 5.13 é apresentado o gráfico do resı́duo de Pearson contra a


ordem das observações e como podemos observar, com exceção de 2 resı́duos
referentes a medidas dos pacientes #18 e #28, todos os demais caem no
intervalo [-2,2], indicando um bom ajuste do modelo com estrutura de cor-
relação AR(1). O gráfico normal de probabilidades com o resı́duo de Pearson

410
(Figura 5.14) não indica afastamentos da suposição de distribuição marginal
Bernoulli com estrutura de correlação AR(1).

2
0
Resíduo de Pearson

−2
−4
−6

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.14: Gráfico normal de probabilidades referente ao modelo binomial


com estrutura de correlação AR(1) ajustado aos dados sobre condição respi-
ratória.

Já o gráfico da distância de Cook descrito na Figura 5.15 destaca três me-
didas de pacientes diferentes sendo duas dessas medidas destacadas também
no gráfico com o resı́duo de Pearson. Contudo, o ajuste sem considerarmos
esses três pacientes não causa mudanças inferenciais.

411
5.5.3 Placas dentárias
Hadgu e Koch(1999) discutem os resultados de um ensaio clı́nico com 109
adultos voluntários com pré-existência de placa dentária. Nesse estudo os
indivı́duos foram distribuı́dos de forma aleatória para receberem um lı́quido
tipo A (34 indivı́duos), um lı́quido tipo B (36 indivı́duos) e um lı́quido con-
trole (39 indivı́duos). As placas dentárias de cada indivı́duo foram avaliadas
e classificadas segundo um escore no inı́cio do tratamento, após 3 meses e
após 6 meses. Os dados encontram-se no arquivo rinse.txt.
0.5

(18,4)

(28,4)
0.4

(53,4)
Distância de Cook

0.3
0.2
0.1
0.0

0 10 20 30 40 50

Unidade Experimental

Figura 5.15: Distância de Cook referente ao modelo binomial com estrutura


de correlação AR(1) ajustado aos dados sobre condição respiratória.

412
Tabela 5.5
Medidas resumo para os escores das placas
dentárias segundo os tratamentos e
perı́odos de escovação.
Inı́cio 3 Meses 6 Meses
2,562 1,786 1,738
Controle (0,343) (0,700) (0,595)
n=39 n=39 n=36
2,568 1,315 1,259
Lı́quido A (0,354) (0,715) (0,744)
n=34 n=34 n=34
2,479 1,255 1,032
Lı́quido B (0,296) (0,550) (0,451)
n=36 n=36 n=36

O objetivo do estudo é verificar se pelo menos um dos novos lı́quidos reduz


o número médio de placas dentárias. Seja Yijk o escore do k-ésimo indivı́duo
do i-ésimo grupo (=1 controle, =2 lı́quido A, =3 lı́quido B) e j-ésimo perı́odo
(=1 inı́cio do tratamento, =2 após 3 meses, =3 após 6 meses), k = 1, . . . , nij
com n1j = 39, n2j = 34 e n3j = 36. Foram omitidas das nossas análises quatro
observações para as quais não foi possı́vel obter o valor do escore. Na Tabela
5.5 descrevemos os valores médios com os respectivos erros padrão para os
grupos formados. Nota-se um decréscimo no valor médio após 3 meses de
escovação para os três tratamentos, sendo a redução mais acentuada para os
lı́quidos A e B. Nota-se também um aumento da variabilidade. De 3 meses
para 6 meses de escovação o decréscimo continua para o escore médio dos
grupos que receberam os lı́quidos A e B, havendo uma redução mais evidente
para o grupo tratado com o lı́quido B. Esse grupo também apresenta as
menores variabilidades. Essas tendências podem ser observadas quando são
considerados os perfis individuais dos voluntários para os três tipos de lı́quido

413
Placebo
3.5

3.0

2.5

2.0

1.5

1.0

0.5

A
3.5

3.0

2.5
Escore

2.0

1.5

1.0

0.5

B
3.5

3.0

2.5

2.0

1.5

1.0

0.5

Início 3 Meses 6 Meses


Período

Figura 5.16: Gráfico de perfis para o escore dos voluntários que receberam
placebo, lı́quido tipo A e lı́quido tipo B referente aos dados sobre placas
dentárias.

ao longo do tempo conforme descrito na Figura 5.16.

Tabela 5.6
Estimativas dos parâmetros do modelo log-linear gama aplicado aos
dados sobre placas dentárias.
Parâmetro Estimativa z-robusto Parâmetro Estimativa z-robusto
α 0,941 44,407 (βγ)22 -0,308 -3,124
β2 0,002 0,080 (βγ)32 -0,319 -3,835
β3 -0,033 -1,138 (βγ)23 -0,333 -3,266
γ2 -0,278 -7,335 (βγ)33 -0,492 -5,792
γ3 -0,004 -8,321
ρ 0,38
φ−1 5,68

414
3
2
1
Resíduo de Pearson

0
−1
−2

0 20 40 60 80 100

Unidade Experimental

Figura 5.17: Gráfico do resı́duo de Pearson referente ao modelo binomial com


estrutura de correlação simétrica ajustado aos dados sobre placas dentárias.

Os pesquisadores verificaram após uma análise descritiva dos dados que


a distribuição gama é mais apropriada para descrever a resposta do que a
distribuição normal. Assim, vamos assumir que Yijk ∼ G(µij , φ). Seguindo
ainda os pesquisadores vamos supor um modelo log-linear com interação entre
tratamento e perı́odo, porém com uma parametrização um pouco diferente,

logµij = α + βi + γj + (βγ)ij ,

em que (βγ)ij representa a interação entre tratamento e perı́odo, sendo βi


e γj os efeitos principais. Teremos as restrições β1 = 0, γ1 = 0 e (βγ)1j =
(βγ)i1 = 0, para i = 1, 2, 3 e j = 1, 2, 3. As estimativas dos parâmetros são
descritas na Tabela 5.6 supondo correlação simétrica entre as medidas de um
mesmo indivı́duo. Nota-se que a estimativa da correlação não é muito alta.

415
Claramente confirma-se a existência de interação entre perı́odo e tratamento.
Os lı́quidos A e B reduzem em média a quantidade de placas dentárias,
havendo indı́cios de uma redução mais acentuada com o lı́quido B de 3 meses
para 6 meses de escovação.
Para ajustar esse modelo no R deve-se usar os comandos
tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score ∼ + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
6
4
Residuo de Pearson

2
0
−2

−3 −2 −1 0 1 2 3

Percentil da N(0,1)

Figura 5.18: Gráfico normal de probabilidades referente ao modelo gama com


estrutura de correlação simétrica ajustado aos dados sobre placas dentárias.

416
(22,3)
(70,3)

0.025
0.020
Distância de Cook

0.015
0.010
0.005
0.000

0 20 40 60 80 100

Unidade Experimental

Figura 5.19: Distância de Cook referente ao modelo gama com estrutura de


correlação simétrica ajustado aos dados sobre placas dentárias.

A Figura 5.17 descreve o gráfico de ı́ndices do resı́duo de Pearson. Nota-se


uma distriuição simétrica dos resı́duos que ficam concentrados no intervalo
[-3,3]. Pelo gráfico normal de probabilidades com o resı́duo de Pearson (Fi-
gura 5.18) nota-se alguns afastamentos, em particular para os resı́duos com
valores negativos mais extremos, indicando uma falta de ajuste nesses casos.
Finalmente, tem-se na Figura 5.19 o gráficos de ı́ndices da distância de Cook.
Destaque para a 3a medida dos voluntários #22 (lı́quido B) e #70 (lı́quido
B). Espera-se para ambos os voluntários um decréscimo no escore ao longo
do tempo. Todavia, para o voluntário #22 tem-se a sequência 2,56; 2,04 e
0,29, ou seja, uma queda muito acentuada da 2a medida para a 3a medida.
Já para o voluntário #70 tem-se a sequência 2,38; 0,33 e 1,75, ou seja, um
decréscimo muito acentuado da 1a para a 2a medida, porém um aumento

417
após a 2a medida. Essas tendências que destoam do esperado para o lı́quido
tipo B podem ter elevado o valor da distância de Cook para a 3a medida des-
ses voluntários. A retirada desses dois vonluntários, contudo, altera muito
pouco as estimativas e não altera os resultados inferenciais. Cardoso-Neto
e Paula (2001) analisaram este exemplo supondo restrições em alguns dos
parâmetros e encontraram evidências mais fortes com relação aos resultados
obtidos por Hadgu e Koch(1999).

5.6 Exercı́cios
1. Supor as funções de variância V (t) = t3 e V (t) = t + t2 /k para t >
0, k > 0. Encontre para cada caso a função Q(µ; y) e verifique sob
quais restrições as funções encontradas são proporcionais a funções de
verossimilhança da famı́lia exponencial.

2. Considere a seguinte função de quase-verossimilhança:


Z µ
1 y−t
Q(µ; y) = 2 dt,
σ y V (t)

em que V (t) = t(1 + t) para t > 0. (i) Desenvolva essa função de


quase-verossimilhança. (ii) Verifique se é possı́vel recuperar alguma
distribuição da famı́lia exponencial. Em caso afirmativo qual é a dis-
tribuição? (iii) Supor agora uma amostra aleatória de n variáveis
aleatórias independentes com função de quase-verossimilhança Q(µi ; yi )
dada acima. Como fica a função quase-desvio? (iv) Como estimar σ 2 ?

3. Considere novamente o arquivo claims.txt descrito no Capı́tulo 2 (exercı́cio


#20), em que 9 variáveis são observadas para uma amostra aleatória
de 996 apólices de seguros de veı́culos extraı́da do livro de de Jong
e Heller (2008). A variável expos (exposição do veı́culo), que varia

418
no intervalo (0,1), será considerada agora como variável resposta. Ini-
cialmente, faça uma análise descritiva dos dados e procure agrupar
as variáveis categóricas em um número menor de categorias. Apli-
que modelos de quase-verossimilhança com funções V (µ) = µ(1 − µ)
e V (µ) = µ2 (1 − µ)2 , em que µ denota o valor esperado para a ex-
posição do veı́culo, para explicar a variável resposta dadas as demais
variáveis explicativas. Para o modelo selecionado faça uma análise de
diagnóstico e procure interpretar os coeficientes estimados através de
razões de chances.

4. Supor Y1 , . . . , Yn variáveis aleatórias independentes com logaritmo da


função de quase-verossimilhança Q(µi ; yi ), i = 1, . . . , n. Mostre que as
funções escore e de informação para β ficam, respectivamente, dadas
por:
1 T −1
Uβ = D V (y − µ)
σ2
e  
∂U(β) 1 T −1
Kββ = −E = D V D.
∂β σ2

5. Sejam Yij variáveis aleatórias tais que Yij ∼ FE(µi , φ), i = 1, 2 e j =


1, . . . , m. A estatı́stica de Wald para testar H0 : µ1 − µ2 = 0 contra
H1 : µ1 − µ2 6= 0 é dada por ξW = (Ȳ1 − Ȳ2 )2 /Var(Ȳ1 − Ȳ2 ). Sob H0
e para m → ∞ segue que ξW ∼ χ21 . Calcular Var(Ȳ1 − Ȳ2 ) para as
seguintes situações:

(a) supondo que Corr(Yij , Yij 0 ) = ρ para (j 6= j 0 ; i fixo) e =0 em caso


contrário;

(b) supondo que Corr(Yij , Yi0 j ) = ρ para (i 6= i0 ; j fixo) e =0 em caso


contrário;

419
Para µ1 − µ2 e φ fixos e ρ ≥ 0 discutir o comportamento do poder de
ξW conforme ρ cresce para as situações (a) e (b). São esperados esses
comportamentos? Comente.

6. Supor Yij ∼ FE(µ, φ), para i = 1, . . . , n e j = 1, . . . , ri , Corr(Yij , Yij 0 ) =


ρ para j 6= j 0 (=1 caso contrário), ri ≥ 2. Obter E(Yi ) e Var(Yi ), em
que Yi = Yi1 + · · · + Yiri . Mostre que −1/(rmin − 1) ≤ ρ ≤ 1, comente.
Use os resultados Var(X + Z) = Var(X) + Var(Z) + 2Cov(X, Z) e
p p
Cov(X, Z) = ρ Var(X) Var(Z).
ind
7. Supor Yi ∼ Q(πi ; yi ), em que E(Yi ) = πi e Var(Yi ) = σ 2 πi (1 − πi ),

para i = 1, . . . , n, com parte sistemática dada por arcosen( πi ) =
β0 + β1 (xi − x̄). Obtenha a matriz de variância-covariância assintótica
Var(β̂), em que β = (β0 , β1 )> . Desenvolva uma estatı́stica tipo-escore
para testar H0 : β1 = 0 contra H1 : β1 6= 0? Qual a distribuição nula
assintótica da estatı́stica do teste? Resultados úteis: ni=1 (xi − x̄) = 0
P

d √ 1 du
e dx
arcsen{u(x)} = 1−u2 dx
.

8. Supor o modelo de quase-verossimilhança em que Y1 , . . . , Yn são variáveis


aleatórias independentes tais que E(Yi ) = µi e Var(Yi ) = σ 2 µ2i com
parte sistemática dada por logµi = β0 + β1 (xi − x̄). Responda aos itens
abaixo:

(a) como ficam as variâncias assintóticas de β̂0 e de β̂1 ?

(b) Como fica o teste de Wald para testar H0 : β0 = 0 contra H1 :


β0 6= 0?

(c) Proponha um teste tipo escore para testar H0 : β1 = 0 contra


H1 : β1 6= 0.

420
9. Como fica a diferença entre desvios para testar H0 : β1 = 0 contra H1 :
β1 6= 0 num modelo de quase-verossimilhança com V (µi ) = µ2i (1 − µi )2 ,
g(µi ) = ηi = xTi β e β = (β T1 , β T2 )T ?

10. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-ésimo elemento do i-ésimo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = µi , Var(Yijt ) = Vi φ−1 e que
Yijt pertence à famı́lia exponencial. Mostre que dado ρ̂ a equação de
estimação generalizada para µi pode ser expressa na forma S(µ̂i ) = 0,
em que
ri
X
S(µi ) = 1TT Rij (ρ)(yij − µi 1T ),
j=1

Rij é a matriz trabalho para o j-ésimo indivı́duo do i-ésimo grupo e


1T é um vetor T × 1 de uns. Expresse a estimativa de µi em forma
fechada.

11. Supor que Yi = (Yi1 , . . . , Yiri )T , i = 1, . . . , n, são vetores aleatórios


independentes tais que Yij ∼ Be(πi ). Assumir ainda que a matriz
trabalho para Yi é permutável e que
 
πi
log = xTi β.
1 − πi
Mostre que, dado ρ̂, as EEGs para β ficam dadas por
n
X
Sβ (β̂ G ) = {1 + (ri − 1)ρ̂}−1 xi (yi − ni π̂i ) = 0,
i=1

em que yi = yi1 + · · · + yiri . Sugestão: use a relação abaixo

R−1 −1 −1
i (ρ) = (1 − ρ) [Iri − ρ{1 + (ri − 1)ρ} J],

em que J é uma matriz ri × ri de uns. Como fica o processo iterativo


para estimar β?

421
12. Supor que Yij ∼ Be(µ) para i = 1, . . . , n e j = 1, . . . , ri , em que
Corr(Yij , Yij 0 ) = ρ (fixado) para j 6= j 0 com parte sistemática dada
n o
µ
por log 1−µ = β. Responda às seguintes questões: (i) como fica a
equação de estimação generalizada para estimar β? (ii) expresse em
forma fechada a estimativa β̂G (obtenha inicialmente µ̂G ) e (iii) como
fica a variância assintótica (não robusta) de β̂G ?

13. Supor que Yij ∼ Q(µ, σ 2 ) para i = 1, . . . , n e j = 1, 2, em que Var(Yij ) =


σ 2 µ2 , Corr(Yij , Yij 0 ) = ρ para j 6= j 0 com parte sistemática dada por
logµ = β. Responda às seguintes questões: (i) como fica a equação de
estimação generalizada para estimar β? (ii) expresse em forma fechada
a estimativa β̂G (obtenha inicialmente µ̂G ) e (iii) como fica a variância
assintótica (não robusta) de β̂G ? Supor que ρ e σ 2 são estimados con-
sistentemente.

14. Considere uma amostra aleatória de n indivı́duos que são observados


em 2 ocasiões cada um, sendo Yij a resposta do i-ésimo indivı́duo na
ind
j-ésima ocasião para i = 1, . . . , n e j = 1, 2, com a suposição Yi1 ∼
ind
FE(µ1 , φ) e Yi2 ∼ FE(µ2 , φ) e ρ = Corr(Yi1 , Yi2 ) ou seja Cov(Yi1 , Yi2 ) =
p p
ρ Var(Yi1 ) Var(Yi1 ). A diferença entre as médias amostrais nas duas
ocasiões Ȳ2 − Ȳ1 , em que Ȳj = n−1 ni=1 Yij para j = 1, 2, é utilizada
P

para detectar eventuais diferenças entre as médias µ2 e µ1 . Responda


às seguintes questões:

(i) calcule Var(Ȳ2 − Ȳ1 ),

(ii) chame ∆ = µ2 − µ1 e calcule P(∆ −  < Ȳ2 − Ȳ1 < ∆ + ) = 1 − α,


0 < α < 1 e  > 0, em que 1 − α = P(−z < Z < z), Z ∼ N(0, 1),

(iii) expresse n em função das quantidades z, , ∆ e ρ e

422
(iv) discuta o comportamento de n em função de ρ mantendo-se as
demais quantidades fixas.

Supor para n grande Ȳ2 − Ȳ1 ∼ N(∆, Var(Ȳ1 − Ȳ2 )).

15. (Myers, Montgomery e Vining, 2002, p. 231). Um experimento é con-


duzido para avaliar a dispersão de um pigmento particular numa pin-
tura. Quatro diferentes misturas do pigmento são estudadas. O pro-
cedimento consiste em preparar cada mistura e aplicá-la num painel
usando três métodos diferentes: pincel, rolo e spray. O experimento
é repetido três dias diferentes e a resposta é a porcentagem de re-
flectância do pigmento. Os dados são descritos na tabela abaixo e no
arquivo mistura.txt.

Mistura
Dia Método 1 2 3 4
1 64,5 66,3 74,1 66,5
1 2 68,3 69,5 73,8 70,0
3 70,3 73,1 78,0 72,3

1 65,2 65,0 73,8 64,8


2 2 69,2 70,3 74,5 68,3
3 71,2 72,8 79,1 71,5

1 66,2 66,5 72,3 67,7


3 2 69,0 69,0 75,4 68,6
3 70,8 74,2 80,1 72,4

Analise os dados através de equações de estimação generalizadas com


estrutura de correlação simétrica. Faça análise de diagnóstico.

16. (Myers, Montgomery e Vining, 2002, Seção 6.5). No arquivo ratos-


gee.txt estão os dados de um experimento em que 30 ratos tiveram uma

423
condição de leucemia induzida. Três drogas quimio-terápicas foram uti-
lizadas no tratamento dos animais. Foram coletadas de cada animal a
quantidade de células brancas (WBC), a quantidade de células verme-
lhas (RBV) e o número de colônias de células cancerosas (RESP) em
quatro perı́odos diferentes. Assuma distribuição de Poisson para RESP
em cada perı́odo e verifique através de um modelo log-linear se existe
diferenças significativas entre os três tratamentos considerando WBC
e RBC como variáveis explicativas. Compare os resultados supondo
estruturas de correlação independente e AR(1). Faça uma análise de
diagnóstico.
iid iid
17. Sejam Yi1 ∼ FE(µ1 , φ) e Yi2 ∼ FE(µ2 , φ), em que Corr(Yi1 , Yi2 ) = ρ,
para i = 1, . . . , n. Para testar H0 : µ1 − µ2 = 0 contra H1 : µ1 − µ2 6= 0
considere a estatı́stica
(Ȳ1 − Ȳ2 )2
ξW = ,
Var(Ȳ1 − Ȳ2 )
que sob H0 segue assintoticamente distribuição χ21 central. Sob a hipótese
alternativa ξW segue assintoticamente distribuição χ21 (λ), em que λ =
(µ1 − µ2 )2 /2Var(Ȳ1 − Ȳ2 ) é o parâmetro de não centralidade. Seja
Pn (λ, ρ) = P (ξW > c|H1 ) o poder do teste (probabilidade de rejeitar
H0 quando há diferença entre as médias populacionais). Calcule inicial-
mente Var(Ȳ1 − Ȳ2 ) e discuta o comportamento do poder do teste à me-
dida que varia o coeficiente de correlação linear de Pearson −1 ≤ ρ ≤ 1,
supondo fixados µ1 , µ2 , φ e n. Procure responder para quais situações
será necessário um tamanho amostral maior para detectar a mesma
diferença (entre as médias populacionais) com a mesma probabilidade.

18. (Myers, Montgomery e Vining, 2002, Seção 6.5). No arquivo artrite.txt


estão os dados de um ensaio clı́nico em que 20 pacientes com ar-

424
trite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variáveis explicativas g^
enero (1: masculino, 0: feminino) e a idade
do paciente em anos além do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasiões (1: inı́cio, 2: 1 mês, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo próprio
paciente (1: ruim, 2: regular, 3: bom). Faça inicialmente uma análise
descritiva com os dados.

Seja Yij o estado do i-ésimo paciente na j-ésima ocasião (=1 bom,


=0 regular ou ruim) para i = 1, . . . , 20 e j = 1, 2, 3, 4. Assuma que
Yij ∼ Be(πij ), em que πij é a probabilidade do estado ser conside-
rado bom pelo i-ésimo paciente na j-ésima ocasião. Proponha uma
EEG para explicar πij através de uma regressão logı́stica e conside-
rando as estruturas de correlação simétrica e AR(1) entre as ocasiões
de um mesmo paciente. Considere no modelo apenas os efeitos prin-
cipais tratamento, idade, g^
enero e ocasi~
ao. Compare os modelos
através de métodos de diagnóstico e para o modelo escolhido faça uma
interpretação através de razões de chances.

19. No arquivo Milk do gamlss são apresentados dados referentes a um


experimento longitudinal desenvolvido na Austrália com 79 vacas que
foram aleatorizadas segundo três dietas e foi observado semanalmente
a quantidade de proteı́na no leite de cada animal. O objetivo principal
do estudo é verificar se há diferenças significativas entre as quantida-
des médias semanais de proteı́na sob as três dietas. Os dados estão
descritos na seguinte ordem: (i) protein (quantidade de proteı́na), (ii)
Time (semana), (iii) Cow (identificação do animal) e (iv) Diet (cevada,
cevada+tremoços e tremoços). É preciso informar que a variável Diet

425
é categórica através do comando

Diet=factor(Diet).

Fazer inicialmente uma análise descritva dos dados, por exemplo, apre-
sentando os perfis dos animais segundo a quantidade de proteı́na ob-
servada ao longo das semanas e para cada dieta gráficos de densidade e
boxplots. Ajustar inicialmente uma equação de estimação generalizada
gama com estrutura de correlação do tipo AR(1) e considere o tempo
como variável explicativa contı́nua. Verifique se é possı́vel incluir in-
teração entre Diet e Time. Faça uma análise de diagnóstico e interprete
os resultados do modelo selecionado.

20. No arquivo gross.txt estão resumidos os dados de produtividade dos


48 estados norte-americanos contı́guos no perı́odo de 1970 a 1986. As
variáves estão descritas na seguinte ordem (os recursos estão expressos
em milhões de USD): (i) state, nome do estado, (ii) region, região do
estado, (iii) yr, ano, (iv) pcap, total do capital de empresas públicas,
(v) hwy, capital das estradas e rodovias, (vi) water, capital das em-
presas de saneamento básico, (vii) util, capital das demais empresas
públicas, (viii) pc, total do capital privado, (ix) gsp, produto interno
bruto, (x) emp, total de empregos e (xi) unemp, taxa de desemprego. O
objetivo do estudo é tentar relacionar o produto interno bruto de cada
estado com as demais variáveis. Faça uma análise descritiva conside-
rando apenas as variáveis, gsp, water e yr.

Supor inicialmente o seguinte modelo de quase-verossimilhança:

(i) Yij ∼ Q(µij ; yij ), E(Yij ) = µij e Var(Yij ) = σ 2 µ2ij


(ii) log(µij ) = β0 + β1 log(water)ij + β2 yrij
(iii) Corr(Yij ) = Rij (α),

426
em que σ 2 > 0, Yij = (Yij1 , . . . , Yij17 )> . Compare o modelo acima su-
pondo as estruturas de correlação simétrica e AR(1). Para a estrutura
selecionada tente melhorar o modelo, por exemplo, incluindo interação.
Faça uma análise de diagnóstico do modelo final e interpetre os resul-
tados.

427
Apêndice A

Neste apêndice são descritos os conjuntos de dados usados nos exemplos e nos
exercı́cios propostos. As variáveis são descritas na ordem em que aparecem
em cada arquivo.

Capı́tulo 1
canc3.txt: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo
(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).

canc4.txt: grupo de passagem (0 a 28), presença de massa tumoral (1:sim,


0:não), caquexia (1:sim, 0:não) e tempo de sobrevivência (em dias).

capm.txt: taxa de retorno Tbill, retorno Microsoft, retorno SP500, retorno


GE e retorno Ford.

censo.txt: unidade da federação, escolaridade média (anos de estudo) e


renda média (em reais).

imoveis.txt: imposto do domicı́lio (em 100 USD), área do terreno (em 1000
pés quadrados), área construı́da (em 1000 pés quadrados), idade da
residência (em anos) e preço de venda do imóvel (em 1000 USD).

reg1.txt: área (em mil pés quadrados) e preço (em mil USD).

428
reg2.txt: sigla do estado, taxa do combustı́vel (em USD), porcentagem de
motoristas licenciados, renda per capita (em USD), ajuda federal às
estradas do estado (em mil USD) e consumo per capita de combustı́vel
(em galões por ano).

reg3.txt: nome do estado, população estimada em julho de 75, renda per


capita em 74 (em USD), proporção de analfabetos em 70, expectativa
de vida 69-70, taxa de criminalidade em 76 (por 100000 habitantes),
proporção de estudantes que concluı́ram o segundo grau em 70, número
de dias do ano com temperatura abaixo de zero graus Celsus e área do
estado (em milhas quadradas).

reg4.txt: x1, x2, x3, x4, e octanas. A resposta é o número de octanas.

salarios.txt: salário anual (em mil USD), sexo, posição na empresa (escore
de 1 a 9) e experiência (em anos).

trees.txt: diâmetro (em polegadas), altura (em pés) e volume da árvore (em
pés cúbicos).

fuel2001.txt: unidade da federação, número de motoristas licenciados, to-


tal de gasolina vendida (em mil galões), renda per capita em 2000 (em
mil USD), total de milhas em estradas federais, milhas per capita per-
corridas, população ≥ 16 anos, taxa da gasolina (em cents por galão).

wine.txt: claridade, aroma, corpo, sabor, aromac (aroma do tonel de car-


valho), qualidade e região (região1, região 2, região 3, região 4).

429
Capı́tulo 2
claims.txt: valor do veı́culo (em 10000 dolares australianos), exposição do
veı́culo, número de sinistros no perı́odo, custo total dos sinistros (em do-
lares australianos), tipo do veı́culo (em 11 categorias), idade do veı́culo
(em 4 categorias), sexo do condutor principal, área de residência do
condutor principal (em 6 categorias) e idade do condutor principal (em
6 categorias).

dfilme.txt: tempo de duração do filme (em horas) e densidade máxima do


filme.

energy.txt: total de energia consumida num mês (em kilowatts-hora) e de-


manda de energia na hora de pico.

fluxo.txt : idade (em anos), gênero, interj (interjeiçôes por minuto), fpm
(frequência de sı́labas por minuto) e fsm (frequência de sı́labas por
minuto).

insurance.txt: valor pago do seguro (dolares australianos), representação


legal (0:não, 1:sim), mês em que ocorreu o acidente e tempo operacio-
nal.

milho.txt: quantidade de nitrogênio, quantidade de fosfato e produtividade


de milho (libras/acre).

pesca.txt: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), lati-
tude (de 23,25o a 28,25o ), longitude (de 41,25o a 50,75o ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforço).

430
raia.txt : perı́odo (seco e chuvoso), local (local da pesca), mare (maré,
quadratura e sizı́gia), vvento (velocidade do vento m/s), tmax (tempe-
ratura máxima em graus Celsus), tmin (temperatura mı́nima em graus
Celsus), ins (insolação em horas) e cpue (captura por unidade de es-
forço).

restaurante.txt: faturamento anual (em mil USD) e gastos com publici-


dade (em mil USD).

snack.txt: força necessária para o cisalhamento, tipo de snack (1:A, 2:B,


3:C, 4:D, 5:E), número de semanas.

sobrev.txt: número de células brancas, tempo de sobrevivência (em sema-


nas) e caracterı́stica morfológica (AG=1 positivo, AG=0 negativo).

turbina.txt: tipo de turbina (1 a 5) e tempo de duração do motor (em


milhões de ciclos).

vidros.txt: tempo de resistência (em horas), voltagem (1:200, 2:250, 3:300,


4:350) e temperatura (1:170 graus Celsus, 2:180 graus Celsus).

Capı́tulo 3
besouros.txt: besouros mortos, besouros expostos e dose.

caduquice.txt: escore no exame psicológico, ocorrência de caduquice (1:sim,


0:não).

camundongos: sexo (1:macho, 0:fêmea), tratamento (1:sim, 0:controle), ca-


sos e expostos.

431
dengue.txt: idade (em anos) do entrevistado, nı́vel sócio-econômico (1:alto,
2:médio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnóstico da doença (1:sim, 0:não).

diabetes.txt: massa corporal, histórico familiar (1:presença, 0:ausência) e


atividades fı́sicas (1:presença, 0:ausência) para os casos e para os con-
troles, respectivamente.

dose1.txt: dose, caramujos expostos e caramujos mortos.

dose2.txt: dose, caramujos expostos e caramujos mortos.

dose3.txt: dose, caramujos expostos e caramujos mortos.

equipamentos.txt: tempo, número de equipamentos expostos, número de


equipamentos que falaharam.

gestantes.txt: idade (0:¡ 30, 1:30 ou +), número de cigarros consumidos


por dia (0:¡ 5, 1:5 ou +), tempo de gestação (0:¡=260 dias, 1:¿ 260
dias), crianças não sobreviventes e crianças sobreviventes.

grahani.txt: número de lagartos da espécie grahani, total de lagartos, perı́odo


do dia (1:manhã, 2:meio-dia, 3:tarde), comprimento da madeira (1:curta,
2:cumprida), largura da madeira (1:estreita, 2:larga) e local de ocupação
(1:claro, 2:escuro).

heart: Age (idade em anos), FE 9faixa etária) e HD (doença arterial coro-


nariana, 1:presença e 0:ausência).

insetic.txt: número de insetos mortos, número de insetos expostos, dose


do inseticida, inseticida DDT, inseticida γ-DDT e inseticida DDT +
γ-DDT (1:presença, 0:ausência).

432
leuce.txt: idade do paciente (em anos), mancha diferencial da doença, infil-
tração na medula, células com leucemia, malignidade da doença, tempe-
ratura máxima antes do tratamento, tratamento (1:satisfatório, 0:não),
tempo de sobrevivência (em meses) e situação (1:sobrevivente, 0:não
sobrevivente).

matched.txt: estrato, observação (1:caso, 2:controle), idade da paciente


no momento da entrevista (em anos), diagnóstico (1:caso, 0:controle),
tempo de escolaridade (em anos), grau de escolaridade (0:nenhum, 1:se-
gundo grau, 2:técnico, 3:universitário, 4:mestrado, 5:doutorado), chec-
kup regular (1:sim, 2:não), idade da primeira gravidez, idade do inı́cio
da menstruação, número de abortos, número de filhos, peso (em li-
bras), idade do último perı́odo menstrual e estado civil (1:casada, 2:
divorciada, 3:separada, 4:viúva, 5:solteira). Observações perdidas são
denotadas por NA.

meninas.txt: garotas menstruando, garotas entrevistadas e idade média.

morgan.txt: concentração (R, D, M), dose, insetos expostos, insetos mor-


tos.

olhos.txt: cor dos olhos dos pais, cor dos olhos dos avós, número total de
filhos e número de filhos com olhos claros.

prefauto.txt: preferência comprador tipo de automóvel (1:americano, 0:ja-


ponês), idade do comprador (em anos), sexo do comprador (0:mascu-
lino, 1:feminino) e estado civil do comprador (0:casado, 1:solteiro).

pregibon.txt: resposta (1:ocorrência, 0:ausência), volume e razão.

pulso.txt: pulsação em repouso (1:normal, 0:alta), hábito de fumar (1:sim,


2:não) e peso (em kg).

433
rotifers.txt: densidade, rotifers suspensos, rotifers expostos e espécie (1:
Polyarthra, 0:Keratella).

sementes.txt: temperatura da germinação, nı́vel da umidade, nı́vel da tem-


peratura, número de sementes que germinaram.

Capı́tulo 4
breslow.txt: número de casos de câncer, total de pessoas-anos, número de
cigarros por dia (1:não fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etária (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).

canc1.txt: idade no primeiro emprego com 4 nı́veis (1:¡20, 2:20-27, 3:27.5-


34.9, 4:35+ anos), ano do primeiro emprego com 4 nı́veis (1:¡1910,
2:1910-1914, 3:1915-1919, 4:1920-1924), tempo decorrido desde o pri-
meiro emprego com 5 nı́veis (1:0-19, 2:20-29, 3:30-39, 4:40-49, 5:50+
anos), número de casos de câncer e o total de pessoas-anos de ob-
servação.

detergente.txt: temperatura da água, uso de M, preferência (X,M), maciez


da água, número de pessoas.

emprego.txt: nı́vel de renda (1: ¡ USD 6000, 2: USD 6000-15000, 3: USD


15000-25000, 4: ¿ USD 25000), grau de satisfação (1:alto, 2: bom, 3:
médio, 4: baixo) e número de indivı́duos.

geriatra.txt: número de quedas no perı́odo, intervenção (0:educação so-


mente, 1:educação e exercı́cios fı́sicos), sexo (0:feminino, 1:masculino),
balanço e força.

434
heart.txt: doença das coronárias (1:sim, 2:não), nı́vel de colesterol (1:me-
nor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),pressão
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e número de indivı́duos.

navios.txt: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricação (1:60-
64, 2:65-69, 3:70-74, 4:75-79), perı́odo de operação (1:60-74, 2:75-79),
tempo de operação (em meses) e número de avarias.

nitrofen: dosagem de nitrofen, total de ovos eclodidos.

quine.txt: etnia (A:aborı́gine, N:não aborı́gine), sexo (M:masculino, F: fe-


minino), ano (F0:8a série, F1:1o ano ensino médio, F2:2o ano ensino
médio, F3:3o ano ensino médio), desempenho (SL:baixo, AL:normal) e
dias ausentes no ano letivo.

recrutas.txt: hábito de nadar (ocasional, frequente), local onde costuma


nadar (piscina, praia), faixa-etária (15-19, 20-25, 25-29), sexo (mascu-
lino, feminino) e número de infecções de ouvido.

rolos.txt: comprimento do tecido (em metros) e número de falhas.

store.txt: número de clientes, número de domicı́lios, renda média anual (em


USD), idade média dos domicı́lios (em anos), distância entre a área e o
competidor mais próximo (em milhas) e distância entre a área e a loja
(em milhas).

tvcabo.txt: número de domicı́lios na área (em milhares), porcentagem de


domicı́lios com TV a cabo, renda per capita (em USD) por domicı́lio
com TV a cabo, taxa de instalação de TV a cabo (em USD), custo
médio mensal de manutenção de TV a cabo (em USD), número de

435
canais a cabo disponı́veis na área e número de canais não pagos com
sinal de boa qualidade disponı́veis na área.

Capı́tulo 5
artrite.txt: paciente, ocasião (1:inı́cio, 2:1 mês, 3:2 meses, 4:3 meses), gênero
(1:masculino, 0:feminino), idade (em anos), tratamento (0:placebo, 1:au-
ronofin), resultado (1:ruim, 2:regular, 3:bom).

ataques.txt: indivı́duo, perı́odo (1:antes do tratamento, 2:1o perı́odo após


o tratamento, 3:2o perı́odo após o tratamento, 4:3o perı́odo após o tra-
tamento), número de semanas em cada perı́odo, número de ataques em
cada perı́odo e tratamento (0:placebo, 1:progabide).

cevada.txt: incidência da mancha (proporção), local (1 a 9) e variedade (1


a 10).

mosca.txt: número de ácaros coletados espécie2, espécie3, espécie6, espécie14,


número de partes da placa, posição (1:lateral, 0:central), região (1:São
Roque, 2:Pindamonhangaba, 3:Nova Odessa, 4:Ribeirão Preto) e tem-
peratura (em graus Celsus).

mistura.txt: painel, dia, método, mistura, porcentagem de reflectância do


pigmento.

ratosgee.txt: animal, perı́odo, quantidade de células brancas, quantidade


de células vermelhas e número de colônias de células cancerosas.

respiratorio.txt: paciente, tratamento (0:droga ativa, 1:placebo), sexo (0:fe-


minino, 1:masculino), idade (em anos), nı́vel base (0:ausência, 1:pre-
sença) e condição do paciente nas visitas (0:boa, 1:ruim).

436
rinse.txt: voluntário, perı́odo (1:inı́cio, 2:após 3 meses, 3:após 6 meses),
tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.

437
Apêndice B

Neste apêndice são apresentados os códigos em R dos programas de envelope


usados para alguns MLGs.

Modelos com resposta normal


X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
H = X%*%solve(t(X)%*%X)%*%t(X)
h = diag(H)
si = lm.influence(fit.model)$sigma
r = resid(fit.model)
tsi = r/(si*sqrt(1-h))
#
ident = diag(n)
epsilon = matrix(0,n,100)
e = matrix(0,n,100)
e1 = numeric(n)
e2 = numeric(n)
#
for ( i in 1:100) {

438
epsilon[,i] = rnorm(n,0,1)
e[,i] = (ident - H)%*%epsilon[,i]
u = diag(ident - H)
e[,i] = e[,i]/sqrt(u)
e[,i] = sort(e[,i]) }
#
for ( i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(tsi,e1,e2)
par(pty="s")
qqnorm(tsi, xlab="Quantil da N(0,1)", ylab = "Resı́duo Studentizado",
ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab= , type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta gama


X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)

439
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit.model,type="response")
fi = (n-p)/sum((ro/(fitted(fit.model)))^ 2)
td = resid(fit.model,type="deviance")*sqrt(fi/(1-h))
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rgamma(n,fi)
resp = (fitted(fit.model)/fi)*resp
fit = glm(resp ∼ X, family=Gamma)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
ro = resid(fit, type="response")
phi = (n-p)/sum((ro/(fitted(fit)))^ 2)
e[,i] = sort(resid(fit, type="deviance")*sqrt(phi/(1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {

440
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)

Modelos com resposta binomial


X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)

441
#
e = matrix(0,n,100)
for(i in 1:100){
dif = runif(n) - fitted(fit.model)
dif[ dif >=0 ] = 0
dif[dif < 0] = 1
nresp = dif
fit = glm(nresp ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
#
par(pty="s")

442
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta binomial com réplicas


X = model.matrix(fit.model)
k = nrow(X)
e = matrix(0,k,100)
tot = numeric(k)
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
td = sort(resid(fit.model, type="deviance")/sqrt(1-h))
#
for(i in 1:100){
for(j in 1:k) {
dif = runif(n[j]) - fitted(fit.model)[j]
dif[dif >= 0] = 0
dif[dif<0] = 1
tot[j] = sum(dif)}

443
xmat = cbind(tot,n-tot)
fit = glm(xmat ∼ X, family=binomial)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt(1-h)) }
#
e1 = numeric(k)
e2 = numeric(k)
#
for(i in 1:k){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]}
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td,xlab="Quantil da N(0,1)", ylab="Componente do Desvio",
ylim=faixa)
#
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=,ylab=,type="l",ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE,xlab=,ylab=, type="l",ylim=faixa,lty=1)

444
par(new=TRUE)
qqnorm(med,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta de Poisson


X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
w = fit.model$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)
#
e = matrix(0,n,100)
for(i in 1:100){
nresp = rpois(n, fitted(fit.model))
fit = glm(nresp ∼ X, family=poisson)
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit,type="deviance")/sqrt(1-h)) }
#
e1 = numeric(n)
e2 = numeric(n)

445
#
for(i in 1:n){
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95] }
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty="s")
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE,xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="l", ylim=faixa, lty=2)

Modelos com resposta binomial negativa


X = model.matrix(fit.model)
n = nrow(X)
p = ncol(X)
fi = fit.model$theta
w = fi*fitted(fit.model)/(fi + fitted(fit.model))
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)

446
h = diag(H)
td = resid(fit.model,type="deviance")/sqrt(1-h)
#
e = matrix(0,n,100)
for (i in 1:100) {
resp = rnegbin(n,fitted(fit.model),fi)
fit = glm.nb( resp ∼ X)
fi = fit$theta
w = fit$weights
W = diag(w)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H)
e[,i] = sort(resid(fit, type="deviance")/sqrt((1-h))) }
#
e1 = numeric(n)
e2 = numeric(n)
#
for (i in 1:n) {
eo = sort(e[i,])
e1[i] = eo[5]
e2[i] = eo[95]
#
med = apply(e,1,mean)
faixa = range(td,e1,e2)
par(pty= "s")

447
qqnorm(td, xlab="Quantil da N(0,1)", ylab="Componente do Desvio
Padronizado", ylim=faixa)
par(new=TRUE)
qqnorm(e1,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa,lty=1)
par(new=TRUE)
qqnorm(e2,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=1)
par(new=TRUE)
qqnorm(med,axes=FALSE, xlab=, ylab=, type="1", ylim=faixa, lty=2)

448
Bibliografia

Agresti A (1990) Categorical Data Analysis, First Edition. Wiley, New


York.

Agresti A (2013) Categorical Data Analysis, Third Edition. Wiley, New


York.

Aitkin M, Anderson DA, Francis B, Hinde JP (1989) Statistical Modelling


in Glim. Clarendom Press, Oxford.

Akaike H (1974) A new look at statistical model identification. IEEE Tran-


sactions on Automatic Control AU-19:716-722.

Aranda-Ordaz FJ (1981) On two families of transformations to additivity


for binary response data. Biometrika 68:357-364.

Armitage P (1955) Test for linear trend in proportions and frequencies.


Biometrics 11:375-386.

Armitage P (1971) Statistical Methods in Medical Research. Blackwell Sci-


entific Publications, Oxford.

Atkinson AC (1981) Two graphical display for outlying and influential ob-
servations in regression. Biometrika 68:13-20.

449
Atkinson AC (1985) Plots, Transformations and Regressions. Oxford Sta-
tistical Science Series, Oxford.

Beckman RJ, Nachtsheim CJ, Cook RD (1987) Diagnostics for mixed-model


analysis of variance. Technometrics 29:413-426.

Belsley DA, Kuh E, Welsch RE (1980) Regression Diagnostics. John Wiley,


New York.

Bliss CI (1935) The calculation of the dosage-mortality curve. Annals of


Applied Biology 22:134-167.

Bishop YMM, Fienberg SE, Holland PW (1975) Discrete Multivariate Analy-


sis: Theory and Practice. MIT Press, Cambridge.

Boice JD, Monson RR (1977) Breast cancer in women after repeated flu-
oroscopic examinations of the chest. Journal of the National Cancer
Institute 59:823-832.

Box GEP, Cox DR (1964) An analysis of transformations (with discussion).


Journal of the Royal Statistical Society B 26:211-252.

Box GEP, Draper NR (1987) Empirical Model-Building and Response Sur-


faces. John Wiley & Sons, New York.

Breslow NE, Clayton DG (1993) Approximate inference in generalized linear


mixed models. Journal of the American Statistical Association 88:9-25.

Breslow NE, Day NE (1980) Statistical Methods in Cancer Research, Vol.


I, The Analysis of Case-Control Studies. IARC Scientific Publications,
International Agency for Research on Cancer, Lyon.

450
Breslow NE, Day NE (1987) Statistical Methods in Cancer Research, Vol.
II, The Design and Analysis of Cohort Studies. IARC Scientific Publi-
cations, International Agency for Research on Cancer, Lyon.

Buse A (1982) The likelihood ratio, Wald and Lagrange multiplier tests: an
expository note. The American Statistician 36:153-157.

Cardoso-Neto J, Paula GA (2001). Wald one-sided test using generali-


zed estimating equations approach. Computational Statistics and Data
Analysis 36:475-495.

Casella G, Straederman WE (1980) Confidence bands for linear regression


with restricted preditor variables. Journal of the American Statistical
Association 75:862-868.

Collett D (1991) Modelling Binary Data. Chapman and Hall, London.

Cook RD (1977) Detection of influential observations in linear regressions.


Technometrics 19:15-18.

Cook RD (1986). Assessment of local influence (with discussion). Journal


of the Royal Statistical Society B 48:133-169.

Cook RD, Peña D, Weisberg S (1988) The likelihood displacement: A


unifying principle for influence measures. Communications in Statis-
tics, Theory and Methods 17:623-640.

Cook RD, Weisberg S (1982) Residuals and Influence in Regression. Chap-


man and Hall, London.

Cordeiro GM (1986) Modelos Lineares Generalizados. Livro texto de mi-


nicurso, VII Simpósio Nacional de Probabilidade e Estatı́stica, UNI-
CAMP, Campinas, SP.

451
Cordeiro GM, McCullagh P (1991) Bias correction in generalized linear
models. Journal of the Royal Statistical Society B 53:629-643.

Cordeiro GM, Ferrari SLP, Paula GA (1993) Improved score tests for gene-
ralized linear models. Journal of the Royal Statistical Society B 55:661-
674.

Cordeiro GM, Paula GA, Botter DA (1994) Improved likelihood ratio tests
for dispersion models. International Statistical Review 62:257-274.

Cordeiro GM, Paula GA (1989) Improved likelihood ratio statistics for ex-
ponential family nonlinear models. Biometrika 76:93-100.

Cornfield J (1951) A method of estimating comparative rates from clinical


data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11:1269-1275.

Cornfield J (1956) A statistical problem arising from retrospective studies.


In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.

Cox DR (1970) The Analysis of Binary Data. Methuen, London.

Cox DR (1972) Regression models and life tables (with discussion). Journal
of the Royal Statistical Society B 74:187-220.

Cox DR, Hinkley DV (1974) Theorical Statistics. Chapman and Hall, Lon-
don.

Cox DR, Oakes D (1984) Analysis of Survival Data. Chapman and Hall,
London.

452
Cox DR, Snell EJ (1968) A general definition of residuals (with discussion).
Journal of the Royal Statistical Society B 30:248-275.

Cox DR, Snell EJ (1989) The Analysis of Binary Data, 2nd Edition. Chap-
man and Hall, London.

Davison AC, Gigli A (1989) Deviance residuals and normal scores plots.
Biometrika 76:211-221.

Davison AC, Tsai CL (1992) Regression model diagnostics. International


Statistical Review 60:337-353.

Day NE, Byar DP (1979) Testing hypothesis in case-control studies-equivalence


of Mantel-Haenszel statistics and logit score tests. Biometrics 35:623-
630.

de Jong P, Heller GZ (2008)

Generalized Linear Models for Insurance Data. Cambridge University Press,


Cambridge.

Diggle PJ, Liang KY, Zeger SL (1994) Analysis of Longitudinal Data. Ox-
ford University Press.

Dixon WJ (1987) BMDP Statistical Software. University of California Press,


Berkeley.

Dunn PK, Smyth GK (1996) Randomized Quantile Residuals. Journal of


Computational and Graphical Statistics 5:236-244.

Efron B (1988) Logistic regression, survival analysis and the Kaplan-Meier


curve. Journal of the American Statistical Association 83:414-425.

453
Emerson JD, Hoaglin DC, Kempthorne PJ (1984) Leverage in least squa-
res additive-plus-multiplicative fits for two-way tables. Journal of the
American Statistical Association 79:329-335.

Escobar LA, Meeker WQ (1992) Assessing influence in regression analysis


with censored data. Biometrics 48:507-528.

Everitt BS (1977) The Analysis of Contingency Tables. Chapman and Hall,


London.

Everitt BS (1994) A Handbook of Statistical Analysis using S-Plus. Chap-


man and Hall, London.

Fahrmeir L, Kaufmann H (1985) Consistency and asymptotic normality of


the maximum likelihood estimator in generalized linear models. Annals
of Statistics 13:342-368.

Fahrmeir L, Klinger J (1994) Estimating and testing generalized linear mo-


dels under inequality constraints. Statistical Papers 35:211-229.

Farhrmeir L, Tutz G (2001). Multivariate Statistical Modelling based on


Generalized Linear Models. Springer, New York.

Feigl P, Zelen M (1965) Estimation of exponential survival probabilities


with concomitant information. Biometrics 21:826-838.

Finney DJ (1971) Probit Analysis, 3rd. Edition. Cambridge University


Press, Cambridge.

Finney DJ (1978) Statistical Methods in Biological Assay, 3rd. Edition.


Cambridge University Press, Cambridge.

454
Fieller EC (1954) Some problems in interval estimation. Journal of the
Royal Statistical Society B 16:175-185.

Foster DP, Stine RA, Waterman RP (1998) Business Analysis using Regres-
sion. New York: Springer.

Fung WK, Kwan CW (1997) A note on local influence based on normal


curvature.Journal of the Royal Statistical Society B 59:839-843.

Gray JB (1989) On the use of regression diagnostics. The Statistician 38:97-


105.

Green PJ, Silverman BW (1994) Nonparametric Regression and Generalized


Linear Models. Chapman and Hall.

Gu H, Fung WK (1998) Assessing local influence in canonical correlation


analysis. Annals of the Institute of Statistical Mathematics 50:755-772.

Hadgu A, Koch G (1999) Application of generalized estimating equations


to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9:161-178.

Hand DJ, Daly F, Lunn AD, McConway KJ, Ostrowski E (1994) A Hand-
book of Small Data Sets. Chapman and Hall, London.

Hannan J, Harkness W (1963) Normal approximation to the distribution of


two independent binomials, conditional to the sum. Annals of Mathe-
matical Statistics 34:1593-1595.

Hastie T, Tibshirani R (1990) Generalized Additive Models. Chapman and


Hall, London.

455
Hinde J (1982) Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.

Hinde J, Demétrio CGB (1998). Overdispersion: model and estimation.


Computational Statistics and Data Analysis 27, 151-170.

Hoaglin DC, Welsch RE (1978) The hat matrix in regression and ANOVA.
The American Statistician 32:17-22.

Hosmer DW, Lemeshow S (1989) Applied Logistic Regression, 1st Edition.


Wiley.

Hosmer DW, Lemeshow S, Sturdivant R (2013) Applied Logistic Regression,


3nd Edition. Wiley.

Innes JRM, Ulland BM, Valerio MG, Petrucelli L, Fishbein L, Hart ER,
Pallota AJ, Bates RR, Falk HL, Gart JJ, Klein M, Mitchell I, Peters J
(1969) Biossay of pesticides and industrial chemicals for tumorigenicity
in mice: A preliminary note. Journal of the National Cancer Institute
42:1101-1114.

Jørgensen B (1987) Exponential dispersion models (with discussion). Jour-


nal of the Royal Statistical Society B 49:127-162.

Kwan CW, Fung WK (1998) Assessing local influence for specific restricted
likelihood: Applications to factor analysis. Psychometrika 63:35-46.

Lawless JF (1982) Statistical Models and Methods for Lifetime Data. John
Wiley, New York.

Lawless JF (1987) Negative binomial and mixed Poisson regression. The


Canadian Journal of Statistics 15:209-225.

456
Lawrence AJ (1988) Regression transformation diagnostics using local in-
fluence. Journal of the American Statistical Association 84:125-141.

Lee ET (1991) Statistical Methods for Survival Data Analysis, Second Edi-
tion. John Wiley, New York.

Lee Y, Nelder JA (1996). Hierarchical generalized linear models. Journal


of the Royal Statistical Society B 58:619-678.

Lee Y, Nelder JA (2001) Hierarchical generalised linear models: a synthe-


sis of generalised linear models, random-effect models and structured
dispersions. Biometrika 88:987-1006.

Lee Y, Nelder JA, Pawitan Y (2006) Generalized Linear Models with Ran-
dom Effects: Unified Analysis via h-likelihood. Boca Raton: Chapman
& Hall/CRC.

Leemis LM, Trivedi KS (1996) A comparison of aproximate interval estima-


tors for the Bernoulli parameter. The American Statistician 50:63-68.

Lehnman EL Casella G (2011) Theory of Point Estimation, Second Edition.


Springer, New York.

Liang KY, Zeger SL (1986) Longitudinal data analysis using generalized


linear models. Biometrika 73:13-22.

Mantel N (1963) Chi-square tests with one degree of freedom: extensions


of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58:690-700.

Mantel N, Haenszel BF (1959) Statistical aspects of the analysis of the data


from retrospective studies of disease. Journal of the National Cancer
Institute 22:719-748.

457
McCullagh P (1983) Quasi-likelihood functions. Annals of Statistics 11:
59-67.

McCullagh P (1987) Tensor Methods in Statistics. Chapman and Hall,


London.

McCullagh P, Nelder JA (1989) Generalized Linear Models, 2nd. Edition.


Chapman and Hall, London.

McCulloch CE, Searle SR (2001) Linear and Generalized Linear Mixed Mo-
dels. Wiley, New York.

Milicer H, Szczotka F (1966) Age at menarche in Warsaw girls in 1965.


Human Biology 38:199-203.

Montgomery DC, Peck EA, Vining GG (2001) Introduction to Linear Re-


gression Analysis, Fourth Edition. John Wiley, New York.

Montgomery DC, Peck EA, Vining GG (2021). Introduction to Linear Re-


gression Analysis, Sixth Edition. John Wiley, New York.

Myers RH, Montgomery DC, Vining GG (2002) Generalized Linear Models:


With Applications in Engineering and the Sciences. John Wiley, New
York.

Moolgavkar SH, Lustbader ED, Venzon DJ (1984) A geometric approach


to non-linear regression diagnostics with application to matched case-
control studies. Annals of Statistics 12:816-826.

Morgan BJT (1992) Analysis of Quantal Response Data. Chapman and


Hall, London.

458
Nelder JA, Pregibon D (1987) An extended quasi-likelihood function. Bio-
metrika 74:221-232.

Nelder JA, Wedderburn RWM (1972) Generalized linear models. Journal


of the Royal Statistical Society A 135:370-384.

Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied Linear


Regression Models, 3rd Edition. Irwin, Illinois.

Nyquist H (1991). Restricted estimation of restricted generalized linear


models. Applied Statistics 40:133-141.

Palmgren J (1981) The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68:563-566.

Park TP, Shin DW, Park CG (1998) A generalized estimating equations


approach for testing ordered group effects with repeated measurements.
Biometrics 54:1645-1653.

Paula GA (2013) On diagnostics in double generalized linear models. Com-


putational Statistics and Data Analysis 68:44-51.

Paula GA, Artes R (2000) One-sided test to assess correlation in logistic


linear models using estimating equations. Biometrical Journal 42:701-
714.

Paula GA, Denaro-Machado L, Ogata TT, Machado JC, Matta MS, Petrella
SMCN (1992) Caquexia cancerosa em modelo experimento rato nude
atı́mico/tumor humano KB. Revista Laes Haes 76:28-30.

459
Paula GA, Oshiro CH (2001) Relatório de Análise Estatı́stica sobre o Pro-
jeto: Análise de Captura por Unidade de Esforço do Peixe-Batata na
Frota Paulista. RAE-CEA0102, IME-USP.

Paula GA, Tuder RM (1986) Utilização da regressão logı́stica para aper-


feiçoar o diagnóstico de processo infeccioso pulmonar. Revista Ciência
e Cultura 40:1046-1050.

Paula GA, Sevanes M, Ogando MA (1988) Relatório de Análise Estatı́stica


sobre o Projeto: Estudo de Plantas Brasileiras com Efeito Moluscicida
em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.

Paula GA, Tavares HR (1992) Relatório de Análise Estatı́stica sobre o Pro-


jeto: Ácaros Associados ao Esterco Bovino. Subsı́dios para Controle
Biológico da Mosca do Chifre. RAECEA 9206, IME-USP

Peduzzi PN, Hardy RJ, Holford TT (1980) A stepwise variable selection


procedure for nonlinear regression models. Biometrics 36:511-516.

Pettitt AN, Bin Daud I (1989) Case-weight measures of influence for pro-
portional hazards regression. Applied Statistics 38:51-67.

Piegorsch WW, Casella G (1988) Confidence bands for logistic regression


with restricted predictor variables. Biometrics 44:739-750.

Poon W, Poon Y (1999) Conformal normal curvature and assessment of


local influence. Journal of the Royal Statistical Society B 61:51-61.

Pregibon D (1981) Logistic regression diagnostics. Annals of Statistics


9:705-724.

Pregibon D (1982) Score tests in GLIM with applications. Lecture Notes in


Statistics 14:87-97.

460
Pregibon D (1984) Data analytic methods for matched case-control studies.
Biometrics 40:639-651.

Ramanathan R (1993) Statistical Methods in Econometrics. Wiley, New


York.

Rao CR (1973) Linear Statistical Inference and Its Applications, Second


Edition. Wiley, New York.

Ratkowsky DA (1983) Nonlinear Regression Modelling. Marcel Dekker, New


York.

Rigby RA, Stasinopoulos DM (2005) Generalized Additive Models for Lo-


cation, Scale and Shape. Applied Statistics 54:507-554.

Ryan BF, Joiner BL (1994) Minitab Handbook, Third Edition. Duxbury


Press, Belmont.

St. Laurent RT, Cook RD (1992) Leverage and superleverage in nonlinear


regression. Journal of the American Statistical Association 87:985-990.

Schwarz G (1978) Estimating the Dimension of a Model. Annals of Statistics


6:461-464.

Seber GAF, Wild CJ (1989) Nonlinear Regression. John Wiley, New York.

Sen PK, Singer JM (1993) Large Sample Methods in Statistics: An Intro-


duciton with Applications. Chapman and Hall, London.

Silva GL (1992) Modelos Logı́sticos para Dados Binários. Dissertação de


Mestrado, IME-USP.

Smyth GK (1989) Generalized linear models with varying dispersion. Jour-


nal of the Royal Statistical Society B 51:47-60.

461
Smyth GK, Verbyla A (1999) Adjusted likelihood methods for modelling
dispersion in generalized linear models. Environmetrics 10:696-709.

Stukel TA (1988) Generalized logistic models. Journal of the American


Statistical Association 83:426-431.

Stasinopoulos MD, Righy RA, Gillian ZA, Voudouris V, de Bastiani F


(2017) Flexible Regression and Smoothing Using GAMLSS in R. Chap-
man and Hall/CRC.

Tsai CH, Wu X (1992). Assessing local influence in linear regression mo-


dels with first-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14:247-252.

Venables WN, Ripley BD (1999) Modern Applied Statistics with S-Plus,


Third Edition. Springer, New York.

Verbyla AP (1993) Modelling variance heterogeneity: residual maximum


likelihood and diagnostics. Journal of the Royal Statistical Society B
55:493-508.

Wang PC (1985). Adding a variable in generalized linear models. Techno-


metrics 27:273-276.

Wedderburn RWM (1974) Quasi-likelihood functions, generalized linear mo-


dels and the Gauss-Newton method. Biometrika 61:439-447.

Wedderburn RWM (1976) On the existence and uniqueness of the maximum


likelihood estimates for certain generalized linear models. Biometrika
68:27-32.

Wei BC (1998) Exponential Family Nonlinear Models. Lecture Notes in


Statistics Vol. 130. Springer, New York.

462
Wei BC, Hu YQ, Fung WK (1998) Generalized leverage and its applications.
Scandinavian Journal of Statistics 25:25-37.

Weisberg S (2014) Applied Linear Regression, Fourth Edition. Wiley.

Williams DA (1984) Residuals in generalized linear models. In: Proceedings


of the 12th. International Biometrics Conference, Tokyo, pp. 59-68.

Williams DA (1987) Generalized linear model diagnostic using the deviance


and single case deletion. Applied Statistics 36:181-191.

Wolf (1955) On estimating the relationship between blood group and dise-
ase. Annals of Human Genetic 19:251-253.

Wood FS (1973) The use of individual effects and residuals in fitting equa-
tions to data. Technometrics 15:677-687.

Wood SN (2017) Generalized Additive Models. An Introduction with R, 2nd


Edition. Chapman and Hall/CRC.

Zeileis A, Kleiber C, Jackman S (2008) Regression models for count data in


R. Journal of Statistical Software 27:1-25.

463

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy