Aula 5 - ANOVA
Aula 5 - ANOVA
Econômica
Professora: Ana Cecília de Almeida
Avisos
Aula normal
quinta-feira
Resumo da aula
03 Exercício de fixação
Inferência para várias populações
● Quando analisamos dados, um dos desafios é que o que observamos sempre vem misturado com
variações aleatórias (ou seja, nem tudo é explicável).Para lidar com isso, usamos a ideia de que cada
observação tem duas partes:
Parte previsível: é o que conseguimos explicar com nosso conhecimento, geralmente usando uma função
matemática com parâmetros desconhecidos.
Parte aleatória: é o que não conseguimos prever ou controlar. Mesmo assim, supomos que siga algum
modelo probabilístico, também com parâmetros desconhecidos.
A inferência estatística serve para estimar esses parâmetros com base nas amostras que temos.
Nesta disciplina, vamos estudar um modelo simples chamado análise de variância. Mais adiante, na disciplina
de Econometria, vocês verão o modelo de regressão linear simples.
Inferência para várias populações
Intuição do método
● Para isso você faz um AAS de uma população e Superior 3000, 3200, 3100
divide em 3 grupos:
Intuição:
• A diferença entre as médias dos grupos "Tem diferença sim! O nível de escolaridade parece
(fundamental vs médio vs superior) afetar o salário!“
● Temos uma população P de unidades experimentais (indivíduos, animais, empresas etc.), para a qual
temos uma v.a. Y de interesse.
● Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de um fator.
Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados por:
● O objetivo é estimar μ𝑖 , i = 1, ..., I e testar hipóteses sobre essas médias. Uma hipótese
de interesse é
𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐 = ... = 𝝁𝑰 = μ
(2)
Contra a alternativa
● Inicialmente, consideremos o caso em que temos um fator com dois níveis (fator=sexo,
nível=masculino e feminino). Ou seja, queremos avaliar o sexo do indivíduo sobre a média de
variável aleatória (Y). Temos, então, o modelo:
Onde
● 𝑦𝑖𝑗 = valor da variável aleatória do j−ésimo indivíduo do nível i.
● μ𝑖 = efeito comum a todos os elementos do nível i = 1, 2;
● 𝑒𝑖𝑗 = efeito aleatório, não-controlado, do j-ésimo indivíduo do nível i,
Soma de quadrados O que faz com que a nota em
estatística de cada um de vez
a) O caso de dois tratamentos desvie da média da sala e que é
algo que é só seu e não é
observável por meio de dados?
Suposições:
● É necessário introduzir suposições sobre os erros 𝑒𝑖𝑗 a fim de fazer inferências sobre μ1
e μ2 . Iremos admitir que:
iii. E(𝑒1𝑗 , 𝑒2𝑘 ) = 0, para todo j e k, indicando independência entre observações das duas
subpopulações.
Soma de quadrados
a) O caso de dois tratamentos
● Com essas suposições, temos duas amostras aleatórias simples, independentes entre si,
retiradas das duas subpopulações N(μ1 , σ2𝑒 ) e N(μ2 , σ2𝑒 ).
𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐
Contra a alternativa
𝑯𝟏 : 𝝁𝟏 ≠ 𝝁𝟐
● Esse teste pode ser conduzido com os métodos como o teste t, mas o objetivo aqui é
introduzir a metodologia da análise de variância, com um caso simples.
Soma de quadrados
a) O caso de dois tratamentos
● Note que estamos supondo que as variâncias residuais dos níveis 1 e 2 são iguais, ou seja,
Estimação do Modelo:
𝑒𝑖𝑗 = 𝑦𝑖𝑗 − μ𝑖
(9)
● E a soma dos quadrados dos resíduos é dada por
𝑛𝑖 2 𝑛𝑖
(10)
2
𝑆𝑄𝑅𝑒𝑠 = 𝑒𝑖𝑗 = (𝑦𝑖𝑗 − μ𝑖 )2
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑛1 𝑛2
𝑗=1 𝑗=1
Ou
𝑛1 𝑛2
2 2
𝑆𝑄𝑅𝑒𝑠 = 𝑒1𝑗 + 𝑒2𝑗
𝑗=1 𝑗=1
Observem que essa soma de quadrados é uma função de μ1 e μ2 .
Soma de quadrados
a) O caso de dois tratamentos
Encontrando 𝝁𝟏 𝐞 𝝁𝟐 :
Devemos minimizar o quadrado da soma do erros, derivando (10) em relação a μ1 e μ2 e igualando a zero e obtemos:
𝑛𝑖
𝜕𝑆𝑄𝑅𝑒𝑠
= −2 (𝑦𝑖𝑗 − μ𝑖 ) = 0, i = 1,2.
𝜕μ𝑖
𝑗=1
E encontramos os estimadores:
𝑛𝑖 𝑛𝑖
𝑦𝑖𝑗 − μ𝑖 = 0
𝑗=1 𝑗=1
𝑛𝑖
σ𝑗=1 μ𝑖
Sendo o estimador da média igual : μෝ𝑖 = 𝑛𝑖
Temos que:
𝑛𝑖
𝑦𝑖𝑗 − μෝ𝑖 𝑛𝑖 = 0
𝑗=1
𝑛𝑖1
μෞ𝑖 = 𝑛 σ𝑗=1 𝑦𝑖𝑗 =𝑦ത𝑖
𝑖
Soma de quadrados
a) O caso de dois tratamentos
● Assim, os estimadores para cada nível do fator serão:
1
1=
μෞ σ𝑛𝑗=1
1
𝑦1𝑗 =𝑦ത1 (11)
𝑛1
Estimamos as
1
2=
μෞ σ𝑛𝑗=1
2
𝑦2𝑗 =𝑦ത2 (12) médias
𝑛2
𝑛1 𝑛2
● Podemos pensar em (13) como a quantidade total de informação quadrática perdida pela
adoção do modelo (6).
Soma de quadrados
a) O caso de dois tratamentos
● Agora precisamos estimar a variância do erro (𝑺𝟐𝒆 ) que é calculado pela média ponderada das variâncias
de cada grupo, que são:
𝑛1
1
𝑆12 = (𝑦1𝑗 − 𝑦ത1 )2
𝑛1 − 1
𝑗=1
𝑛2
1
𝑆22 = (𝑦2𝑗 − 𝑦ത2 )2
𝑛2 − 1
𝑗=1
Os pesos de média ponderada são o tamanho da população de cada grupo menos 1, ou seja:
𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22
𝑆𝑒2 =
𝑛1 + 𝑛2 − 2
Ou
𝑆𝑄𝑅𝑒𝑠
𝑆𝑒2 =
𝑛−2
Soma de quadrados
a) O caso de dois tratamentos
● Como
𝑛1
1
𝑆12 = (𝑦1𝑗 − 𝑦ത1 )2
𝑛1 − 1
𝑗=1
𝑛1
𝑛2
1
𝑆22 = (𝑦2𝑗 − 𝑦ത2 )2
𝑛2 − 1
𝑗=1
(15)
𝑛2
Segue-se que
𝑆𝑄𝑅𝑒𝑠 = 𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 (16)
Soma de quadrados
a) O caso de dois tratamentos
● Comprovamos que
● Estimamos então a variância desconhecida do erro, σ2𝑒 , por meio da variância devida ao erro ou
variância dentro de amostras, dada por 𝑆𝑒2 , que é baseada nas variâncias amostrais, dadas por
(14) e (15).
● A soma de quadrados (16) é também chamada de soma de quadradros dentro dos grupos.
Explica melhor?
● O fator sexo tem dois níveis: i = 1: sexo masculino (H) e i = 2: sexo feminino (M), com n1 =
n2 = 10.
● O fator idade tem cinco níveis: i = 1: indivíduos com 20 anos de idade, i = 2: indivíduos
com 25 anos, i=3: indivíduos com 30 anos, i = 4: indivíduos com 35 anos e i = 5:
indivíduos com 40 anos. Aqui, n1 = ... = n5 = 4.
Explica melhor?
Tabela 1 – Renda (Y) de 20 indivíduos, segundo o sexo (W), idade
(X) e QI (Z )
● O teste de QI, como porcentagem da nota total, também gera cinco níveis: i = 1:
indivíduos com 100% da nota, i = 2: indivíduos com 90% da nota, e assim por diante.
● Não foi possível controlar essa variável a priori como foi possível com as outras duas, já
que ela exige ter feito o teste para sua mensuração.
● Assim, para o fator sexo, teremos o modelo (4) com i = 1, 2, j = 1, 2, 3, ..., 10, e para o fator
idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4.
Explica melhor?
Resolução caderno
Explica melhor?
Tabela 1 - – Renda (Y) de 20 indivíduos, segundo o sexo (W), idade (X)
e QI (Z )
Sabendo que:
𝑆𝑄𝑅𝑒𝑠
𝑆𝑒2 =
𝑛−2
Capítulo 14