0% acharam este documento útil (0 voto)
11 visualizações32 páginas

Aula 5 - ANOVA

A aula de Estatística Econômica aborda a inferência para várias populações, focando na análise de variância (ANOVA) para comparar médias entre grupos, como escolaridade e salário. O método analisa a diferença entre as médias dos grupos em relação à variação interna, permitindo testar hipóteses sobre as médias populacionais. O documento também discute a estimativa de parâmetros e a importância da homocedasticidade nas análises estatísticas.

Enviado por

carolvieira29499
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
11 visualizações32 páginas

Aula 5 - ANOVA

A aula de Estatística Econômica aborda a inferência para várias populações, focando na análise de variância (ANOVA) para comparar médias entre grupos, como escolaridade e salário. O método analisa a diferença entre as médias dos grupos em relação à variação interna, permitindo testar hipóteses sobre as médias populacionais. O documento também discute a estimativa de parâmetros e a importância da homocedasticidade nas análises estatísticas.

Enviado por

carolvieira29499
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 32

ECO255: Estatística

Econômica
Professora: Ana Cecília de Almeida
Avisos
Aula normal
quinta-feira
Resumo da aula

01 Inferência para várias populações

Soma dos quadrados: o caso de dois


02 tratamentos

03 Exercício de fixação
Inferência para várias populações
● Quando analisamos dados, um dos desafios é que o que observamos sempre vem misturado com
variações aleatórias (ou seja, nem tudo é explicável).Para lidar com isso, usamos a ideia de que cada
observação tem duas partes:

Observação = Parte previsível + Parte aleatória

Parte previsível: é o que conseguimos explicar com nosso conhecimento, geralmente usando uma função
matemática com parâmetros desconhecidos.
Parte aleatória: é o que não conseguimos prever ou controlar. Mesmo assim, supomos que siga algum
modelo probabilístico, também com parâmetros desconhecidos.

A inferência estatística serve para estimar esses parâmetros com base nas amostras que temos.

Nesta disciplina, vamos estudar um modelo simples chamado análise de variância. Mais adiante, na disciplina
de Econometria, vocês verão o modelo de regressão linear simples.
Inferência para várias populações
Intuição do método

● Você é um pesquisador e quer saber: Escolaridade Salário (R$)


Será que o salário médio muda dependendo do nível Fundamental 1200, 1300, 1250
de escolaridade das pessoas?
Médio 1600, 1700, 1650

● Para isso você faz um AAS de uma população e Superior 3000, 3200, 3100
divide em 3 grupos:

○ Quem só terminou o ensino fundamental Média Fundamental: R$ 1.250


○ Quem terminou o ensino médio Média Médio: R$ 1.650
○ Quem tem ensino superior Média Superior: R$ 3.100

● E mede os salários dessas pessoas.


Inferência para várias populações
Intuição do método

Intuição:

O que a ANOVA faz? •Se as diferenças entre as médias (1.250, 1.650,


3.100) forem muito maiores do que as variações
Ela vai comparar: dentro de cada grupo, a ANOVA diz:

• A diferença entre as médias dos grupos "Tem diferença sim! O nível de escolaridade parece
(fundamental vs médio vs superior) afetar o salário!“

• A variação dentro de cada grupo (por exemplo,


no grupo do ensino médio: tem gente ganhando
R$ 1600, outros R$ 1700, outros R$ 1650…) •Mas se, por exemplo, dentro de cada grupo os
salários variassem muito (tipo, no grupo do
fundamental tivesse gente ganhando R$ 800 e outros
R$ 2000), aí a ANOVA diria:

"Hmm... não dá pra ter certeza. Pode ser só bagunça


nos dados."
Inferência para várias populações
Figura 1 - Formas da distribuição de y para os
diversos níveis do fator

Painel (a): mostra um comportamento mais amplo,


com distribuições distintas para cada subpopulação.

Painel (b): as médias das subpopulações variam


com o fator

Painel (c): as médias das subpopulações permanecem


constantes.

Painéis (b) e (c): a parte aleatória segue uma


distribuição normal, com a mesma variância σ2 para
todas as subpopulações 𝑃𝑖 , i = 1, 2, ..., I.
Fonte: Morettin e Bussab (2010)
Inferência para várias populações
Situação geral

● Temos uma população P de unidades experimentais (indivíduos, animais, empresas etc.), para a qual
temos uma v.a. Y de interesse.
● Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de um fator.
Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados por:

1: sexo masculino 2: sexo feminino. Duas subpopulações


(fatores):

• A v.a. Y pode ser a altura de cada indivíduo.


• Genericamente podemos ter I níveis para esse fator. A população fica, então, dividida em I
subpopulações (ou estratos), P1, ..., PI, cada uma representada por um nível i do fator, i = 1, 2, ..., I.
Inferência para várias populações
● Para cada nível i, observamos a v.a. Y em 𝑛𝑖 unidades experimentais selecionadas
ao acaso da subpopulação correspondente, ou seja, teremos uma amostra (𝑦𝑖1 , ...,
𝑦𝑖𝑛𝑖 ) dessa subpopulação.

Extraímos uma amostra de


tamanho 𝑛1 de 𝑃1 : pessoas do
sexo masculino:
(𝒚𝟏𝟏 , ..., 𝒚𝟏𝒏𝟏 )

e uma amostra de tamanho 𝑛2 de


𝑃2 : pessoas do sexo feminino,
(𝒚𝟐𝟏 , ..., 𝒚𝟐𝒏𝟐 )
Inferência para várias populações
● Suponha que E(Y) = μ para a população toda, ou seja, a média global da v.a. Y para P.

● Suponha, também, que E(Y|𝑃𝑖 ) = μ𝑖 , i = 1, ..., I, ou seja, as médias da v.a. Y para as


subpopulações sejam μ1 , ..., μ𝐼 .

μ é a média das alturas


da população de todos
os indivíduos

μ2 é a média das alturas μ1 é a média das alturas


das mulheres. dos homens
Inferência para várias populações

● O objetivo é estimar μ𝑖 , i = 1, ..., I e testar hipóteses sobre essas médias. Uma hipótese
de interesse é

𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐 = ... = 𝝁𝑰 = μ
(2)
Contra a alternativa

𝑯𝟏 : 𝝁𝒊 ≠ 𝝁𝒋 , para algum par (i,j)


(3)
Inferência para várias populações
● Um modelo conveniente para descrever essa situação é

𝑦𝑖𝑗 = μ𝑖 + 𝑒𝑖𝑗 i = 1, ..., I, j = 1, .... 𝑛𝑖 , (4)


Aqui estamos dizendo o seguinte: o valor
que a gente observa (salário, nota, peso
etc.) é a média do grupo ao qual a pessoa
Para estimar isso temos que supor que 𝑒𝑖𝑗 são v.a. independentes, pertence, mais um erro que é o quanto
de média zero e variância σ2𝑒 , desconhecida, por exemplo. essa pessoa está acima ou abaixo da
Podemos adicionar a hipótese de que esses “erros” sejam média.
normais, ou seja,

𝑒𝑖𝑗 ~ N(0, 𝝈𝟐𝒆 ) (5)

para i = 1, 2, ..., I, j = 1, 2, ..., 𝑛𝑖 .

Logo, além de estimar 𝝁𝟏 , 𝝁𝟐 , ..., 𝝁𝑰 , temos que estimar também


𝝈𝟐𝒆 .
Soma de quadrados
a) O caso de dois tratamentos

● Inicialmente, consideremos o caso em que temos um fator com dois níveis (fator=sexo,
nível=masculino e feminino). Ou seja, queremos avaliar o sexo do indivíduo sobre a média de
variável aleatória (Y). Temos, então, o modelo:

𝑦𝑖𝑗 = μ𝑖 + 𝑒𝑖𝑗 (6)

Onde
● 𝑦𝑖𝑗 = valor da variável aleatória do j−ésimo indivíduo do nível i.
● μ𝑖 = efeito comum a todos os elementos do nível i = 1, 2;
● 𝑒𝑖𝑗 = efeito aleatório, não-controlado, do j-ésimo indivíduo do nível i,
Soma de quadrados O que faz com que a nota em
estatística de cada um de vez
a) O caso de dois tratamentos desvie da média da sala e que é
algo que é só seu e não é
observável por meio de dados?
Suposições:
● É necessário introduzir suposições sobre os erros 𝑒𝑖𝑗 a fim de fazer inferências sobre μ1
e μ2 . Iremos admitir que:

i. 𝑒𝑖𝑗 ~ N(0, σ2𝑒 ), para todos i =1, 2 e j = 1, 2, ..., 𝑛𝑖 .

ii. E(𝑒1𝑗 , 𝑒1𝑘 ) = 0, para j ≠ k e i = 1, 2, indicando independência entre observações


dentro de cada subpopulação.

iii. E(𝑒1𝑗 , 𝑒2𝑘 ) = 0, para todo j e k, indicando independência entre observações das duas
subpopulações.
Soma de quadrados
a) O caso de dois tratamentos

● Com essas suposições, temos duas amostras aleatórias simples, independentes entre si,
retiradas das duas subpopulações N(μ1 , σ2𝑒 ) e N(μ2 , σ2𝑒 ).

● Queremos testar a hipótese

𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐
Contra a alternativa
𝑯𝟏 : 𝝁𝟏 ≠ 𝝁𝟐

● Esse teste pode ser conduzido com os métodos como o teste t, mas o objetivo aqui é
introduzir a metodologia da análise de variância, com um caso simples.
Soma de quadrados
a) O caso de dois tratamentos

● Note que estamos supondo que as variâncias residuais dos níveis 1 e 2 são iguais, ou seja,

Var(𝑒1𝑗 ) = Var(𝑒2𝑗 ) = σ2𝑒 , para todo j = 1, ..., 𝑛𝑖 . (7)

● Essa é a propriedade conhecida como homocedasticidade, isto é, estamos admitindo que


a variabilidade residual é a mesma para os dois níveis (ou que 𝑃1 e 𝑃2 têm a mesma
variabilidade segundo a v.a. Y) conforme observado nos painéis (b) e (c) da Figura 1.

● Note também que


E(𝑦𝑖𝑗 ) = μ𝑖 ,
Var(𝑦𝑖𝑗 ) = Var(𝑒𝑖𝑗 ) = σ2𝑒 (8)
Soma de quadrados
a) O caso de dois tratamentos

Estimação do Modelo:

● Nosso objetivo é estimar μ1 , μ2 e σ2𝑒 no modelo (6), para podermos testar 𝐻0 .

● Usaremos estimadores de mínimos quadrados. Poderíamos usar também estimadores de


máxima verossimilhança, pois sabemos que nossas observações têm distribuição normal.
Soma de quadrados
a) O caso de dois tratamentos
● Temos que, de (6), os resíduos são dados por

𝑒𝑖𝑗 = 𝑦𝑖𝑗 − μ𝑖
(9)
● E a soma dos quadrados dos resíduos é dada por

𝑛𝑖 2 𝑛𝑖
(10)
2
𝑆𝑄𝑅𝑒𝑠 = ෍ ෍ 𝑒𝑖𝑗 = ෍ ෍(𝑦𝑖𝑗 − μ𝑖 )2
𝑖=1 𝑗=1 𝑖=1 𝑗=1

𝑛1 𝑛2

𝑆𝑄𝑅𝑒𝑠 = ෍(𝑦1𝑗 − μ1 ) + ෍(𝑦2𝑗 − μ2 )2


2

𝑗=1 𝑗=1
Ou
𝑛1 𝑛2
2 2
𝑆𝑄𝑅𝑒𝑠 = ෍ 𝑒1𝑗 + ෍ 𝑒2𝑗
𝑗=1 𝑗=1
Observem que essa soma de quadrados é uma função de μ1 e μ2 .
Soma de quadrados
a) O caso de dois tratamentos
Encontrando 𝝁𝟏 𝐞 𝝁𝟐 :
Devemos minimizar o quadrado da soma do erros, derivando (10) em relação a μ1 e μ2 e igualando a zero e obtemos:
𝑛𝑖
𝜕𝑆𝑄𝑅𝑒𝑠
= −2 ෍(𝑦𝑖𝑗 − μ𝑖 ) = 0, i = 1,2.
𝜕μ𝑖
𝑗=1
E encontramos os estimadores:
𝑛𝑖 𝑛𝑖

෍ 𝑦𝑖𝑗 − ෍ μ𝑖 = 0
𝑗=1 𝑗=1
𝑛𝑖
σ𝑗=1 μ𝑖
Sendo o estimador da média igual : μෝ𝑖 = 𝑛𝑖
Temos que:
𝑛𝑖

෍ 𝑦𝑖𝑗 − μෝ𝑖 𝑛𝑖 = 0
𝑗=1
𝑛𝑖1
μෞ𝑖 = 𝑛 σ𝑗=1 𝑦𝑖𝑗 =𝑦ത𝑖
𝑖
Soma de quadrados
a) O caso de dois tratamentos
● Assim, os estimadores para cada nível do fator serão:
1
1=
μෞ σ𝑛𝑗=1
1
𝑦1𝑗 =𝑦ത1 (11)
𝑛1
Estimamos as
1
2=
μෞ σ𝑛𝑗=1
2
𝑦2𝑗 =𝑦ത2 (12) médias
𝑛2

● Logo podemos escrever SQRes:

𝑛1 𝑛2

𝑆𝑄𝑅𝑒𝑠 = ෍(𝑦1𝑗 − 𝑦ത1 )2 + ෍(𝑦2𝑗 − 𝑦ത2 )2 (13)


𝑗=1 𝑗=1

● Podemos pensar em (13) como a quantidade total de informação quadrática perdida pela
adoção do modelo (6).
Soma de quadrados
a) O caso de dois tratamentos
● Agora precisamos estimar a variância do erro (𝑺𝟐𝒆 ) que é calculado pela média ponderada das variâncias
de cada grupo, que são:
𝑛1
1
𝑆12 = ෍(𝑦1𝑗 − 𝑦ത1 )2
𝑛1 − 1
𝑗=1

𝑛2
1
𝑆22 = ෍(𝑦2𝑗 − 𝑦ത2 )2
𝑛2 − 1
𝑗=1

Os pesos de média ponderada são o tamanho da população de cada grupo menos 1, ou seja:

𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22
𝑆𝑒2 =
𝑛1 + 𝑛2 − 2
Ou
𝑆𝑄𝑅𝑒𝑠
𝑆𝑒2 =
𝑛−2
Soma de quadrados
a) O caso de dois tratamentos
● Como
𝑛1
1
𝑆12 = ෍(𝑦1𝑗 − 𝑦ത1 )2
𝑛1 − 1
𝑗=1
𝑛1

(𝑛1 − 1)𝑆12 = ෍(𝑦1𝑗 − 𝑦ത1 )2 (14)


𝑗=1
● e a variância da subpopulação P2 das mulheres é estimada por

𝑛2
1
𝑆22 = ෍(𝑦2𝑗 − 𝑦ത2 )2
𝑛2 − 1
𝑗=1
(15)
𝑛2

(𝑛2 − 1)𝑆22 = ෍(𝑦2𝑗 − 𝑦ത2 )2


𝑗=1

Segue-se que
𝑆𝑄𝑅𝑒𝑠 = 𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22 (16)
Soma de quadrados
a) O caso de dois tratamentos

● Comprovamos que

𝑛1 −1 𝑆12+ 𝑛2 −1 𝑆22 𝑆𝑄𝑅𝑒𝑠


𝑆𝑒2 = 𝑛1 +𝑛2 −2
= 𝑛−2
Estimamos a
variância do erro
se n = n1 + n2

● Estimamos então a variância desconhecida do erro, σ2𝑒 , por meio da variância devida ao erro ou
variância dentro de amostras, dada por 𝑆𝑒2 , que é baseada nas variâncias amostrais, dadas por
(14) e (15).

● A soma de quadrados (16) é também chamada de soma de quadradros dentro dos grupos.
Explica melhor?

● Um economista está investigando a relação entre renda (Y) e alguns fatores


socioeconômicos em uma comunidade, como idade (X), sexo (W) e teste de QI (Z).

● Na Tabela 1 temos as rendas para n = 20 indivíduos (valores da v.a. Y).

● O fator sexo tem dois níveis: i = 1: sexo masculino (H) e i = 2: sexo feminino (M), com n1 =
n2 = 10.

● O fator idade tem cinco níveis: i = 1: indivíduos com 20 anos de idade, i = 2: indivíduos
com 25 anos, i=3: indivíduos com 30 anos, i = 4: indivíduos com 35 anos e i = 5:
indivíduos com 40 anos. Aqui, n1 = ... = n5 = 4.
Explica melhor?
Tabela 1 – Renda (Y) de 20 indivíduos, segundo o sexo (W), idade
(X) e QI (Z )

Fonte: Morettin e Bussab (2010)


Explica melhor?

● O teste de QI, como porcentagem da nota total, também gera cinco níveis: i = 1:
indivíduos com 100% da nota, i = 2: indivíduos com 90% da nota, e assim por diante.

● Não foi possível controlar essa variável a priori como foi possível com as outras duas, já
que ela exige ter feito o teste para sua mensuração.

● Daí o desbalanceamento dos tamanhos observados: n1 = 2, n2, = 10, n3 = 5, n4 = 2 e n5 =


1. Fatores desse tipo são chamados de co-fatores.

● Assim, para o fator sexo, teremos o modelo (4) com i = 1, 2, j = 1, 2, 3, ..., 10, e para o fator
idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4.
Explica melhor?

● Dados esses dados, encontre:


a) As estimativas das médias populacionais para os dois níveis (qual a média da renda por
características?)
b) A variância do erro
● Lembrando que pela minimização da soma dos quadrados dos resíduos chegamos:
1 𝑛1
1=
μෞ σ 𝑦 =𝑦ത1
𝑛1 𝑗=1 1𝑗 (11)
1 𝑛2
μෞ
2 = σ 𝑦 =𝑦ത2
𝑛2 𝑗=1 2𝑗 (12)
𝑆𝑄𝑅𝑒𝑠
𝑆𝑒2 = (18)
𝑛−2
Explica melhor?

Resolução caderno
Explica melhor?
Tabela 1 - – Renda (Y) de 20 indivíduos, segundo o sexo (W), idade (X)
e QI (Z )

Fonte: Morettin e Bussab (2010)


Explica melhor?

● Podemos calcular as médias das observações dos níveis 1 e 2


10 2
Grupo dos homens (nível 1): 𝑌ഥ1 = 110,1, ෍ 𝑌1𝐽 − 𝑌ന1 = 670,9, 𝑠12 = 74,54
𝐽=1
10 2
Grupo das mulheres (nível 2): 𝑌ഥ2 = 104,9, ෍ 𝑌2𝐽 − 𝑌ന2 = 566,9, 𝑠12 = 62,99
𝐽=1

Tem-se que a soma dos quadrados dos resíduos é: 1.237,8.

Sabendo que:
𝑆𝑄𝑅𝑒𝑠
𝑆𝑒2 =
𝑛−2

670,9 + 566,9 1237,8


𝑠𝑒2 = = = 68,77, 𝑆𝑒 = 8,29
18 18
Referências
Capítulo 15

MORETTIN, Pedro A.; BUSSAB, Wilton de Oliveira. Estatística


básica. 6. ed. rev. e atual. São Paulo, SP: Saraiva, 2010. xvi, 540 p.

Capítulo 14

HOFFMANN, R. Estatística para Economistas. 4 ed. São Paulo:


Pioneira Thomson Learning, 2006. 432 p.
Dúvidas? Obrigada
ana.almeida@ufv.br

CREDITS: This presentation template was created by Slidesgo, and


includes icons by Flaticon, and infographics & images by Freepik

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy