Trabalho de ECB
Trabalho de ECB
Justo Agostinho
Silva Tonecas Augusto
Rema Manssur Abdala
Onissimo Francisco Zuca
Rosário Jacinto Fernando
Universidade Rovuma
Lichinga
2023
2
Universidade Rovuma
Lichinga
2023
3
Índice
1. Introdução..................................................................................................................................4
1.1. Objectivos:.............................................................................................................................4
1.1.1. Objectivo Geral..................................................................................................................4
1.1.2. Objectivos específicos........................................................................................................4
1.2. Metodologias..........................................................................................................................4
2. Sistema de equações de regressão linear....................................................................................5
2.1. Regressão linear simples........................................................................................................5
2.2. Hipóteses do modelo linear simples.......................................................................................8
2.2.1. HIPÓTESE 1: O MODELO É LINEAR NOS PARÂMETROS........................................8
2.2.2. HIPÓTESE 2: A AMOSTRAGEM É ALEATÓRIA.........................................................8
2.2.3. HIPÓTESE 3: VARIAÇÃO AMOSTRAL DA VARIÁVEL INDEPENDENTE (X)........9
2.2.4. HIPÓTESE 4: MÉDIA CONDICIONAL DO ERRO IGUAL A ZERO............................9
2.3. Coeficiente de determinação (R ²).........................................................................................9
2.4. Regressão linear múltipla.....................................................................................................11
2.5. Correlação/autocorrelação....................................................................................................11
2.6. Teste t em um coeficiente de regressão................................................................................12
2.7. Estatística F..........................................................................................................................12
2.1.1. Exercício 1.............................................................................................................................13
2.1.2. Exercício 2.............................................................................................................................15
2.1.3. Exercício 3.............................................................................................................................16
2.1.4. Exercício 4.............................................................................................................................17
3. Limitações da análise de regressão...........................................................................................19
4. Conclusão.................................................................................................................................20
5. Referencias bibliográficas........................................................................................................21
4
1. Introdução
1.1. Objectivos:
1.1.1. Objectivo Geral
Encontrar E(Y ∨X i ), ou seja, a esperança do valor de Y dado um valor de X i .
1.1.2. Objectivos específicos
Descrever a relação linear entre duas variáveis;
Representar os valores observados ( X i ; Y i ) num diagrama de dispersão;
Calcular o coeficiente de correlação linear.
A estrutura do trabalho segue a seguinte sequencia: Capa, contra capa, índice, introdução,
desenvolvimento, conclusão e por fim as referências bibliográficas.
1.2. Metodologias
Uma regressão linear é normalmente utilizada para análises preditivas e possui como
objetivo geral analisar duas coisas: primeiro, um conjunto de variáveis preditoras (capaz de
um bom trabalho ao prever uma variável dependente); segundo, quais variáveis em
particular são preditores significativos e de que forma elas impactam (magnitude e sinal das
estimativas) a variável dependente.
^
Y^ i= α^ + β∗X i
Em que:
X é a variável independente;
O conjunto de dados muito provavelmente não mostrará uma relação exata entre X e Y .
Isso porque (1) é possível ter outros fatores que afetam Y além de X , e (2) a variância da
amostra cria uma dispersão nos dados, fazendo que amostras diferentes tenham FRAs
diferentes. Assim, podemos representar a FRA em sua forma estocástica da seguinte forma:
^
Y^ i= α^ + β∗X ^
i + ui
Tabela – Amostras de X e Y.
X 4 6 7 5 8 10
Y 15 18 19 20 21 23
Colocando estes pontos em um gráfico, podemos ver que eles estão dispersos e não
formam uma linha reta. O objetivo da regressão linear é encontrar o intercepto e a
inclinação de uma reta que melhor ajuste a estes dados, ou seja, que minimize a variância
dos erros, e, portanto, nos gere a melhor estimativa de α^ e ^β . A reta que realiza este objetivo
é encontrada pela técnica de mínimos quadrados, por meio da minimização da soma dos
quadrados dos resíduos. A reta encontrada pelos Mínimos Quadrados Ordinários (MQO ou
Ordinary Least Squares – OLS) da amostra é a seguinte:
7
Como o ^β estimado é igual a 1 , 24, podemos dizer que, em média, quando X muda 1
unidade, Y varia em 1 , 24 unidades.
Cada observação i pode ser resumida em uma fórmula que relaciona Y i com a reta mais um
resíduo. Utilizando os dados acima, temos:
^
Y i= α^ + β∗X ^
i + ui
8
^β= Cov( X ,Y ) = XY = ∑ i i ∑ i ∑ i
S n XY− X Y
Var (X ) S XX 2 2
n ∑
X −( X ) i ∑ i
(∑ Y i− β^ ∑ X i )
α^ =Y − ^β X =
n
A primeira hipótese se refere ao fato de o modelo ser linear nos parâmetros, ou seja, os
betas do modelo populacional entram de forma linear na equação.
A segunda hipótese diz que existe uma amostra aleatória de tamanho n , f (X i , Y i), i=1 … n,
proveniente de um modelo populacional. Cabe lembrar que, em muitos casos, problemas de
seleção amostral estarão presentes, daí será necessário tratar de forma especial os casos em
que a hipótese de amostragem aleatória não estiver presente. Pode-se pensar no exemplo de
retornos salariais do investimento em capital humano. Em geral, em base de dados com
9
A terceira hipótese estabelece que os resultados amostrais de X não têm todos o mesmo
valor. Essa hipótese também é conhecida como a hipótese de variabilidade do regressor.
Na maior parte das aplicações, esta hipótese sempre estará presente. Faz pouco sentido
tentar explicar a variação de y por variações em X , se X não varia.
O erro tem valor esperado igual a 0 dado X . A quarta hipótese se refere ao fato de que a
distribuição condicional dos erros, dada a variável independente, apresenta média zero.
Em termos matemáticos, tem-se que:
E ( ui| X i )=0
Uma maneira de calcular o R ² é por meio das somas dos quadrados totais, dos resíduos e
explicados (SQT, SQR e SQE):
10
n
SQT=∑ ¿ ¿
i=1
n
SQR=∑ ( Y i −Y^ i )
2
i=1
SQR é a soma dos quadrados dos resíduos, que calcula a parte não explicada do modelo,
e Y^ i é o valor estimado (previsão) de Y i .
n n
SQE=∑ ( Y^ i −Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX
2 2
i=1 i=1
SQE é a soma dos quadrados explicados, que indica a diferença entre a média das
observações e o valor estimado para cada observação, e soma os respectivos quadrados.
Assim, quanto menor for a diferença, maior poder explicativo o modelo possui.
2 SQE SQR
R= =1−
SQT SQT
exemplo, um estudo sobre aniversários que mostra que um grande número de aniversários
acontece dentro de um período em determinado mês não significa que a passagem do tempo
ou a mudança das estações do ano influencie na ocorrência de gravidez.
2.5. Correlação/autocorrelação
Assim, se E(ε i ε j)≠ 0, para i,j = 1, 2, 3…, então o valor de um resíduo passa a influenciar os
resultados futuros da média condicional estimada para Y, trazendo o problema de
autocorrelação serial. Dentre as principais fontes de correlação, podemos citar: omissão de
variável relevante, má especificação funcional ou dinâmica do modelo.
^β−β
0
t=
^
ep( β)
Onde ^β é o ^β estimado pela amostra, ^β 0 é uma constante definida pelo teste desejado e
ep ( ^β) é o erro padrão do ^β estimado.
Para testar a significância do teste, testamos a hipótese nula de que não há correlação entre
X e Y , e portanto, neste caso, nossa constante ^
β 0 é igual a zero.
2.7. Estatística F
F∗(
( SQT )
SQE
/(k−1)
)
2
SQT R /(k−1)
= =
SQT
( SQR
SQT )
2
(1−R )/(N −k )
/( N−k )
2.1.1. Exercício 1
Dado um experimento em que se analisa a octanagem da gasolina (Y) em função da adição
de um novo aditivo (X) e no qual foram realizados ensaios com percentuais de 1% até 6%
de aditivo. Considerando os resultados a seguir, calcule a reta de regressão.
Tabela – Resultados.
X (%) 1 2 3 4 5 6
Y 80 , 5 81 , 6 82 , 1 83 , 7 83 , 9 85 , 0
Resolução:
Dados Cálculos
2
i Xi Yi Xi Xi Y i
1 1 80 , 5 1 80 , 5
2 2 81 , 6 4 163 , 2
3 3 82 , 1 9 246 , 3
4 4 83 , 7 16 334 , 8
5 5 83 , 9 25 419 ,5
6 6 85 , 0 36 510
Y^ i=79 , 7+ 0,886 X i
15
2.1.2. Exercício 2
Espera-se que a massa muscular de uma pessoa diminua à medida que a idade aumenta.
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e
79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).
i Massa Muscular (Y) Idade (X) i Massa Muscular (Y) Idade (X)
1 82 , 0 71 , 0 10 84 ,0 65 , 0
2 91 , 0 64 ,0 11 116 ,0 45 ,0
3 100 , 0 43 ,0 12 76 , 0 58 , 0
4 68 , 0 67 , 0 13 97 , 0 45 ,0
5 87 , 0 56 , 0 14 100 , 0 53 , 0
6 73 , 0 73 , 0 15 105 , 0 49 ,0
7 78 , 0 68 , 0 16 77 , 0 78 , 0
8 80 , 0 56 , 0 17 73 , 0 73 , 0
9 65 , 0 76 , 0 18 78 , 0 68 , 0
Resolução:
a) X =61,556 Y =85
16
18 18 18
SYY =∑ Y i −n Y =¿ 133.300−18∗¿ ¿
2 2
b)
S XY −2.216 , 68
^β= = =−1 , 027
S XX 2.157 , 4 6
α^ =Y − ^β X =85−(−1,027 )∗61,556=85+63,218=148,218
Y^ i=148,218−1 , 027 X i
c)
Para encontrar a estimativa da massa muscular média para mulheres com 50 anos, basta
substituir os valores de X para o caso em que X =50 na equação que obtivemos acima:
Y^ =148,218−1 , 027∗X
Y^ =148,218−1 , 027∗50=96 , 86 8
2.1.3. Exercício 3
(FCC Analista BACEN 2005) Uma empresa com a finalidade de determinar a relação entre
os gastos anuais com propaganda (X ), em R$ 1000,00, e o lucro bruto anual (Y ), em R$
17
2 2
∑ Y i=100 ; ∑ X i=60 ; ∑ Y i X i=650 ; ∑ X i =400 ; e ∑ Y i =1080.
Resolução:
10
⦁SQT =∑ Y 2i −¿ ¿¿ ¿
i=1
n n
⦁SQE =∑ ( Y^ i−Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX =1,5625∗40=62, 5
2 2
i=1 i =1
2.1.4. Exercício 4
(SUSEP 2010 modificada) A partir de uma amostra aleatória
[ X (1),Y (1)],[ X (2),Y (2)]… [ X (20),Y (20)] , foram obtidas as estatísticas:
Média de X =12 ,5 ;
Média de Y =19 ;
Variância de X =30;
Variância de Y =54 ; e
18
da reta do modelo de regressão linear simples de Y contra X é igual a zero. Considere que,
com um intervalo de confiança de 95%, o F tabelado é 4,414.
Resolução:
a.
^β= Cov ( X , Y ) = 36 =1 ,2
Var ( X ) 30
Y^ i=4+1 , 2∗X i
b.
O valor da estatística F é igual a 72. Como 72> 4,414, rejeitamos a hipótese nula de que
todos os β estimados são iguais a zero com 95 % de confiança. Nesta regressão há somente
19
Sabemos que a regressão é um modelo estatístico que permite examinar a relação entre uma
variável dependente e uma ou mais variáveis independentes. A regressão linear analisa
apenas relações lineares entre as variáveis dependentes e independentes, o que pressupõe
que exista uma relação direta entre eles e isso nem sempre está correto.
A regressão linear analisa uma relação entre a média da variável dependente e as variáveis
independentes, e como a média não se constitui como uma descrição completa de uma
única variável, a regressão linear também não é uma descrição completa da relação entre as
variáveis. Vale ressaltar que no caso da regressão linear os dados devem ser independentes.
A análise de regressão necessita de fortes suposições como a normalidade, independência e
homocedasticidade dos erros, sendo essas suas principais limitações.
20
4. Conclusão
5. Referencias bibliográficas
John Wiley & Sons, Inc. Guimarães, R. C. e Cabral, J. A. S. (2010). Estatística. 2ª Edição.
Verlag Dashöfer
Newbold, P., Carlson, W. e Thorne, B. (2013). Statistics for business and economics. 8ª
Edição. Pearson.