0% acharam este documento útil (0 voto)
23 visualizações26 páginas

Regressão Linear Simples

Este documento descreve vários modelos de regressão linear, incluindo regressão linear simples e múltipla. Detalha como estimar os parâmetros da regressão linear usando o método dos mínimos quadrados ordinários e como interpretar os coeficientes da regressão.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
23 visualizações26 páginas

Regressão Linear Simples

Este documento descreve vários modelos de regressão linear, incluindo regressão linear simples e múltipla. Detalha como estimar os parâmetros da regressão linear usando o método dos mínimos quadrados ordinários e como interpretar os coeficientes da regressão.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 26

Regressão Linear Simples

Tipos de Modelos de Regressão

1 variável Modelos 2+ Variáveis


explicativa de Explicativas
Regressão

Simples Múltipla

Não- Não-
Linear Linear
Linear Linear

1
Modelo de Regressão Linear

• O relacionamento entre as variáveis é uma função Linear


Intercepto Inclinação Erro Aleatório
Hipótese
Y   0  1 X   :Descorrelacionado de X
Variável Independente
Variável Dependente (Explicativa)
(Resposta)
Y
Y =  X + 
Mudança
  = inclinação em Y
Mudança em X
= Y-intercepto
X

Modelos de Regressão para


Populações e Amostras

População Amostra
Aleatória
Yi  b0  b1X i   i
Relacionamento
desconhecido
Y   0  1X  

2
Modelo de Regressão Linear para a
Amostra

Y Yi  b0  b1X i  ei
i = erro aleatório

observação
não-
Yi  b0  b1X i amostrada

X
valor observado
na amostra

Análise Exploratória
Representação Gráfica

• Faça um gráfico de Estimação dos Parâmetros de


espalhamento (scatter) de Y uma regressão linear:
contra X. Determinar a melhor reta que
• Indicação visual da forma passa pelos pontos observados.
funcional da regressão.

Y
60
40
20
0
X
0 20 40 60

3
Mínimos Quadrados Ordinários: MQO

Para observações (Xi,Yi) i=1,..,n, temos o modelo

Yi   0  1 X i   i i  1,..,n

Desejamos ajustar o modelo, estimando os parâmetros  0 e  1.

O método de mínimos quadrados considera os desvios de Yi em relação ao seu valor esperado


(E(Yi)):

Yi  (  0  1 X i )

Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q


n
Q   Yi   0  1 X i 
2
(10)
i 1

De acordo com o método de mínimos quadrados, os estimadores de  0 e  1 são os valores b0 e


b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).
6,5

e3
5,5

4,5
e1
VALOR

3,5
e2
2,5

e5
1,5
2 6 10 14 18 22

IDADE

4
Estimadores de mínimos quadrados
Os valores de  0 e  1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em
relação a  0 e  1 , portanto, obtemos:

n
Q
 0
 2 (Yi   0  1 X i )
i 1
n
Q
1
 2 X i (Yi   0  1 X i )
i 1

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de


 0 e  1que minimizam Q.

As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

b1   (i X  X i) 2
( X  X )(Y Y )

 i
b0  n  Yi  b1  X i   Y  b1 X
1

Outra forma de escrevermos:

 XY   
X Y
n
b1 
 
X  
2
2 X
n

5
Coeficientes das Equações

Equação de Yi  b0  b1X i


regressão
n
 X iYi  nXY
i 1
Inclinação b1  n 2


i 1
X i2 ()
n X

Intercepto b0  Y  b1X

Interpretação dos Coeficientes

• Inclinação (b1)
3 Estima as mudanças em Y em decorrência do
aumento de X de uma unidade.
– Se b1 = .2, então espera-se que os gastos (Y )
aumentem de 20% do aumento no saldo médio
(X).
• Intercepto (b0)
3 Valor esperado de Y quando X = 0
– Se b0 = 4, então espera-se que o valor dos gastos
(Y ) seja 4 quando o saldo médio (X) é 0.

6
Exemplo

Após várias campanhas de mala direta você está interessado


na relação entre o número de cartas enviadas e o número de
novos clientes. Você possui os seguintes dados:
Cartas Clientes
1 1
2 1
3 2
4 2
5 4

Scatter Cartas vs. Clientes

cliente
4s
3
2
1
0
0 1 2 3 4 5
cartas

7
Tabelas para Estimação dos Parâmetros

2 2
Xi Yi Xi Yi XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37

Solução

n _ _
 X iYi  nXY ( ) 0.70
37  5 3 x 2
i 1
b1  n _

55  5 (9)

i 1
X i2 n X () 2

_ _
b0  Y  b1X  2  0.70 x3  0.10

Yi  0.10  0.70 X i

8
Interpretação dos coeficientes - Solução
• Inclinação (b1)
3 Espera-se que o número de clientes (Y) aumente de
0.7 para cada carta (X) a mais enviada, isto é, 7
clientes para cada 10 cartas.
• Intercepto (b0)
3 Quando não se manda nenhuma carta espera-se que
o número de clientes diminue 0.1 (Y)
– Espera-se a perda de clientes sem envio de
correspondência.

Interpretação Geométrica

Soma dos erros -


Y Yi ^
Inexplicada (Yi -Yi)2
Soma dos
quadrados
total(Yi - Y )
2 Yi  b0  b1X i
Soma da Regressão -
^ - Y) 2
explicada (Y i

Y
X
Xi

9
Medidas de Variação

Decomposição da Variação

10
Coeficiente de Determinação

Coeficiente de Determinação

11
Interpretação Geométrica

Y r2 = 1 Y r2 = 1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X

Y r2 = .8 Y r2 = 0

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X

Exemplo - Coeficiente de Determinação

No exemplo anterior nós encontramos b0 = -.1 & b1 = .7.


Cartas clientes
1 1
2 1
3 2
4 2
5 4
Qual é o coeficiente de determinação?

12
Tabela

2 2
Xi Yi Xi Yi XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37

Solução

n n 81.67% da
2
b0  Yi  b1 X iYi  n(Y ) variação no
número de cliente
r2  i 1
n
i 1 é devido a cartas
2 enviadas por
 Yi 2  n(Y ) mala direta.
i 1

(0.10)(10)  (0.70)(37)  (5)(2)2


 2
26  (5)(2)
.8167

13
Coeficiente de Correlação

Coeficiente de Correlação
• No exemplo anterior,
rxy  0,8167  0,9037

Logo, há uma forte relação positiva entre x e y.

• Nota: O coeficiente de determinação nos dá medida entre


0 e 1 ao passo que o coeficiente de correlação da amostra
dá entre -1 e +1.
O coeficiente de correlação é restrito à relação linear entre
duas variáveis, o coeficiente de determinação é geral.

14
Interpretações errôneas dos coeficientes de
determinação e correlação

1) Um alto coeficiente de correlação indica que predições úteis


podem ser feitas. Isto não é necessariamente correto. Observe
se as amplitudes dos intervalos de confiança são grandes, isto
é, não são muito precisos.
2) Um alto coeficiente de correlação indica que a equação de
regressão estimada está bem ajustada aos dados. Isto também
não é necessariamente correto (Figura A).
3) Um coeficiente de correlação próximo de zero indica que X
e Y não são correlacionadas. Isto também não é
necessariamente correto (Figura B).


 
    
  
    
    
   
 
  
  
  
  
 
 

Figura A - Tem um alto valor de r; Figura B - Tem um baixo valor


o ajuste de uma equação de de r; porém existe uma forte
regressão linear não é adequada relação entre X e Y.

15
Análise de variância
Teste de significância global do modelo

• Testa se existe uma relação linear entre X e Y


• Hipóteses
H0: 1 = 0 (Não existe relacão linear)
H1: 1  0 (Existe Relacionamento linear)
• Distribuição amostral do estimador de MQO de 1
é uma distribuição F com P e (n - P -1) graus de
liberdade no numerador e denominador,
respectivamente.
p: número de variáveis explicativas
(na regressão simples =1)

Testando a significância Global


• Usa a estatística F= MSR/MSE
• MSR= Mean Square of the Regression= SSR/p
• MSE= Mean Square of the Error= SSE/(n-p -1)
• Hipóteses
H 0 : 1  0
H 1 : 1  0
• Teste para p=1 SSR
regressão simples F*  1
SSE
n2

Rejeite H 0 se F*  F (1, n  2)

16
Análise de variância
Teste de significância global do modelo
Fonte de Graus de Soma dos Média dos F
Variação Liberdade Quadrados Quadrados

Regressão 1 SSR
SSR
MSR=
1 MSR
Erro n-2 SSE
SSE MSE
MSE=
n2
Total n-1 SST

Teste F
• Testa se a variância explicada pela regressão é
significativamente maior do que a variância não explicada.
• Também indica uma relação significante em regressão.
• Se a hipótese nula ( H 0 : 1  0) é verdadeira, o valor de
MSR/MSE deverá ser próximo de um.
• Se a hipótese nula é falsa ( H 1 : 1  0 ), MSR/MSE dará
valores altos mostrando que a relação entre x e y é
estatisticamente significante.

17
Exemplo anterior
Fonte de Graus de Soma dos Média dos F
Variação Liberdade Quadrados Quadrados

Regressão 1 4,9000 4,9000 13,36

Erro 3 1,1000 0,3667

Total 4 6,0000

Exemplo anterior
  0,05

Pela tabela F0,05  10,1 com 1 grau de liberdade


no mumerador e 3 no denominador

• Como F>F0,05, rejeita-se H0 num nível de


significância de 5%, ou seja há evidências de que a
relação entre X e Y observada na amostra seja
significante.

18
Predição com Modelos de Regressão

• Tipos de predição
3 Estimativa pontual l O que é predição
3 Estimativa através de  Valor esperado da
população (Y/X) para um
intervalos
dado X
Y YIndividual – Ponto na reta de
regressão da população
média de Y  Resposta individual (Yi)
dado X ( Y/X ) para um dado X=x*
 Intervalo de Confiança para
a média de Y/X
^
Previsão, Y
 Intervalo de Confiança para
a predição (depende do
X anterior)
Xdado

Predição de uma nova observação

Desejamos predizer uma nova observação, Y, vista como resultado de


um novo ensaio, independente dos ensaios nos quais análise de
regressão foi feita.
Notação: denotamos o nível de X para o novo ensaio como Xh e a
nova observação em Y como Yh(novo). Assumimos que o modelo de
regressão continua válido para a nova observação.

19
Limites dos Intervalos de Confiança
para a Predição

_ X
X Xdado

Exemplo
• Deseja-se prever o retorno de TEL4 em função do retorno
do IBOVESPA.
• Constrói-se um modelo de regressão simples (este é
MARKET MODEL que é a versão ex-post do CAPM)
r =  +  rM + erro
• Os coeficientes da regressão podem ser estimados
usando o Excel (Tools/data analysis/regression)

20
Regressão Simples no Excel

Saída numérica

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.877857221 Testa a significância
R Square 0.770633301
Adjusted R Square 0.770058447
GLOBAL
Standard Error 0.01444875 da regressão
Observations 401 (é bastante significante)
ANOVA
df SS MS F Significance F
Regression 1 0.279866453 0.279866 1340.572 1.2113E-129
Residual 399 0.083297782 0.000209
Total 400 0.363164234

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 0.000844948 0.000721568 1.170988 0.242302 -0.000573603 0.002263498 -0.000573603 0.002263498
X Variable 1 0.923898485 0.025233594 36.61383 1.2E-129 0.874291073 0.973505897 0.874291073 0.973505897

21
Resíduos

RESIDUAL OUTPUT

Observation Predicted Y Residuals Standard Residuals


1 -0.19% 1.20% 0.83
2 0.29% 1.47% 1.02
3 -0.05% 0.17% 0.12
4 -0.66% -0.09% -0.06
5 -1.08% -1.71% -1.19
6 -0.33% 0.33% 0.23
7 -0.68% -0.81% -0.56
8 0.99% 0.24% 0.17

Saída gráfica

Forte excesso de curtose


Ajuste (real X previsto
no resíduos
0.15
Normal Probability Plot
0.10
0.15

0.05 0.1
0.05
0.00
0
-0.30 -0.20 -0.10 0.00 0.10 0.20
-0.05 -0.05 0 20 40 60 80 100

-0.1
-0.10
-0.15
-0.15 -0.2
-0.25
-0.20
Sample Percentile
-0.25

22
Cuidado Com

• Violação da premissas
Normalidade (os resíduos seguem uma distribuição Normal)
– Importante para os testes estatísticos
Independência (os resíduos são independentes de X)
Homocedasticidade (variância constane em relação a X)
• Influência de dados específicos
• Nível de significância (R )
2
• Extrapolação (predições para valores extremos de X)

Módulo de Análise de Dados - Excel


• Comandos para habilitar o módulo de Análise de Dados:
• (1) Personalizar a barra de ferramenta
• (2) Selecionar a opção de mais comandos
• (3) Selecionar a opção Suplementos
• (4) Selecionar a opção Ferramenta de análises
• (5) Selecione a opção ir
• (6) Seleciona a opção Ferramenta de análises

23
Exemplo
• A analista de mercado tem
interesse em estabelecer uma
relação entre o valor de venda e
a avaliação do imóvel. Para o
estudo foi selecionada uma
amostra de cinco propriedades.

24
25
Exercício
• A Armand’s Pizza é uma cadeia de restaurantes italianos
localizados em cinco estados. As localizações mais bem-
sucedidas da Armand’s têm sido as que estão perto de
campus universitários. Os gerentes acreditam que as
vendas trimestrais para esses restaurantes (y) estão
relacionadas positivamente com o tamanho da população
de estudantes (x). Fazer uma análise de regressão completa
para o caso.

Restaurante Estudantes (1000) Vendas trimestrais (US$ 1000)

Xi Yi

1 2 58

2 6 105

3 8 88

4 8 118

5 12 117

6 16 137

7 20 157

8 20 169

9 22 149

10 26 202

26

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy