0% acharam este documento útil (0 voto)
18 visualizações7 páginas

Unidade 12

Este documento discute regressão linear simples, incluindo conceituação, estimação de parâmetros usando mínimos quadrados e análise de variância. O objetivo é estimar a influência de uma variável independente sobre uma variável dependente usando um modelo linear.

Enviado por

luiztn33
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
18 visualizações7 páginas

Unidade 12

Este documento discute regressão linear simples, incluindo conceituação, estimação de parâmetros usando mínimos quadrados e análise de variância. O objetivo é estimar a influência de uma variável independente sobre uma variável dependente usando um modelo linear.

Enviado por

luiztn33
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 7

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE

CENTRO DE CIÊNCIAS E TECNOLOGIA AGROALIMENTAR


UNIDADE ACADÊMICA DE TECNOLOGIA DE ALIMENTOS

ESTATÍSTICA EXPERIMENTAL

Professor: Sthelio Braga da Fonseca

UNIDADE 12
a) Conteúdo:
1. Regressão linear simples

b) Objetivo da Semana:
Conceituar a regressão linear simples; calcular os coeficientes da reta.

c) Avaliação:
1. Atividades

Pombal-PB
9. Regressão Linear Simples
9.1. Conceituação
Uma regressão linear simples permite determinar, a partir das estimativas dos parâmetros,
como uma variável independente (X) exerce, ou parece exercer, influência sobre outra variável
(Y), chamada de variável dependente. Por exemplo, qual a influência da proteína sobre a
produção de leite? Esta pergunta poderia ser respondida a partir de uma regressão linear simples
entre as variáveis Y (produção de leite) e X (quantidade de proteína).
O problema básico da teoria da regressão é estimar os parâmetros do modelo estatístico
admitido, deduzir testes de significância para estes parâmetros e calcular seus intervalos de
confiança com base na equação de regressão.
Dados n pares de valores de duas variáveis Xi e Yi (i= 1, 2,..., n), admitindo que Y é função
linear de X, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é:

Yi   0   1 X i  ei
Em que:
β0 e β1 são os parâmetros do modelo e ei são os erros aleatórios.

O coeficiente angular da reta (β1) é também denominado coeficiente de regressão, e


representa o número de unidades acrescidas (β1 > 0) ou subtraídas (β1 < 0) na variável Y ao se
aumentar uma unidade na variável X. O coeficiente linear da reta (β0) é também conhecido como
termo constante da equação de regressão, ou ainda intercepto, e representa o valor assumido
pela variável Y quando a variável X é igual a zero.

Ao estabelecer o modelo de regressão linear simples, pressupomos que:


a) a relação entre X e Y é linear;
b) os valores de X são fixos, isto é, X não é uma variável aleatória;
c) a média do erro é nula, isto é, E (ei) = 0;
d) para um dado valor de X, a variância do erro e é sempre 2, denominada variância residual, isto
é, V (ei) = 2. Dizemos, então, que o erro é homocedástico ou que temos homocedasticia (do erro
ou da variável dependente).

E (ei2 )   2 ou E Yi  E (Yi / X i )   2


2

e) o erro de uma observação é independente do erro em outra observação, isto é, E (ei ej)=0 para
i≠j.
f) os erros têm distribuição normal.

Devemos ainda verificar se o número de observações disponíveis é maior do que o número


de parâmetros da equação de regressão. Para ajustarmos uma regressão linear simples
precisamos ter no mínimo 3 observações. Se dispomos de apenas 2 observações a determinação
da reta é um problema de geometria analítica, não é possível, neste caso, fazer nenhuma análise
estatística.
O método usual para obtenção das estimativas dos parâmetros de um modelo de regressão
é o dos mínimos quadrados (MMQ). Este método consiste em adotar como estimativas dos
parâmetros, os valores que minimizam a soma de quadrados dos desvios (ou dos erros).

Os estimadores obtidos são os seguintes:


 X Y
i i

XY i i  i

n
i

ˆ1  i
2
 
 Xi 
 X i2   i n 
i

E,

Y i X i
ˆ 0  i
 ˆ1 i
ou ˆ0  Y  ˆ1 X
n n

Pode se realizar uma análise de variância de acordo com o ajuste de um modelo de


regressão linear simples. Para tanto é necessário realizar a decomposição da soma de quadrados
total. Demonstraremos que:

n
 (Yi  Y ) 2   (Yˆi  Y ) 2   (Yi  Yˆi ) 2  y i2   yˆ i2   ei2
i 1 i i ou i i i

Isto é, que a soma de quadrados total (SQT) é igual à soma de quadrados da regressão
(SQRegressão), mais a soma de quadrados residual (SQR) também chamada soma de quadrados
dos desvios.

 (Yi  Y ) 2   (Yˆi  Y  Yi  Yˆi ) 2


i i

 (Yi  Y ) 2   (Yˆi  Y ) 2   (Yi  Yˆi ) 2  2 (Yˆi  Y ) (Yi  Yˆi )


i i i i

 (Yi  Y ) 2   (Yˆi  Y ) 2   (Yi  Yˆi ) 2


i i i

SQT = SQRegressão + SQResíduo

2
 
  Yi 
 (Yi  Y ) 2   Yi 2   i n   SQTotal
i i

2
 
  Yi 
 i   C  Correção
n
SQ Re gressão  (Yˆi  Y )   ( ˆ  ˆ1 X i  Y ) 2
2
0
i i

  (Y  ˆ1 X  ˆ1 X i  Y ) 2   ( ˆ1 X i  ˆ1 X ) 2  ˆ12  ( X i  X ) 2


i i i

SQ Re gressão  ˆ12  ( X i  X ) 2  ˆ12  xi2 ou


i i

 X i  Yi 
2

 XY  i

i
i i
n 
 
i
( SPXY ) 2
SQRegressão = 2

  S .Q.D X
 Xi 
 X i2   i n 
i

  xy  x y x y
2

  i i i i

 (Yi  Y )  1  xi   i x 2 
ˆ 2 ˆ 2 2
x 2 i i
 ˆ1  xy
 i  x
i 2
i i i i
 

A soma de quadrados do resíduo é usualmente obtida por diferença, isto é

SQResíduo = SQTotal – SQRegressão

A análise de variância é a seguinte:

CV GL SQ QM F
Regressão 1 SQReg QMReg QMReg/QMres
Resíduo n-2 SQRes QMRes=SQRes/(n-2)
Total n-1 SQtotal

Testam-se as hipóteses:
Ho: β1=0
Ha: β1≠0

9.2. Aplicações

 Os dados abaixo se referem aos pesos ao nascer (X) e peso na desmama (Y) de n=6
bezerros machos da raça guzerá (Agronomia);

 Os dados abaixo se referem a inclusão de acerola (X) e concentração de ácido


ascórbico (Vit. C) (Y) de 6 em sucos processados (Eng. de Alimentos);

 Os dados abaixo se referem a densidade populacional (X) e produção de resíduos


sólidos (Y) de 6 em cidades (Eng. Ambiental);
X Y
25,3 48,4
26,9 49,7
26,5 49,2
27,4 50,0
27,9 50,6
25,8 48,7

Determinemos agora a equação da reta de regressão.

Primeiro passo: Calcular o valor de Beta 1


x = 159,8 x2 = 4.260,76 y = 296,6 (x.y) = 7.903,45

 X Y
i i

X Y i i  i

n
i
7.903,45 
(159,8) ( 296,6)
ˆ1  i
2
Substituindo, ˆ1  6
  (159,8) 2
 Xi  4.260,76 
6
 X i2   i n 
i

7.903,45  7.899 ,45 4,00


ˆ1   Assim, ˆ1  0,8421
4.260 ,76  4.256 ,01 4,75

Segundo passo: Calcular o valor de Beta 0


Y i
296 ,6
ˆ0  Y  ˆ1 X Sendo Y  i
  49,43 e
n 6
X i
159 ,8
X  i
  26,63
n 6
ˆ0  49,43  22,4251  27,0049

Terceiro passo
Yˆi  ˆ0  ˆ1 X Yˆ  27 ,0049  0,8421 X
Assim,

O modelo pode ser apresentado da seguinte forma:

 Peso a desmama = 27,0049 + 0,8421 peso ao nascer (Agronomia)

 Concentração de Vit. C = 27,0049 + 0,8421 inclusão de acerola (Eng. de Alimentos)

 Prod. de resíduos Sólidos = 27,0049 + 0,8421 densidade populacional (Eng. Ambiental)

Geramos o modelo com base em nossa massa de dados, mas ainda não sabemos se ele pode
ser utilizado. Para isso, precisamos realizar a análise de variância para regressão.
Análise de Variância para Regressão

a) Soma de Quadrado Total


2
 
  Yi 
SQT   Yi 2   i 
(296,6)2
𝑆𝑄𝑇 = 48,42 + ⋯ + 48,72 − = 𝟑, 𝟒𝟏
6
i n

b) Soma de Quadrado de Regressão

 X  Y 
2
 i i
 (X Y ) 

i i
i i
n 
159 ,8 .296 ,6 2
 
i
7.903,45−
SQ Re gressão  2
𝑆𝑄𝑅𝑒𝑔 = 6
(159 ,8)2
= 𝟑, 𝟑𝟔𝟖𝟒
  4.260−
 Xi 
6

 X i2   i n 
i

c) Soma de Quadrado de Resíduo

SQResíduo = SQTotal – SQRegressão SQR = 3,4133 - 3,3684 SQR=0,0449

d) Quadro de Análise de Variância

CV GL SQ QM F
Regressão 1 3,3684 3,3684 300,75
Resíduo 4 0,0449 0,0112
Total 5 3,4133

Como F calculado (300,75) foi MAIOR do que F tabelado (7,71), rejeitamos H0, logo Beta
1 é diferente de zero. Deste modo, os modelos abaixo são bons estimadores das variáveis em
estudos.

 Peso a desmama = 27,0049 + 0,8421 peso ao nascer (Agronomia)

 Concentração de Vit. C = 27,0049 + 0,8421 inclusão de acerola (Eng. de Alimentos)

 Prod. de resíduos Sólidos = 27,0049 + 0,8421 densidade populacional (Eng. Ambiental)

Por fim, faz-se necessário apresentar o quão o modelo estimado representa (explica) os
dados. Para isso, é necessário calcular o coeficiente de determinação. Em outras palavras, ele
determina o quão os dados são explicados pelo modelo de regressão.
9.3. Coeficiente de determinação (R2)
O coeficiente de determinação (R2) indica a proporção da variação de Y que é “explicada”
pela regressão ou quanto da SQT está sendo “explicada” pela regressão ou quanto da variação na
variável dependente Y está sendo explicada pela variável independente X.

SQ Regressão
R2 
SQT

Para o exemplo apresentado anteriormente temos:

3,3684
𝑅2 = = 0,9868
3,4133

Esse valor indica que o ajuste foi considerado bom.

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy