0% acharam este documento útil (0 voto)

18 visualizações7 páginas

Unidade 12

Este documento discute regressão linear simples, incluindo conceituação, estimação de parâmetros usando mínimos quadrados e análise de variância. O objetivo é estimar a influência de uma variável independente sobre uma variável dependente usando um modelo linear.

Enviado por

luiztn33

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

18 visualizações7 páginas

Unidade 12

Enviado por

luiztn33

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 7

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE

CENTRO DE CIÊNCIAS E TECNOLOGIA AGROALIMENTAR

UNIDADE ACADÊMICA DE TECNOLOGIA DE ALIMENTOS

ESTATÍSTICA EXPERIMENTAL

Professor: Sthelio Braga da Fonseca

UNIDADE 12
a) Conteúdo:
1. Regressão linear simples

b) Objetivo da Semana:
Conceituar a regressão linear simples; calcular os coeficientes da reta.

c) Avaliação:
1. Atividades

Pombal-PB
9. Regressão Linear Simples
9.1. Conceituação
Uma regressão linear simples permite determinar, a partir das estimativas dos parâmetros,
como uma variável independente (X) exerce, ou parece exercer, influência sobre outra variável
(Y), chamada de variável dependente. Por exemplo, qual a influência da proteína sobre a
produção de leite? Esta pergunta poderia ser respondida a partir de uma regressão linear simples
entre as variáveis Y (produção de leite) e X (quantidade de proteína).
O problema básico da teoria da regressão é estimar os parâmetros do modelo estatístico
admitido, deduzir testes de significância para estes parâmetros e calcular seus intervalos de
confiança com base na equação de regressão.
Dados n pares de valores de duas variáveis Xi e Yi (i= 1, 2,..., n), admitindo que Y é função
linear de X, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é:

Yi   0   1 X i  ei
Em que:
β0 e β1 são os parâmetros do modelo e ei são os erros aleatórios.

O coeficiente angular da reta (β1) é também denominado coeficiente de regressão, e

representa o número de unidades acrescidas (β1 > 0) ou subtraídas (β1 < 0) na variável Y ao se
aumentar uma unidade na variável X. O coeficiente linear da reta (β0) é também conhecido como
termo constante da equação de regressão, ou ainda intercepto, e representa o valor assumido
pela variável Y quando a variável X é igual a zero.

Ao estabelecer o modelo de regressão linear simples, pressupomos que:

a) a relação entre X e Y é linear;
b) os valores de X são fixos, isto é, X não é uma variável aleatória;
c) a média do erro é nula, isto é, E (ei) = 0;
d) para um dado valor de X, a variância do erro e é sempre 2, denominada variância residual, isto
é, V (ei) = 2. Dizemos, então, que o erro é homocedástico ou que temos homocedasticia (do erro
ou da variável dependente).

E (ei2 )   2 ou E Yi  E (Yi / X i )   2

e) o erro de uma observação é independente do erro em outra observação, isto é, E (ei ej)=0 para
i≠j.
f) os erros têm distribuição normal.

Devemos ainda verificar se o número de observações disponíveis é maior do que o número

de parâmetros da equação de regressão. Para ajustarmos uma regressão linear simples
precisamos ter no mínimo 3 observações. Se dispomos de apenas 2 observações a determinação
da reta é um problema de geometria analítica, não é possível, neste caso, fazer nenhuma análise
estatística.
O método usual para obtenção das estimativas dos parâmetros de um modelo de regressão
é o dos mínimos quadrados (MMQ). Este método consiste em adotar como estimativas dos
parâmetros, os valores que minimizam a soma de quadrados dos desvios (ou dos erros).

Os estimadores obtidos são os seguintes:

 X Y
i i

XY i i  i

n
i

ˆ1  i
2
 
 Xi 
 X i2   i n 
i

Y i X i
ˆ 0  i
 ˆ1 i
ou ˆ0  Y  ˆ1 X
n n

Pode se realizar uma análise de variância de acordo com o ajuste de um modelo de

regressão linear simples. Para tanto é necessário realizar a decomposição da soma de quadrados
total. Demonstraremos que:

n
 (Yi  Y ) 2   (Yˆi  Y ) 2   (Yi  Yˆi ) 2  y i2   yˆ i2   ei2
i 1 i i ou i i i

Isto é, que a soma de quadrados total (SQT) é igual à soma de quadrados da regressão
(SQRegressão), mais a soma de quadrados residual (SQR) também chamada soma de quadrados
dos desvios.

 (Yi  Y ) 2   (Yˆi  Y  Yi  Yˆi ) 2

i i

 (Yi  Y ) 2   (Yî  Y ) 2   (Yi  Yî ) 2  2 (Yî  Y ) (Yi  Yî )

i i i i

 (Yi  Y ) 2   (Yˆi  Y ) 2   (Yi  Yˆi ) 2

i i i

SQT = SQRegressão + SQResíduo

2
 
  Yi 
 (Yi  Y ) 2   Yi 2   i n   SQTotal
i i

2
 
  Yi 
 i   C  Correção
n
SQ Re gressão  (Yˆi  Y )   ( ˆ  ˆ1 X i  Y ) 2
2
0
i i

  (Y  ˆ1 X  ˆ1 X i  Y ) 2   ( ˆ1 X i  ˆ1 X ) 2  ˆ12  ( X i  X ) 2

i i i

SQ Re gressão  ˆ12  ( X i  X ) 2  ˆ12  xi2 ou

i i

 X i  Yi 
2

 XY  i

i
i i
n 
 
i
( SPXY ) 2
SQRegressão = 2

  S .Q.D X
 Xi 
 X i2   i n 
i

  xy  x y x y
2

  i i i i

 (Yi  Y )  1  xi   i x 2 
ˆ 2 ˆ 2 2
x 2 i i
 ˆ1  xy
 i  x
i 2
i i i i
 

A soma de quadrados do resíduo é usualmente obtida por diferença, isto é

SQResíduo = SQTotal – SQRegressão

A análise de variância é a seguinte:

CV GL SQ QM F
Regressão 1 SQReg QMReg QMReg/QMres
Resíduo n-2 SQRes QMRes=SQRes/(n-2)
Total n-1 SQtotal

Testam-se as hipóteses:
Ho: β1=0
Ha: β1≠0

9.2. Aplicações

 Os dados abaixo se referem aos pesos ao nascer (X) e peso na desmama (Y) de n=6
bezerros machos da raça guzerá (Agronomia);

 Os dados abaixo se referem a inclusão de acerola (X) e concentração de ácido

ascórbico (Vit. C) (Y) de 6 em sucos processados (Eng. de Alimentos);

 Os dados abaixo se referem a densidade populacional (X) e produção de resíduos

sólidos (Y) de 6 em cidades (Eng. Ambiental);
X Y
25,3 48,4
26,9 49,7
26,5 49,2
27,4 50,0
27,9 50,6
25,8 48,7

Determinemos agora a equação da reta de regressão.

Primeiro passo: Calcular o valor de Beta 1

x = 159,8 x2 = 4.260,76 y = 296,6 (x.y) = 7.903,45

 X Y
i i

X Y i i  i

n
i
7.903,45 
(159,8) ( 296,6)
ˆ1  i
2
Substituindo, ˆ1  6
  (159,8) 2
 Xi  4.260,76 
6
 X i2   i n 
i

7.903,45  7.899 ,45 4,00

ˆ1   Assim, ˆ1  0,8421
4.260 ,76  4.256 ,01 4,75

Segundo passo: Calcular o valor de Beta 0

Y i
296 ,6
ˆ0  Y  ˆ1 X Sendo Y  i
  49,43 e
n 6
X i
159 ,8
X  i
  26,63
n 6
ˆ0  49,43  22,4251  27,0049

Terceiro passo
Yˆi  ˆ0  ˆ1 X Yˆ  27 ,0049  0,8421 X
Assim,

O modelo pode ser apresentado da seguinte forma:

 Peso a desmama = 27,0049 + 0,8421 peso ao nascer (Agronomia)

 Concentração de Vit. C = 27,0049 + 0,8421 inclusão de acerola (Eng. de Alimentos)

 Prod. de resíduos Sólidos = 27,0049 + 0,8421 densidade populacional (Eng. Ambiental)

Geramos o modelo com base em nossa massa de dados, mas ainda não sabemos se ele pode
ser utilizado. Para isso, precisamos realizar a análise de variância para regressão.
Análise de Variância para Regressão

a) Soma de Quadrado Total

2
 
  Yi 
SQT   Yi 2   i 
(296,6)2
𝑆𝑄𝑇 = 48,42 + ⋯ + 48,72 − = 𝟑, 𝟒𝟏
6
i n

b) Soma de Quadrado de Regressão

 X  Y 
2
 i i
 (X Y ) 

i i
i i
n 
159 ,8 .296 ,6 2
 
i
7.903,45−
SQ Re gressão  2
𝑆𝑄𝑅𝑒𝑔 = 6
(159 ,8)2
= 𝟑, 𝟑𝟔𝟖𝟒
  4.260−
 Xi 
6

 X i2   i n 
i

c) Soma de Quadrado de Resíduo

SQResíduo = SQTotal – SQRegressão SQR = 3,4133 - 3,3684 SQR=0,0449

d) Quadro de Análise de Variância

CV GL SQ QM F
Regressão 1 3,3684 3,3684 300,75
Resíduo 4 0,0449 0,0112
Total 5 3,4133

Como F calculado (300,75) foi MAIOR do que F tabelado (7,71), rejeitamos H0, logo Beta
1 é diferente de zero. Deste modo, os modelos abaixo são bons estimadores das variáveis em
estudos.

 Peso a desmama = 27,0049 + 0,8421 peso ao nascer (Agronomia)

 Concentração de Vit. C = 27,0049 + 0,8421 inclusão de acerola (Eng. de Alimentos)

 Prod. de resíduos Sólidos = 27,0049 + 0,8421 densidade populacional (Eng. Ambiental)

Por fim, faz-se necessário apresentar o quão o modelo estimado representa (explica) os
dados. Para isso, é necessário calcular o coeficiente de determinação. Em outras palavras, ele
determina o quão os dados são explicados pelo modelo de regressão.
9.3. Coeficiente de determinação (R2)
O coeficiente de determinação (R2) indica a proporção da variação de Y que é “explicada”
pela regressão ou quanto da SQT está sendo “explicada” pela regressão ou quanto da variação na
variável dependente Y está sendo explicada pela variável independente X.

SQ Regressão
R2 
SQT