붉은 점들을 기반으로 푸른 선의 2차 방정식 근사해를 구한다.
최소제곱법 , 또는 최소자승법 , 최소제곱근사법 , 최소자승근사법 (method of least squares, least squares approximation )은 어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합 (SS)이 최소가 되는 해를 구하는 방법이다.
이 방법은 값을 정확하게 측정할 수 없는 경우에 유용하게 사용될 수 있으며, 특히 그 계의 방정식이 어떤 형태인지를 알고 있을 때 방정식 의 상수 값들을 추정하는 데에 사용된다.
어떤 계에서
n
{\displaystyle n}
개의 관측값
(
X
i
,
y
i
)
{\displaystyle (X_{i},y_{i})}
(
1
≤
i
≤
n
{\displaystyle 1\leq i\leq n}
)가 있다고 가정할 때 설명변수와 종속변수간의 관계식을 추정하고자 한다. 회귀식의 설명변수는 m개가 있다고 가정한다. 설명변수
x
i
j
{\displaystyle x_{ij}}
는 표본의
i
{\displaystyle i}
번째 관측값의
j
{\displaystyle j}
번 설명변수의 값으로 표기한다. 이 경우 회귀식은 다음과 같이 표현할 수 있다.
y
i
=
β
0
+
β
1
x
i
1
+
β
2
x
i
2
+
.
.
.
+
β
m
x
i
m
+
ϵ
{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+...+\beta _{m}x_{im}+\epsilon }
이 식을 행렬의 꼴로 축약해 나타내면 다음과 같은 형태로 표현할 수 있다.
y
=
X
β
+
ϵ
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\epsilon }}}
여기서
y
{\displaystyle \mathbf {y} }
는 종속변수 관측값을 나타낸 벡터이고,
X
{\displaystyle \mathbf {X} }
는 설명변수를 모아 둔 디자인 행렬 이다.
β
{\displaystyle {\boldsymbol {\beta }}}
는 모수 벡터이고,
ϵ
{\displaystyle {\boldsymbol {\epsilon }}}
은 오차항을 모은 벡터이다. 이들을 행렬로 나타내면 다음과 같다.
y
=
[
y
1
y
2
⋮
y
n
]
{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}}
,
X
=
[
1
x
11
x
12
⋯
x
1
m
1
x
21
x
22
⋯
x
2
m
⋮
⋮
⋮
⋯
⋮
1
x
n
1
x
n
2
⋯
x
n
m
]
{\displaystyle \mathbf {X} ={\begin{bmatrix}1&&x_{11}&&x_{12}&&\cdots &&x_{1m}\\1&&x_{21}&&x_{22}&&\cdots &&x_{2m}\\\vdots &&\vdots &&\vdots &&\cdots &&\vdots \\1&&x_{n1}&&x_{n2}&&\cdots &&x_{nm}\\\end{bmatrix}}}
,
β
=
[
β
0
β
1
β
2
⋮
β
m
]
{\displaystyle {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{m}\end{bmatrix}}}
,
ϵ
=
[
ϵ
1
ϵ
2
⋮
ϵ
n
]
{\displaystyle {\boldsymbol {\epsilon }}={\begin{bmatrix}\epsilon _{1}\\\epsilon _{2}\\\vdots \\\epsilon _{n}\end{bmatrix}}}
오차항의 제곱합
S
(
β
)
=
∑
i
[
y
i
−
(
β
0
+
β
1
x
i
1
+
β
2
x
i
2
+
.
.
.
+
β
m
x
i
m
)
]
2
{\displaystyle S({\boldsymbol {\beta }})=\sum _{i}\left[y_{i}-(\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+...+\beta _{m}x_{im})\right]^{2}}
의 값을 최소로 만드는
β
{\displaystyle {\boldsymbol {\beta }}}
를 구하는 것이 문제의 목표이다.
x 에 대응하는 y 의 자료들이 있다고 할 때, 여기에 맞는 일차방정식은
y
=
a
x
+
b
{\displaystyle y=ax+b}
이다. 여기서 a, b 의 값을 알기 위해선 다음의 '정규방정식(normal equation)'을 연립한다.
a
∑
x
2
+
b
∑
x
=
∑
x
y
{\displaystyle a\sum x^{2}+b\sum x=\sum xy}
a
∑
x
+
b
n
=
∑
y
{\displaystyle a\sum x+bn=\sum y}
상수도 시설의 규모를 결정할 때 해당 상수도를 이용하게 될 도시의 장래 인구수를 추정해야 한다. 여러 가지 추정법 중 하나가 최소제곱법을 이용한 방법이다. 장래 인구수는 과거의 인구 통계자료를 가지고 연도에 따른 인구수의 방정식을 먼저 구한 뒤, 이를 이용해 계산하여 구한다.
n개의 연도와 인구 수 자료가 있다고 하자.
연도
인구 수
x 1
y 1
x 2
y 2
…
…
xn
yn
구하고자 하는 방정식은
y
=
a
x
+
b
{\displaystyle y=ax+b}
이다. 상수 a, b 값을 안다면, 장래의 연도 x 를 대입했을 때 장래 인구 수 y 를 알 수 있을 것이다. a, b 는 다음으로 계산한다.
a
=
n
Σ
X
Y
−
Σ
X
Σ
Y
n
Σ
X
2
−
Σ
X
Σ
X
{\displaystyle a={\frac {n\Sigma XY-\Sigma X\Sigma Y}{n\Sigma X^{2}-\Sigma X\Sigma X}}}
b
=
Σ
X
2
Σ
Y
−
Σ
X
Σ
X
Y
n
Σ
X
2
−
Σ
X
Σ
X
{\displaystyle b={\frac {\Sigma X^{2}\Sigma Y-\Sigma X\Sigma XY}{n\Sigma X^{2}-\Sigma X\Sigma X}}}
예를 들어 1990년부터 1996년까지 기록된 인구 자료가 다음과 같다고 하자.
연도
인구(Y)
1990
177800
1991
182500
1992
187000
1993
192300
1994
194500
1995
199200
1996
203700
계산의 편의를 위해 연도를 다음과 같이 치환한다.
연도(X)
인구(Y)
-3
177800
-2
182500
-1
187000
0
192300
1
194500
2
199200
3
203700
정규방정식에 필요한 값들을 계산하면
∑
X
2
=
(
9
+
4
+
1
)
×
2
=
28
{\displaystyle \sum X^{2}=(9+4+1)\times 2=28}
∑
X
=
0
{\displaystyle \sum X=0}
∑
X
Y
=
118600
{\displaystyle \sum XY=118600}
∑
Y
=
1337000
{\displaystyle \sum Y=1337000}
정규방정식에 이 값들을 대입하면 a, b를 알 수 있다.
a
×
28
=
118600
{\displaystyle a\times 28=118600}
b
×
7
=
1337000
{\displaystyle b\times 7=1337000}
∴
Y
=
a
X
+
b
=
4235.714
X
+
191000
{\displaystyle {\begin{aligned}\therefore Y&=aX+b\\&=4235.714X+191000\\\end{aligned}}}
1993년이
X
=
0
{\displaystyle X=0}
으로 되었으므로 2000년은
X
=
7
{\displaystyle X=7}
을 대입하여 계산한다. 따라서 2000년의 인구 수는 220,650명으로 예측할 수 있다.
김동희 외 7인 (2008). 《통계학: 이론과 응용》 3판. 자유아카데미. ISBN 978-89-7338-671-0 .
이종형 외. 《상하수도 공학》 5판. 구미서관. 24쪽.
Kharab, Guenther. 《이공학도를 위한 수치해석》 3판. 학산미디어.
Hill, R. Carter; Griffiths, William E.; Lim, Guay C. (2010). 《Principles of Econometrics》 [계량경제학] 3판. 시그마프레스. ISBN 978-89-5832-785-1 .