[[분류:통계학]][[분류:계량경제이론]][[분류:두문자어]] [include(틀:통계학)] [목차] == 개요 == {{{+1 [[最]][[小]][[自]][[乘]][[法]], [[最]][[小]][[二]][[乘]][[法]] / ordinary least squares, OLS}}} 한국어: 최소자승법, 최소이승법, 최소제곱법. 현재 최소제곱법으로 명칭이 통일되었다. 선형 모델의 파라미터를 추정하는 가장 기초적이면서 평범한(ordinary) 방법 중에 하나. 통계를 처음 배울 때 가장 먼저 접하게 되지만 단순하면서 가장 많이 쓰인다. 주의할 점은 OLS는 선형회귀모델의 추정 방법 중에 하나이지 선형회귀모델 자체는 아니라는 것.[* 선형회귀모델의 파라미터를 추정하는 방법에는 OLS 말고도 WLS(weighted least squares), GLS(generalized least squares), LASSO, Ridge 등 다양하다.] == 상세 == 어떤 종속[[변수]] [math(Y)]가 어떤 독립변수 [math(X)]와 선형 관계에 있다고 가정한다면 [math(i)]번째 샘플의 관계는 다음과 같이 쓸 수 있다. {{{#!wiki style="text-align: center;" [math(Y_i=\beta_1+\beta_2X_i+\varepsilon_i)]}}} 이는 모집단회귀선의 방정식이며, 여기에서 [math(\beta_1)]은 상수항, [math(\beta_2)]는 기울기, [math(\varepsilon_i)]는 오차항이다. 이 모집단회귀선을 추정하기 위한 표본회귀선의 방정식은 다음과 같다. {{{#!wiki style="text-align: center;" [math(Y_i=b_1+b_2X_i+e_i)]}}} 여기에서 [math(\beta_1)]은 상수항, [math(\beta_2)]는 기울기, [math(\varepsilon_i)]는 잔차항으로, 위 모집단회귀식의 대응하는 [[추정량]]이다. 이때, 최소자승법은 다음과 같이 이 '''표본회귀식의 잔차항의 제곱합을 최소화'''하는 방법론이다. {{{#!wiki style="text-align: center;" [math(\min\displaystyle\sum_{i=1}^ne_i^2=\min\sum_{i=1}^n(Y_i-b_1-b_2X_i)^2)]}}} 각 잔차를 모두 제곱한 뒤 총합을 구하는 이유는, 잔차를 최소화하는 방법으로는 먼저 단순히 잔차의 총합 [math(\displaystyle e_i)]의 최솟값을 구하는 방법을 고려할 수 있다. 그러나 각 자료가 회귀선보다 위와 아래에 모두 존재하여 각 잔차가 양이 될 수도 있고 음이 될 수도 있어서 이 경우 잔차를 모두 더할 경우 상쇄되므로 적절하지 않다. 이와 같이 잔차끼리 상쇄되는 일을 방지하기 위하여 모든 값을 0 이상으로 만든 뒤 총합을 구하는 것인데, [[분산]]을 구할 때 단순히 편차의 평균을 구하지 않고 편차의 제곱의 평균을 구하는 이유[* 곧, 편차의 합은 항상 모든 값이 최종적으로 상쇄되어 0이 되기 때문]와 정확히 같은 것이다. 이때, 모든 값을 0 이상으로 만드는 방법으로는 잔차항을 제곱합을 구하는 방법, 잔차항의 절댓값의 합을 구하는 방법, 잔차항과 회귀선의 수직거리의 합을 구하는 방법 등이 있는데, 최소자승법은 '자승([[自]][[乘]])'이라는 이름에서 알 수 있듯이 '''잔차항의 제곱합을 최소화하는 방법'''인 것이다. 이렇게 최소자승법을 사용할 때 [math(b_1)], [math(b_2)]를 각각 [math(\beta_1)], [math(\beta_2)]의 최소자승추정량이라고 한다. 이를 선형대수학적으로 단순화시켜 설명하자면, [math(Y)]라는 실제 관측값 행렬[* 정확하게는 관측값을 [math(i)]번째 측정에 대하여 [math((x_i, y_i))]로 정의하고, [math(x_i)]를 독립변수, [math(y_i)]를 관측값으로 둔다.]에 대하여, 독립변수를 모아놓은 행렬 [math(A)]가 존재하여 [math(Y=A\mathbf{x})]를 만족하는 다항식 벡터공간의 원소 [math(\mathbf{x})]가 존재할 때[* 즉 [math(\mathbf{x}:y=a_0+a_1x+a_2x^2+\cdots+a_nx^n)]라는 구하고 싶은 근사 다항방정식을 의미한다.], 다음 정규방정식 [math(A^{T}A\mathbf{x}=A^{T}Y)]을 만족하는 벡터 [math(\mathbf{x})]의 해집합이 [math(A\mathbf{x}=Y)]의 최소제곱해가 된다는 것과 동치가 된다. 실제로는 오차항 행렬인 [math(E)]를 더한 [math(Y=A\mathbf{x}+E)]의 해집합 [math(\mathbf{x})]는 [math(E)]를 최소로 만드는 최소제곱해가 된다는 것이지만 둘 사이에 수학적인 의미로 큰 차이는 없다. 이 때, [math(A, \mathbf{x}, Y, E)]는 다음과 같이 세팅하면 되며, [math(E)]는 계산 결과로 역산해서 구하기 때문에 지시하지 않는 이상 구할 필요는 딱히 없다. [math(\displaystyle A= \begin{pmatrix} 1 & x_1 & x_1^2 & \cdots & x_1^n \\ 1 & x_2 & x_2^2 & \cdots & x_2^n \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_m & x_m^2 & \cdots & x_m^n \end{pmatrix}, \mathbf{x}=\begin{pmatrix} a_0 \\ a_1 \\ \vdots \\ a_n \end{pmatrix}, Y= \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix}, E=\begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_m \end{pmatrix})] 주의할 점은, [math(A^{T}A\mathbf{x}=A^{T}Y)]니까 양변의 좌측에 [math((A^TA)^{-1})]를 곱해서 소거시켜서 [math((A^TA)^{-1}A^{T}A\mathbf{x}=(A^TA)^{-1}A^{T}Y)]라고 계산하는건 맞는데, [math((A^TA)^{-1}=A^{-1}\left(A^T\right)^{-1})]이라고 생각해서 곱하여 [math(A^{-1}\cancel{\left(A^T\right)^{-1}}\cancel{A^{T}}Y=A^{-1}Y)]라고 계산하면 안 된다. 애당초 [math(A)]가 [math(n)]차 방정식에 대하여 [math(n+1)]개의 관측값이 주어진 경우가 아니라면 정사각행렬이 아니라 역행렬이 정의되지 않기 때문. 따라서 역행렬이 정의되는 최소 단위인 [math(A^{T}A)]에 대해서 역행렬을 구해야 한다. 이 때, [math(A^{T}A)]는 다음과 같은 행렬로 계산된다. [math(A^{T}A=\displaystyle \sum_{1\leq i, j\leq n+1} \left(e_{ij}\sum_{k=1}^{m}x_{k}^{i+j-2}\right))] ([math(e_{ij})]는 [math(i)]행 [math(j)]열의 성분만 1이고 나머지는 0인 행렬) == 최소자승추정량 == 최소자승추정량의 구체적인 식을 알아보자. 잔차의 제곱합을 최소화하는 값을 구하기 위해, 먼저 위 문단에서 소개한 최소자승법의 식을 각 추정량에 대하여 편미분하여 1계 조건을 구해 보자. || [math(\begin{aligned}\dfrac{\partial\left(\displaystyle\sum_{i=1}^ne_i^2\right)}{\partial b_1}&=-2\sum_{i=1}^n(Y_i-b_1-b_2X_i)=-2\sum_{i=1}^ne_i=0\\\dfrac{\partial\left(\displaystyle\sum_{i=1}^ne_i^2\right)}{\partial b_2}&=-2\sum_{i=1}^n(Y_i-b_1-b_2X_i)X_i=-2\sum_{i=1}^ne_iX_i=0\end{aligned}\\\\\therefore\begin{cases}\displaystyle\sum_{i=1}^ne_i=0\\\displaystyle\sum_{i=1}^ne_iX_i=0\end{cases})] || 이 두 식을 '''정규방정식'''([[正]][[規]][[方]][[程]][[式]], normal equation)이라고 한다. 첫째 식은 잔차의 총합이 0임을 의미하고, 두 식을 동시에 충족할 때 잔차항과 독립변수 사이에 '''직교성'''([[直]][[交]][[性]], perpendicularity)이 성립하며, 공분산은 0이 된다([math({\rm Cov}(e_i,\,X_i)=0)]). 이 때문에 '''직교방정식'''([[直]][[交]][[方]][[程]][[式]], orthogonal equations)이라고도 한다. 이 조건을 이용하여 [math(b_1)]과 [math(b_2)]의 값을 구할 수 있다. ||
[math(\begin{aligned}\displaystyle\sum_{i=1}^ne_i&=\sum_{i=1}^n(Y_i-b_1-b_2X_i)=0\\&\rightarrow\sum_{i=1}^nY_i-nb_1-b_2\sum_{i=1}^nX_i=0\\&\rightarrow\bar Y-b_1-b_2\bar X=0\\\therefore b_1&=\bar Y-b_2\bar X\\\\\sum_{i=1}^nX_ie_i&=\sum_{i=1}^nX_i(Y_i-b_1-b_2X_i)\\&=\sum_{i=1}^nX_i\{(Y_i-\bar Y)+b_2\bar X-b_2X_i)\}=0\\\therefore b_2&=\dfrac{\displaystyle\sum_{i=1}^nX_i(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)X_i}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\&=\dfrac{\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2}=\dfrac{S_{xy}}{S_{xx}}\end{aligned})] || 곧, 먼저 [math(b_1)]을 [math(b_2)]에 관한 식으로 나타낼 수 있음을 보인 뒤, [math(b_2)]를 구할 때 이 식을 대입하여 [math(b_2)]에 대하여 정리하여 추정량의 값 [math(S_{xy}/S_{xx})]를 도출한 것이다. === 가우스-마르코프 정리 === 보통 좋은 추정이라고 하면 통계에서는 불편성과 효율성을 만족시키는 추정량을 채택하는 것을 말한다. 특히 선형 모델의 경우 이렇게 가장 좋은 추정법을 BLUE(best linear unbiased estimator, 최량선형[[불편추정량]])라고 한다. 가우스-마르코프 정리란, 회귀계수 [math(\beta_1)], [math(\beta_2)]의 선형 불편추정량 중에서는 다음의 조건들을 만족시키는 한 최소자승추정량이 분산이 가장 작아서 그중에서도 가장 좋은 추정량이라는 정리이다. 곧, 최소자승추정량은 '''최소분산선형추정량'''([[最]][[小]][[分]][[散]][[線]][[型]][[推]][[定]][[量]], minimum variance linear unbiased estimator(MVLUE)) 또는 '''최량선형불편추정량'''([[最]][[良]][[線]][[形]][[不]][[偏]][[推]][[定]][[量]], best linear unbiased estimator(BLUE))이라는 것이다. 둘은 결국 같은 말이다. 다음 조건은 OLS로 구한 파라미터 추정치가 BLUE가 되기 위해 필요한 조건인 셈이다. * '''선형성'''([[線]][[型]][[性]], linearity) 회귀모형은 다음과 같이 '''회귀계수에 대하여 선형'''이어야 한다. {{{#!wiki style="text-align: center;" [math(Y_i=\beta_1+\beta_2X_i+\varepsilon_i)]}}} 이는 독립변수와 종속변수의 관계를 규정하는 것으로, 주의할 점은 꼭 독립변수 [math(X_i)]에 대하여 선형(linear in variables)이어야 한다는 뜻이 아니라는 점이다. 대신, '''회귀계수''' [math(\beta_1)], [math(\beta_2)]에 대하여 선형(linear in '''parameters''')이어야 한다는 뜻이다. 예를 들어 {{{#!wiki style="text-align: center;" [math(\begin{aligned}Y_i&=\beta+\beta_2X_i^2+\varepsilon_i\quad&\cdots({\rm a})\\Y_i&=\beta+\sqrt{\beta_2}X_i+\varepsilon_i\quad&\cdots({\rm b})\end{aligned})]}}} 에서 [math(({\rm b}))]는 [math(({\rm a}))]와 달리 독립변수에 대하여 선형일지언정 회귀계수에 대하여 비선형이다. 이 경우 두 모형 중에서 선형성을 만족시키는 것은 [math(({\rm a}))]라는 것이다. [math(({\rm a}))]의 경우 [math(X_i^2)]을 또 다른 변수 [math(Z_i)] 등으로 [[치환]]하면 처음에 소개한 기본형이 되므로 회귀분석에는 아무런 문제가 없다. 요컨대 '회귀계수에 대하여 선형'이라는 말은 각 회귀계수에 대한 1차 편미분이 해당 회귀계수가 포함된 함수가 아닌 일정한 상수가 된다는 뜻이다. * '''독립변수의 비확률성'''([[非]][[確]][[率]][[性]], nonstochasticity) 독립변수 [math(X)]는 비확률변수여야 한다. 독립변수의 비확률성이란, 다음과 같이 독립변수와 오차항의 [[공분산]]이 0이라는 뜻이다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}{\rm Cov}(X_i,\,\varepsilon_i)&=E(X_i\varepsilon_i)-E(X_i)E(\varepsilon_i)\\&=E(X_i)\varepsilon_i-X_iE(\varepsilon_i)=0\end{aligned})]}}} 쉽게 말하면 독립변수를 미리 주어진 것으로 본다는 뜻이기도 하다. 예를 들어, 독립변수를 먼저 고정해 놓고 그에 따라서 종속변수에 관한 자료를 수집하는 경우가 이에 해당한다. 그러나 실제 연구에서는 대부분 표본을 먼저 선정한 뒤 그 표본에 대한 독립변수 자료 및 종속변수 자료를 수집하는 경우가 많다. 다시 말하면 독립변수가 실제로는 확률변수인 경우가 많은데, 이 경우 [math({\rm Cov}(X_i,\,\varepsilon_i)\neq0)]이 되어 최소자승추정량은 [[불편추정량]]이 되지 못한다. 사회 자료는 비확률변수라는 조건도 너무 강하기 때문에 '독립변수는 확률변수이고 오차항에 대해 독립이다.'라는 완화된 조건을 사용하기도 한다. 예를 들어 2100년 가계소득을 독립변수로 한다고 했을 때, 이 독립변수는 2100년 가계소득 자료가 조사되고 취합되어 발표되기 전까지는 알 수가 없다. 즉 확률변수인 것이다.[* 사회 자료는 이 조건마저도 강하게 어기는 경우가 많기 때문에 더 완화된 조건인 '조건부 0' 가정을 사용하는 경우가 더 일반적이다. 즉 독립변수 행렬 [math(\mathbf{X})]와 오차항 벡터 [math(\mathbf{\epsilon})]에 대해 [math(\mathbb{E}[\mathbf{\epsilon}|\mathbf{X}])] 가정을 사용한다. 때로는 이 가정도 깨져서 각각의 독립변수와 오차항의 상관계수가 0이라는 조건을 사용해야 하는 경우도 있다. 즉 [math(\rm{Cov}(\epsilon_i, X_i) = 0)]을 사용한다. 전자를 만족시키지 못하고 후자만 만족시킨다면 OLS는 BLUE가 되지 못하며 편의가 생긴다. 다만 이 후자의 가정을 만족시키면 [[일치추정량]]이 될 수는 있다. 곧, 편의가 있지만 대표본하에서는 추정량이 참값으로 확률수렴한다.] 그러나 전체적인 분석에는 사실 큰 차이가 없어서(...) 설명의 단순화를 위해 독립변수의 비확률성을 전제하여 논의하는 것도 충분히 합리적이라고 할 수 있다. * '''식별성'''([[識]][[別]][[性]], idenfitication) 전체 표본에서 독립변수에 대한 관측치는 적어도 서로 다른 두 개 이상의 값을 가져야 한다. 이 조건은 다음과 같이 표현할 수 있다. {{{#!wiki style="text-align: center;" [math(S_x^2=\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\neq0)]}}} 만약 모든 관측치의 독립변수의 값이 하나의 값 [math(c)]로 동일하면 [math(X_i=c)]이고 [math(X_i-\bar X=0)]이 되기 때문이다. 이 경우 산점도가 하나의 직선과 같이 나타나므로 표본회귀선의 기울기를 결정할 수조차 없게 되므로, 식별성의 조건은 표본회귀선의 기울기를 결정하기 위한 필수 조건인 셈이다. * '''오차항의 평균은 0''' 모든 관측치에 대하여 오차항의 평균은 0이어야 한다. 곧, [math(i=1,\,2,\,\cdots,\,n)]에 대하여 다음이 성립해야 한다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}E(\varepsilon_i)&=0\\\therefore E(Y_i)&=\beta_1+\beta_2X_i\end{aligned})]}}} 이 가정은 종속변수의 체계적 변동이 독립변수에 대하여 모두 포착되어 오차항은 비체계적인 부분만을 설명한다는 뜻이다. 이는 여러 관측치가 회귀선보다 위에도, 아래에도 존재하여 양인 오차항과 음인 오차항이 혼재하므로 전체적으로는 상쇄되어 0이 됨을 나타낸다. * '''오차항의 동분산성'''([[同]][[分]][[散]][[性]], homoscedasticity) 모든 관측치에 대하여 오차항은 일정한 분산을 가져야 한다. 곧, [math(i=1,\,2,\,\cdots,\,n)]에 대하여 다음이 성립해야 한다. {{{#!wiki style="text-align: center;" [math(V(\varepsilon_i)=E[\{\varepsilon_i-E(\varepsilon_i)\}^2]=E(\varepsilon_i^2)=\sigma^2)]}}} 이는 각 독립변수 [math(X_i)]에 대하여 종속변수 [math(Y_i)]가 그 평균 [math(E(Y_i))]로부터 흩어진 정도가 일정하다는 뜻이다. 이 경우 오차항은 '''동분산'''([[同]][[分]][[散]], homoscedasticity)을 갖는다고 하며, 그렇지 못할 경우 '''이분산'''([[異]][[分]][[散]], heteroscedasticity)을 갖는다고 한다. * '''오차항의 비자기상관성'''([[非]][[自]][[己]][[相]][[關]][[性]], nonautocorrelation) 서로 다른 관측치의 오차항 사이에는 아무런 상관관계도 성립하지 않는다는 가정이다. 곧, 다음이 성립해야 한다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}{\rm Cov}(\varepsilon_i,\,\varepsilon_j)&=E[\{\varepsilon_i-E(\varepsilon_i)\}\{\varepsilon_j-E(\varepsilon_j)\}]\\&=E[\varepsilon_i\varepsilon_j]=0\quad(i\neq j)\end{aligned})]}}} 이 가정은 오차항이 모종의 체계적인 패턴에 의거하여 변화하는 것이 아니라는 뜻이며, 곧 한 오차항은 다른 오차항에 아무 영향을 미치지 않음을 나타낸다. 이 가정이 성립하지 않는 경우를 '''자기상관'''([[自]][[己]][[相]][[關]], autocorrelation)이 존재한다고 하며, 대부분의 시계열자료에서는 연속된 기간 안에서 자기상관이 발생하곤 한다. 첫째부터 넷째까지의 가정을 만족시키면 최소자승추정량은 [[불편추정량]]이 된다. 또한 이 여섯 개의 가정을 모두 만족시키는 모형을 '''고전적 회귀모형'''([[古]][[典]][[的]] [[回]][[歸]][[模]][[型]], classical regression model)이라고 하며, 이때 비로소 OLS는 BLUE가 된다. === 통계적 특성 === 표본회귀선의 방정식 {{{#!wiki style="text-align: center;" [math(Y_i=b_1+b_2X_1+e_i)]}}} 의 최소자승추정량 [math(b_1)], [math(b_2)]에 대하여 다음의 성질이 성립한다. * '''선형추정량''' 최소자승추정량 [math(b_1)], [math(b_2)]는 종속변수 [math(Y_i)]의 선형결합으로 나타낼 수 있는 '''선형추정량'''이다. 먼저, [math(b_2)]가 최소자승추정량일 때 {{{#!wiki style="text-align: center;" [math(b_2=\dfrac{S_{xy}}{S_{xx}})]}}} 임을 위에서 알아보았다. 이 식을 조작하면 {{{#!wiki style="text-align: center;" [math(\dfrac{S_{xy}}{S_{xx}}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)Y_i}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]}}} 이고, 여기에서 다음과 같이 [math(w_i)]를 각 관측치에 대한 가중치로 표기하자. {{{#!wiki style="text-align: center;" [math(w_i=\dfrac{X_i-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]}}} 그러면 [math(b_2)]를 다음과 같이 쓸 수 있다. {{{#!wiki style="text-align: center;" [math(b_2=\displaystyle\sum_{i=1}^nw_iy_i)]}}} 이는 [math(w_i)]를 가중치로 하는 [math(Y_i)]의 선형결합이다. 마찬가지로 [math(b_1)]은 다음과 같이 쓸 수 있다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}b_1&=\bar Y-b_2\bar X\\&=\displaystyle\sum_{i=1}^n\left(\dfrac1n-w_i\bar X\right)Y_i=\displaystyle\sum_{i=1}^nv_iY_i\end{aligned})]}}} 이는 [math(v_i)]를 가중치로 하는 [math(Y_i)]의 선형결합이다. 따라서 최소자승추정량 [math(b_1)], [math(b_2)]는 모두 선형추정량이다. * '''불편성''' 위 가우스-마르코프 조건에서 첫째부터 넷째까지의 조건이 성립하면 최소자승추정량은 불편추정량이라고 했다. 곧, 다음을 만족시킨다. {{{#!wiki style="text-align: center;" [math(E(b_1)=\beta_1,\;E(b_2)=\beta_2)]}}} * '''분산과 공분산''' 위 가우스-마르코프 조건을 모두 만족시키면 최소자승추정량은 다음의 분산과 공분산을 갖는다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}V(b_1)&=\sigma_{b_1}^2=\sigma^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]\\&=\sigma^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\V(b_2)&=\sigma_{b_2}^2=\dfrac{\sigma^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\{\rm Cov}(b_1,\,b_2)&=\sigma_{b_1b_2}=\sigma^2\cdot\dfrac{-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\end{aligned})]}}} === [[확률분포]] === 최소자승추정량은 [[정규분포]]를 따른다는 가정을 도입하면, 최소자승추정량의 정확한 분포를 도출하여 가설검정을 잘 진행할 수 있다. 곧, 다음과 같이 오차항의 정규성을 가정하는 것이다. {{{#!wiki style="text-align: center;" [math(\varepsilon_i\sim N(0,\,\sigma^2))]}}} 그러나 실제 자료에서 이 가정이 성립하지 않더라도 [[중심극한정리]]에 의거하여 가설검정을 진행할 수 있다. 한편, 위 가우스-마르코프 조건이 충족되면, 최소자승추정량 [math(b_2)]는 평균이 [math(\beta_2)]이고 분산이 [math(\sigma^2)]인 확률변수가 된다. 여기에 오차항의 정규성까지 가정하면 [math(b_1)] 역시 비슷한 평균과 분산을 갖는다. 곧 다음이 성립한다. {{{#!wiki style="text-align: center;" [math(b_1\sim N(\beta_1,\,\sigma_{b_1}^2),\,b_2\sim N(\beta_2,\,\sigma_{b_2}^2))]}}} {{{#!wiki style="text-align: center;" [math(\therefore\dfrac{b_1-\beta_1}{\sigma_{b_1}}\sim N(0,\,1),\,\dfrac{b_2-\beta_2}{\sigma_{b_2}}\sim N(0,\,1))]}}} 그런데 오차항의 분산 [math(\sigma^2)]의 값은 일반적으로 정확히 알려져 있지 않기 때문에, [math(\sigma_{b_2}^2)]의 값을 구할 수 없다. 따라서 표본으로 도출한 잔차항 [math(e_i)]를 사용할 수밖에 없다. 곧, 표본만을 가지고 표본회귀선 {{{#!wiki style="text-align: center;" [math(e_i=Y_i-(b_1+b_2X_i))]}}} 를 통해 회귀계수 [math(b_1)], [math(b_2)]를 추정하면 [math(e_i)]를 구할 수 있다. 이와 같이, 정확히 알 수 없는 오차항 [math(\varepsilon_i)]의 분산 [math(\sigma^2)]을 추정하는 잔차항 [math(e_i)]의 분산 [math(s^2)]을 도출하면 다음과 같다. {{{#!wiki style="text-align: center;" [math(s^2=\displaystyle\frac1{n-2}\sum_{i=1}^ne_i^2)]}}} 여기에서 잔차의 제곱합을 표본의 개수인 [math(n)]이 아닌 [math((n-2))]로 나누는 이유는, [math(n)]개의 표본자료에서 '''2개'''의 회귀계수 [math(b_1)]과 [math(b_2)]를 추정할 때 감소하는 자유도를 반영해야 하기 때문이다. 요컨대, [math(n)]이 아닌 [math((n-2))]로 나눠야 {{{#!wiki style="text-align: center;" [math(E(s^2)=\sigma^2)]}}} 이 성립하여 [math(s^2)]이 불편추정량이 된다. 이때, 이 [math(s^2)]은 독립변수가 설명하지 못하는 잔차의 변동을 반영하므로, 모형의 설명력을 측정하는 척도가 되기도 한다. 그래서 [math(\sqrt{s^2}=s)]를 계산하여 '''회귀식의 표준오차'''(standard error of regression)라는 이름으로 사용한다. 위에서 최소자승추정량의 분산을 구했듯이, 이 분산에 대한 추정량 역시 다음과 같이 도출할 수 있다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}\widehat{V(b_1)}&=s_{b_1}^2=s^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]\\&=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\\widehat{V(b_2)}&=s_{b_2}^2=\dfrac{s^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\end{aligned})]}}} 이때, 앞서 [math(E(s^2)=\sigma^2)]이고 독립변수의 비확률성 가정 때문에 이 두 추정량 역시 불편추정량이며, 여기에 제곱근을 취하면 다음과 같이 '''회귀계수의 표준오차'''(standard error of regression coefficient)가 된다. {{{#!wiki style="text-align: center;" [math(\begin{aligned}\sqrt{\widehat{V(b_1)}}=s_{b_1}&=s\sqrt{\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\\&=s\sqrt{\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\\\sqrt{\widehat{V(b_2)}}=s_{b_2}&=\dfrac{s}{\sqrt{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\end{aligned})]}}} == 최소자승추정량 공식 일람 == [math(b_1)], [math(b_2)]가 회귀선 [math(Y_i=b_1+b_2X_i+e_i)]의 최소자승추정량일 때 다음이 성립한다. * [math(b_1=\bar Y-b_2\bar X,\,b_2=\dfrac{S_{xy}}{S_{xx}})] * [math(E(b_1)=\beta_1,\,E(b_2)=\beta_2)]: '''불편추정량''' * [math(V(b_1)=\sigma_{b_1}^2=s^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})] * [math(V(b_2)=\sigma_{b_2}^2=\dfrac{\sigma^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})] * [math(\widehat{V(b_1)}=s_{b_1}^2=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})] * [math(\widehat{V(b_2)}=s_{b_2}^2=\dfrac{s^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})] * [math({\rm Cov}(b_1,\,b_2)=\sigma_{b_1b_2}=\sigma^2\cdot\dfrac{-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})] == 편미분과 연립선형방정식을 사용한 최소자승법 계산 예 == || [[파일:ordinary_least_squares_OLS.svg|400]] || || 점들 (0,0),(4,2),(7,5),(10,6)에 대한 분산에서 이들의 최단경로를 최소제곱식으로 구현할수있다. || [math( D(a,b) = \sum_{i=1}^{n}\left( y_i - (ax_i+b) \right)^2 )] [math( = (0-(0a+b))^2 +(2-(4a+b))^2 +(5-(7a+b))^2 +(6-(10a+b))^2 )]이고 [math( 0a+b = A , 4a+b= B , 7a+b =C , 10a+b =D )]로 놓으면 [math( =(0-A)^2+(2-B)^2 +(5-C)^2+ (6-D)^2) )] [math( =(0-0A+A^2)+(4-4B+B^2) +(25-10C+C^2) +(36-12D+D^2) )] [math( = 0-0+A^2 +4-4B+B^2 +25-10C+C^2 + 36 -12D+D^2 )] [math( = 0+4+25+36 -0A+A^2 -4B+B^2 -10C+C^2 -12D+D^2)] 한편 [math( A^2 = 0^2+0ab+b^2 , B^2 = 16a^2+8ab+b^2 , C^2 =49a^2+14ab+b^2 , D^2 =100a^2+20ab+b^2 )] [math( = 65 -0(a+b)+(0^2+0ab+b^2) -4(4a+b)+(16a^2+8ab+b^2) -10(7a+b)+(49a^2+14ab+b^2) -12(10a+b)+(100a^2+20ab+b^2) )] [math( = 65 +b^2 -16a-4b+16a^2+8ab+b^2 -70a-10b +49a^2+14ab+b^2 -120a-12b+100a^2+20ab+b^2 )] [math( = 65 -206a -26b +42ab +165a^2 +4b^2 )] [math( D_a = \dfrac{\partial D}{\partial a} = 330a+42b-206 = 0 )] [math( D_b = \dfrac{\partial D}{\partial b} = 8b +42a -26 = 0 )] [math( a = \dfrac{139}{219} , b=- \dfrac{6}{73} )] 따라서 점들 (0,0),(4,2),(7,5),(10,6)에 대한 분산에서 이들의 편차를 최소로하는 직선식의 구현을 [math( y = \dfrac{139}{219}x - \dfrac{6}{73} )]로 계산해 볼수있다. [* \[Matrix calculator\]연립 선형 방정식 풀기[[https://matrixcalc.org/ko/slu.html#solve-using-Gaussian-elimination(%7B%7B330,42,0,-206,0%7D,%7B42,8,0,26,0%7D%7D)]]] == GLS == 오차항에 이분산성이나 자기상관성이 있는 경우에 대해서는 OLS(통상최소제곱)가 아니라 GLS(generalized least squares, 일반화 최소제곱)를 사용할 수 있다. 오차항의 이분산 구조나 자기상관 구조를 활용 안다면 이를 상쇄할 수 있는 함수를 사용하는 최소제곱방법이다. OLS에서는 오차항의 크기 만큼 가중치가 주어지는데, GLS에서는 오차항의 이분산성이나 자기상관성을 상쇄할 수 있도록 보정된 가중치를 부여하여 최소제곱 추정을 한다고 생각하면 편하다. 그런데 선형확률모형 같은 특별한 케이스가 아닌 이상에야 오차항의 함수 구조를 안다는 조건 자체가 비현실적이다. 따라서 요즘에는 GLS를 잘 사용하지 않고 이분산성이나 자기상관성에 대해서도 강건한(robust) 표준오차 추정량을 사용하는 경우가 일반적이다. 다만 잔차의 그래프나 플롯을 그렸을 때 주어진 자료의 이분산성이나 자기상관성이 너무 강할 때에는 GLS와 robust 추정을 함께 쓰기도 한다. ~~애매하면 robust를 쓰자 ~~ == 관련 문서 == * [[최대최소정리]]