추정량

분류

통계학
Statistics

[ 펼치기 · 접기 ]

수리통계학	기반	실해석학(측도론) · 선형대수학 · 이산수학
	확률론	사건 · 가능성 · 확률변수 · 확률분포(표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · t-분포 · z-분포 · F-분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙(무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
	통계량	평균(산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차(절대편차 · 표준편차) · 분산(공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석(요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습(군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타분석 · 모델링(구조방정식)
기술통계학·자료 시각화		도표(그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점

1. 개요

2. 설명

2.1. 불편추정량·편의추정량·편의

2.2. 유효추정량·평균제곱오차

2.2.1. 상대효율

2.3. 일치추정량

2.4. 충분추정량·충분성

3. 우선순위

3.1. 예시

1 . 개요[편집]

推定量 / estimator

통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일을 추정(推定, estimation)이라 한다. 이 문서에서는 통계학의 추정 이론 중에서도 좋은 추정량이 가져야 하는 조건들을 소개한다.

2 . 설명[편집]

모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량, 실제의 관찰값을 넣어 계산한 값을 추정치(推定値, estimate)라고 한다. 예를 들면 다음과 같다.

모수 [math(\mu)]의 추정량은 [math(\bar X=\dfrac{\sum X_i}n)]
모수 [math(\sigma^2)]의 추정량은 [math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1})]
모수 [math(p)]의 추정량은 [math(\hat p=\dfrac{X}n)]

이때 구체적인 수치로 계산되어 나올 수 있는 [math(\bar X=10)], [math(s^2=4)], [math(\hat p=0.2)] 등은 추정치가 되는 것이다.

일반적으로 모수를 그리스 문자 [math(\theta)]로, 추정량을 [math(\hat\theta)]으로, [math(E(\hat\theta)=\bar{\hat\theta})]로 표기한다. [math(\hat\theta)]는 '세타 햇(theta hat)', [math(\bar{\hat\theta})]는 '세타 햇 바(theta hat bar)'로 읽는다.

2.1 . 불편추정량·편의추정량·편의[편집]

분포의 평균값이 추정하려는 모수와 일치하는 추정량을 불편추정량(不偏推定量, unbiased estimator), 그렇지 않은 추정량을 편의추정량(偏倚推定量, biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.

[math(E(\hat\theta)=\theta)]이면 불편추정량
[math(E(\hat\theta)\neq\theta)]이면 편의추정량

여기에서 [math(E(\hat\theta)-\theta)]를 편의(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.

[math(\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu)]
[math(\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2)]

이를 두고 '[math(\bar X)]는 [math(\mu)]의 불편추정량', '[math(s^2)]은 [math(\sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본분포 참고.

2.2 . 유효추정량·평균제곱오차[편집]

모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 유효추정량(有效推定量, relatively efficient estimator)을 최소분산불편추정량(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.

분류

[math(\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] )]

[1] 흔히 쓰는 '불편(不便)', '편의(便宜)'와 발음이 같아서 혼동하기 쉬운데, '편'은 便(편할 편)이 아니라 偏(치우칠 편)이다.

이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(\hat\theta)]의 MSE는 [math(\rm{MSE}(\hat\theta))]으로 표기한다.

MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.

[math(\begin{aligned}E[(\hat\theta-\theta)^2]&=E[\{(\hat\theta-\bar{\hat\theta})+(\bar{\hat\theta}-\theta)\}^2]\\&=E[(\hat\theta-\bar{\hat\theta})^2]+E[(\bar{\hat\theta}-\theta)^2]+2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]\end{aligned})]

여기에서 [math(\bar{\hat\theta})]와 [math(\theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로

분류

[math(E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2)]

또한, [math(\hat\theta-\bar{\hat\theta})]는 [math(\hat\theta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.

분류

[math(2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 )]

따라서 [math({\rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({\rm MSE})]는 편의의 제곱과 [math(\hat\theta)]의 분산의 합이다.

분류

[math(\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\hat\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned})]

불편추정량은 편의가 0이므로, 불편추정량의 [math({\rm MSE})]는 [math(\hat\theta)]의 분산과 같다. 결국 이 [math({\rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.

2.2.1 . 상대효율[편집]

모수 [math(\theta)]에 대한 두 추정량을 [math(\hat\theta_1)], [math(\hat\theta_2)]라 할 때, 두 [math({\rm MSE})]의 비율

분류

[math(\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)})]

을 [math(\hat\theta_1)]에 대한 [math(\hat\theta_2)]의 상대효율(相對效率, relative efficiency)이라고 하며 약어로 [math(\rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.

[math(\rm RE>1)]이면 [math(\hat\theta_2)]가 더 좋은 추정량
[math(\rm RE<1)]이면 [math(\hat\theta_1)]이 더 좋은 추정량

결국 이는 위에서 살펴본 두 [math({\rm MSE})]의 대소 판별과 다를 것이 없다.

2.3 . 일치추정량[편집]

표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(\hat\theta)]은 [math(\theta)]의 일치추정량(一致推定量, consistent estimator)이라고 한다.

분류

[math(\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0)]

[math(\theta=\mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(\bar X)]가 모평균 [math(\mu)]에 확률적으로 수렴해 갈 때 [math(\bar X)]는 [math(\mu)]의 일치추정량이라고 한다.

또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.

[math(\hat\theta)]가 불편추정량
[math(\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0)]

불편추정량은 편의가 0이므로, [math(\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.

[math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)][2]
[math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)

따라서, [math(\bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({\rm Var}(\bar X)={\sigma^2}/n)]이고 [math({\rm Var}(s^2)={2\sigma^4}/({n-1}))]이므로 [math(n\to\infty)]이면 극한값은 [math(0)]이 되어 [math(\boldsymbol{\bar X})]와 [math(\boldsymbol{s^2})]은 일치추정량이다.

2.4 . 충분추정량·충분성[편집]

표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 충분성(充分性, sufficiency)이 있다고 하며, 이 추정량을 충분추정량(充分推定量, sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.

각 [math(\hat\Theta)]의 값에 대하여 [math(\hat\Theta=\hat\theta)]이 주어질 때 확률표본 [math(X_1,\,X_2,\,\cdots,\,X_n)]의 조건부확률분포 또는 밀도가 [math(\theta)]에 대하여 독립이면, 통계량 [math(\hat\Theta)]을 모수 [math(\theta)]의 충분추정량이라고 한다.

3 . 우선순위[편집]

두 추정량 [math(\hat\theta_1)]과 [math(\hat\theta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.

분류

[math(\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_2)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases})]

[2] [math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.

이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({\rm MSE}[\hat\theta_1])]와 [math({\rm MSE}[\hat\theta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.

3.1 . 예시[편집]

[math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 평균이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(\sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 (표본의 개수)-1로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 다음과 같이 두 추정량을 약속하여 비교해 보자.

[math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1},\;{\hat\sigma}^2=\dfrac{\sum(X_i-\bar X)^2}n )][비교]

먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(\sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({\hat\sigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({\hat\sigma}^2)]보다 더 적절한 추정량이다.

이번에는 유효추정량의 관점에서 [math(\rm MSE)]의 대소를 판별해 보자.

[math(\begin{aligned}{\rm MSE}[{\hat\sigma}^2]&={\rm Var}({\hat\sigma}^2)+[E({\hat\sigma}^2)-\sigma^2]^2\\&=\left(\dfrac{n-1}n\right)^{\!2}\dfrac{2\sigma^4}{n-1}+\left(\dfrac{n-1}n\sigma^2-\sigma^2\right)^{\!2}\\&=\dfrac{2n-1}{n^2}\sigma^4\\{\rm MSE}[s^2]&={\rm Var}(s^2)+\textsf{(bias)}^2\\&=\dfrac{2\sigma^4}{n-1}\;(\because\textsf{(bias)}=0)\\ \\\rightarrow{\rm MSE}[s^2]-{\rm MSE}[{\hat\sigma}^2]&=\dfrac{2\sigma^4}{n-1}-\dfrac{2n-1}{n^2}\sigma^4\\&=\dfrac{3n-1}{n^2(n-1)}\sigma^4\geq 0 \\ \\ \therefore{\rm MSE}[s^2]&\geq{\rm MSE}[{\hat\sigma}^2] \end{aligned})]

[math(n>1)]일 경우에 [math(3n-1,\;n^2,\;n-1>0)], [math(\sigma^4\geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({\hat\sigma}^2)]이 [math(s^2)]보다 [math({\rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(\rm MSE)]가 같은 경우는 [math(\sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2])]로 보아도 좋다.

이렇게 [math(s^2)]과 [math({\hat\sigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.

[비교] [math({\hat\sigma}^2=\dfrac{n-1}ns^2)]

추정량

분류

1. 개요[편집]

2. 설명[편집]

2.1. 불편추정량·편의추정량·편의[편집]

2.2. 유효추정량·평균제곱오차[편집]

분류

분류

분류

분류

2.2.1. 상대효율[편집]

분류

2.3. 일치추정량[편집]

분류

2.4. 충분추정량·충분성[편집]

3. 우선순위[편집]

분류

3.1. 예시[편집]

관련 문서