이곳은 개발을 위한 베타 사이트 입니다.
기여내역은 언제든 초기화될 수 있으며, 예기치 못한 오류가 발생할 수 있습니다.
기여내역은 언제든 초기화될 수 있으며, 예기치 못한 오류가 발생할 수 있습니다.
추정량
덤프버전 :
1. 개요[편집]
推定量 / estimator
통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일을 추정(推定, estimation)이라 한다. 이 문서에서는 통계학의 추정 이론 중에서도 좋은 추정량이 가져야 하는 조건들을 소개한다.
2. 설명[편집]
모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량, 실제의 관찰값을 넣어 계산한 값을 추정치(推定値, estimate)라고 한다. 예를 들면 다음과 같다.
- 모수 [math(\mu)]의 추정량은 [math(\bar X=\dfrac{\sum X_i}n)]
- 모수 [math(\sigma^2)]의 추정량은 [math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1})]
- 모수 [math(p)]의 추정량은 [math(\hat p=\dfrac{X}n)]
이때 구체적인 수치로 계산되어 나올 수 있는 [math(\bar X=10)], [math(s^2=4)], [math(\hat p=0.2)] 등은 추정치가 되는 것이다.
일반적으로 모수를 그리스 문자 [math(\theta)]로, 추정량을 [math(\hat\theta)]으로, [math(E(\hat\theta)=\bar{\hat\theta})]로 표기한다. [math(\hat\theta)]는 '세타 햇(theta hat)', [math(\bar{\hat\theta})]는 '세타 햇 바(theta hat bar)'로 읽는다.
2.1. 불편추정량·편의추정량·편의[편집]
분포의 평균값이 추정하려는 모수와 일치하는 추정량을 불편추정량(不偏推定量, unbiased estimator), 그렇지 않은 추정량을 편의추정량(偏倚推定量, biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.
- [math(E(\hat\theta)=\theta)]이면 불편추정량
- [math(E(\hat\theta)\neq\theta)]이면 편의추정량
여기에서 [math(E(\hat\theta)-\theta)]를 편의(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.
- [math(\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu)]
- [math(\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2)]
이를 두고 '[math(\bar X)]는 [math(\mu)]의 불편추정량', '[math(s^2)]은 [math(\sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본분포 참고.
2.2. 유효추정량·평균제곱오차[편집]
모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 유효추정량(有效推定量, relatively efficient estimator)을 최소분산불편추정량(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.
[math(\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] )]
이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(\hat\theta)]의 MSE는 [math(\rm{MSE}(\hat\theta))]으로 표기한다.
MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.
여기에서 [math(\bar{\hat\theta})]와 [math(\theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로
또한, [math(\hat\theta-\bar{\hat\theta})]는 [math(\hat\theta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.
[math(2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 )]
따라서 [math({\rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({\rm MSE})]는 편의의 제곱과 [math(\hat\theta)]의 분산의 합이다.
[math(\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\hat\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned})]
불편추정량은 편의가 0이므로, 불편추정량의 [math({\rm MSE})]는 [math(\hat\theta)]의 분산과 같다. 결국 이 [math({\rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.
2.2.1. 상대효율[편집]
모수 [math(\theta)]에 대한 두 추정량을 [math(\hat\theta_1)], [math(\hat\theta_2)]라 할 때, 두 [math({\rm MSE})]의 비율
[math(\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)})]
을 [math(\hat\theta_1)]에 대한 [math(\hat\theta_2)]의 상대효율(相對效率, relative efficiency)이라고 하며 약어로 [math(\rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.
- [math(\rm RE>1)]이면 [math(\hat\theta_2)]가 더 좋은 추정량
- [math(\rm RE<1)]이면 [math(\hat\theta_1)]이 더 좋은 추정량
결국 이는 위에서 살펴본 두 [math({\rm MSE})]의 대소 판별과 다를 것이 없다.
2.3. 일치추정량[편집]
표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(\hat\theta)]은 [math(\theta)]의 일치추정량(一致推定量, consistent estimator)이라고 한다.
[math(\theta=\mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(\bar X)]가 모평균 [math(\mu)]에 확률적으로 수렴해 갈 때 [math(\bar X)]는 [math(\mu)]의 일치추정량이라고 한다.
또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
- [math(\hat\theta)]가 불편추정량
- [math(\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0)]
불편추정량은 편의가 0이므로, [math(\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.
- [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)][2]
따라서, [math(\bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({\rm Var}(\bar X)={\sigma^2}/n)]이고 [math({\rm Var}(s^2)={2\sigma^4}/({n-1}))]이므로 [math(n\to\infty)]이면 극한값은 [math(0)]이 되어 [math(\boldsymbol{\bar X})]와 [math(\boldsymbol{s^2})]은 일치추정량이다.
2.4. 충분추정량·충분성[편집]
표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 충분성(充分性, sufficiency)이 있다고 하며, 이 추정량을 충분추정량(充分推定量, sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.
3. 우선순위[편집]
두 추정량 [math(\hat\theta_1)]과 [math(\hat\theta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.
[math(\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_2)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases})]
[2] [math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.
이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({\rm MSE}[\hat\theta_1])]와 [math({\rm MSE}[\hat\theta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.
3.1. 예시[편집]
[math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 평균이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(\sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 (표본의 개수)-1로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 다음과 같이 두 추정량을 약속하여 비교해 보자.
먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(\sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({\hat\sigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({\hat\sigma}^2)]보다 더 적절한 추정량이다.
이번에는 유효추정량의 관점에서 [math(\rm MSE)]의 대소를 판별해 보자.
[math(n>1)]일 경우에 [math(3n-1,\;n^2,\;n-1>0)], [math(\sigma^4\geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({\hat\sigma}^2)]이 [math(s^2)]보다 [math({\rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(\rm MSE)]가 같은 경우는 [math(\sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2])]로 보아도 좋다.
이렇게 [math(s^2)]과 [math({\hat\sigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.
[비교] [math({\hat\sigma}^2=\dfrac{n-1}ns^2)]