기댓값 (덤프버전으로 되돌리기)

[include(틀:통계학)]
[목차]

== 개요 ==
{{{+1 [[期]][[待]][[値]] / expected value}}}

어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 '''기댓값은 확률 과정에서 얻을 수 있는 모든 값의 [[가중 평균]]'''이다.

확률변수 [math(X)]가 어떤 모집단 분포를 따를 때 [math(X)]의 기댓값을 [[모 평균|(모)평균]](population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.
> [math(X)]가 평균 [math(\mu)], 표준편차 [math(\sigma)]인 정규분포를 따른다고 하자.

== 정의 ==
=== 이산 확률 변수 ===
이산 확률 변수 [math(X)]의 확률분포표가 다음과 같다고 하자. ([math(p\left(x\right))]는 확률 질량 함수)
 || [math(X)] ||[math(x_1)]||[math(x_2)]||||[math(\cdots)]||[math(x_n)]||
 || [math(p\left(x\right))] ||[math(p_1)]||[math(p_2)]||||[math(\cdots)]||[math(p_n)]||
이때 이산 확률 변수 [math(X)]의 기댓값은 [math(\text{E}\left(X\right))] 또는 [math(\mathbb{E}(X))][* 물리학에서는 전자, 수학에서는 후자를 많이 쓴다.]와 같이 나타내고 다음과 같이 정의한다.
 [math(\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{n}{x_ip_i})]
이산 확률 변수 [math(X)]가 취하는 값의 개수가 무한한 경우, 즉 자연수 집합과 일대일 대응 되는 경우에도 비슷하게 정의된다.
 [math(\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{\infty}{x_ip_i})]
단, 이 [[급수(수학)|급수]]가 절대수렴해야 한다. 다시 말해서 각 항에 절댓값을 씌운 급수
[math(\displaystyle\sum_{i= 1}^\infty\lvert x_ip_i \rvert )]
가 무한대로 발산하는 경우는 기댓값이 정의되지 않는다. 이는 [[리만 재배열 정리]]란 녀석 때문이다.

=== 연속 확률 변수 ===
연속 확률 변수 [math(X)]의 확률 밀도 함수가 [math(f(x))]라고 할 때 [math(X)]의 기댓값은 다음과 같이 정의한다.
 [math(\displaystyle \mathbb{E}\left(X\right)=\int_{-\infty}^{\infty} x\, f(x)\, \mathrm{d}x = \int_{\mathbb{R}} x\, f(x)\, \mathrm{d}x)]
이산 확률 변수의 경우와 마찬가지로
[math(\displaystyle\int_{\mathbb{R}}\lvert xf(x) \rvert\mathrm{d}x)]
의 값이 무한대라면 기댓값이 정의되지 않는다.

이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, [[르베그 적분]](Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[* 이산 확률 변수에서 저게 왜 적분이지? 할 수 있겠지만, 사실 [[스틸체스 적분|[math(\displaystyle \sum_{x=a}^b f(x) \Leftrightarrow \int_{a}^{b} f(x) \, \mathrm{d} \lfloor x \rfloor)]]]이 성립한다는 것을 염두에 두면 적분 맞다.] 마찬가지인 것. [[이상적분]](improper integral)과는 '''다르다'''.

예컨대 코시 분포(Cauchy distribution)[* 자유도가 1인 [[t-분포]]와 같다.]는 다음과 같은 확률밀도함수를 가진다.
[math(\displaystyle f(x)= \frac{1}{\pi\cdot(1+ x^2)})][* [math(\pi)] 뒤에 점을 찍은 이유는 [math(\pi(1+ x^2))]라고 쓰면 [[원주율]]과 다항식의 곱인지, [[소수 계량 함수]]인지 혼동할 수 있기 때문.]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, '''평균이 없는''' 분포다.[* 물론 중앙값은 0이다.] 이와 관련해서는 [[이상적분]] 항목 참조.

=== 응용 ===
어떤 함수 [math(g)]에 대해 [math(g\left(X\right))]의 기댓값, 즉 [math(\text{E}\left(g\left(X\right)\right))]는 다음과 같이 정의된다.
 * 이산 확률 변수 : [math(\displaystyle \text{E}\left(g\left(X\right)\right)=\sum_{i=1}^{n}{g\left(x_i\right)p_i})]
 * 연속 확률 변수 : [math(\displaystyle \text{E}\left(g\left(X\right)\right)=\int_{-\infty}^{\infty}g\left(x\right)f\left(x\right)dx)]

예를 들어 [math(X)]의 분산 [math(\text{V}\left(X\right))]는 다음과 같이 나타낼 수 있다.
 [math(\text{V}\left(X\right)=\text{E}\left(\left(X-\text{E}\left(X\right)\right)^2\right)=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2)]

== 성질 ==
상수 [math(a)]의 기댓값은 [math(a)]이다.
 * [math(\text{E}\left(a\right)=a)]

[[기댓값]]은 [[선형사상|선형성을 가진다.]] 즉, 다음이 성립한다. ([math(X, Y)]는 확률변수, [math(a)]는 상수)
 * [math(\text{E}\left(X+Y\right)=\text{E}\left(X\right)+\text{E}\left(Y\right))]
 * [math(\text{E}\left(aX+b\right)=a \text{E}\left(X\right)+b)] 

확률변수 [math(X,\ Y)]가 서로 독립일 경우에는 다음의 성질도 성립한다.
 * [math(\text{E}\left(XY\right)=\text{E}\left(X\right)\text{E}\left(Y\right))]
이 성질을 갖는 [math(X,\ Y)]를 비상관(uncorrelated) 확률변수라 부르며 비상관이지만 독립은 아닌 경우도 있다. 대표적으로 [math(X)]의 분포가 [[대칭함수|짝함수]]이고 [math(Y=|X|)]인 경우가 있다.

== 기타 ==
동의어인 '기대치'라는 단어는 일상적으로 생각보다 많이 쓰이는데, "기대치가 너무 높다"라던가 "기대치에 못 미쳤다"와 같이 '바라는 정도'의 맥락으로 쓰이는 경우가 많다.

[[도박]]과 관련한 업계에서는 환수율이라는 말로 많이 쓰인다. 의미는 기대값하고 동일하다. [[카지노]] 회사가 돈을 벌려면 게임에서 환수율은 수학적으로 1을 넘길 수 없다.
== 참고 문서 ==

 * [[상트페테르부르크의 역설]]


 [[분류:통계학]][[분류:확률론]]
기댓값 (덤프버전으로 되돌리기)

캡챠