[include(틀:다른 뜻1, other1=아명이 '산포도'인 열매, rd1=머루)] [include(틀:통계학)] [목차] == 개요 == '''산포도'''([[散]][[布]][[度]]) 또는 변산도([[變]][[散]][[度]])는 [[변량]]이 흩어져 있는 정도를 하나의 수로 나타낸 값이다. [[범위]], [[사분위수 범위]], [[분산]], [[표준 편차]], [[절대 편차]], [[변동 계수]] 등이 이에 속한다. 영어 표현으로는 dispersion, variability, scatter, spread, degree of scattering 등이 있다. 대한민국 수학 교육과정에서는 중학교 3학년 2학기 통계 단원에서 대푯값과 함께 배우게 된다. == 범위 == {{{+1 [[範]][[圍]]/ range}}} 최대값에서 최소값을 뺀 것이다. == 사분위간 범위 == 자료를 같은 개수로 4개로 나눈 각각의 값을 [[사분위수]](quartile)라고 한다. n개의 값이 있다면 [[중앙값]]이 2사분위수인 Q2이며, (Q2 + 1)/2 번째가 1사분위수인 Q1이고, (Q2 + n)/2 번째가 3사분위수인 Q3이다. 예를 들어 11~24의 14개의 숫자가 있다고 하면 7.5번째여서 [[중위수]]인 17.5가 Q2이다. Q1은 4.25번째인 14.25이고, Q3는 10.75번째 숫자인 20.75이다. 그럼 11과 14.25 사이의 간격은 3.25이고, 14.25와 17.5 사이의 간격도 3.25이다. 또한 17.5와 20.75 사이의 간격도 3.25이고, 20.75와 24사이의 간격도 3.25이다. [[사분위간 범위]](interquartile range, IQR)는 3 사분위수에서 1 사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. Q1에서 Q3 사이의 간격이라고 생각하면 된다. 위의 예에서는 20.75 - 14.25 = 6.5이다. 산포도인 사분위간 범위와 달리 [[사분위수]]와 [[백분위수]]는 대푯값이다. Q1은 제25백분위수, Q2는 제 50백분위수, Q3는 제75 백분위수이기도 하다. == [[분산]] == {{{+1 [[分]][[散]] / variance}}} [[분산]]은 관측값에서 평균을 뺀 값([[편차]])을 [[제곱]]하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. {{{+2 [math(\text{Var}=\sigma^{2}=\frac{\text{SS}}{N}=\frac{\sum_{i}\left(x_{i}-\mu\right)^{2}}{N})]}}} 위의 수식은 [[모집단]]에서의 [[분산]](variance)을 다룬다. [math(\mu)]는 모집단의 [[산술 평균]]이다. N은 모집단의 원소의 갯수이다. [[표본]]에서의 분산은 N이 아닌 n-1로 나눈다. n은 표본의 갯수이다. [[분산]]에는 일반적으로 단위를 붙이지 않는다.[* 굳이 단위를 붙인다면 원래 단위의 제곱이 된다. 그런데 이렇게 제곱한 단위가 데이터 변량이 아닌 편차의 제곱이므로 수학적, 물리학적으로 아무런 의미가 없다. 표준편차는 다시 단위를 붙인다.] 그런데 분산만으로는 각 자료의 편차에 비해 비교적 큰 수치[* 단, 표준편차가 1보다 작은 경우에는 분산은 더더욱 작아지게 된다.]가 나오므로 이들의 다시 음이 아닌 제곱근의 값으로 더 정밀한 분포를 구하기 위해 후술할 [[표준 편차]]라는 개념이 등장한다. [[분산]]은 쉽게 말하면 '''[[편차]]의 제곱의 평균'''이다. 왜냐하면 편차의 합은 항상 0이라 애초에 이들의 평균도 0이 되어 구하려는 의미가 없기 때문이다. 그래서 고안해낸 방법으로, 각 편차들을 모두 제곱해서 음이 아닌 실수만 남겨놓은 꼴로 바꾸게 된 것이다. [[분산]] 문서 참조. == 편차 == {{{+1 [[偏]][[差]] / deviation}}} [[편차]]는 [[관측값]]에서 [[평균]] 또는 [[중앙값]]을 뺀 것이다. 즉, [[자료값]]들이 특정값으로부터 떨어진 정도를 나타내는 수치이다. === [[표준 편차]] === {{{+1 [[標]][[準]][[偏]][[差]] / standard deviation}}} {{{+2 [math(\sigma=\sqrt{\text{Var}})]}}} 모집단의 표준 편차 [[표준 편차]]는 짧게 말해서 '''[[분산]]에 루트를 씌워 제곱근의 꼴로 취해놓은 것'''이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 마이너스 기호를 떨구기 위해 임의로 [[뻥튀기]]를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 '''비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다.''' 통계학에서는 [[시그마]] 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다. 표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다. 그래서 각 변량에 x만큼의 숫자를 더한다면 그들의 평균도 x만큼 증가ㆍ감소하는 것이라는 원리가 있다. [[표준 오차]](standard error)는 [[표준 편차]]와는 다르다. 이쪽은 [[추론통계학]]에서 수많은 [[표본 평균]]들의 [[편차]]를 구함으로써 [[모 평균]] "뮤"를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래 첨자로 m 을 붙여서 표기하며, 루트 씌운 표본 관측값의 수로 [[표본 표준 편차]]를 나누면 된다. [[표준 편차]] 문서 참조. ==== 변동 계수 ==== {{{+1 [[變]][[動]][[係]][[數]] / coefficient of variation}}} [[변동 계수]] 또는 [[상대 표준 편차]](relative standard deviation, RSD)는 [[표준 편차]]를 [[표본 평균]]이나 [[모 평균]] 등 [[산술 평균]]으로 나눈 것이다. 즉, "변동 계수 = 표준 편차 / 평균"이다. [[변동 계수]] 문서 참조. === 절대 편차 === {{{+1 [[絕]][[對]][[偏]][[差]] / absolute deviation}}} 각 데이터에서 평균을 빼고 [[제곱]]한 후 [[제곱근]]을 씌운 [[표준 편차]]와는 다르게, 제곱을 하지 않고 절대값을 씌운 것이다. [[절대 편차]] 문서 참조. == 관련 문서 == * [[대푯값]] * [[산점도]] * [[통계학]] * [[통계 관련 정보]] * [[표본조사]] * [[추론 통계학]] * [[회귀 분석]] * [[카이-제곱 분포]] * [[Microsoft Excel/함수 목록]]: 간단한 [[통계학]] 계산은 [[엑셀]]이나 [[Calc]]로 할 수 있다. [[분류:통계학 용어]]