모집단의 평균이 알려지지 않은 경우에는 (대부분) 표본($S$)의 평균$(\bar{x})$으로 모집단의 평균$(\mu)$을 대체한다. 그런 다음 각 표본에서 표본평균을 뺀 값을 이용해서 분산을 계산하는데 $n$개의 샘플에서 표본평균을 뺀 값의 합 $\sum_S (x-\bar{x})$은 항상 0이 된다. 즉, $n$개의 값들이 서로 완전히 독립적이지 않고 한 개의 제한조건에 걸린 것이므로 독립적인 값은 $n-1$개이다. 따라서 표본평균으로 분산을 구할 때 $n-1$을 사용한다. 모집단이 분산이나, 모집단의 구성원은 완전히 독립적인 것으로 볼 수 있으므로 그 독립적인 것으로 평균이 모평균이므로 나누기 $n$을 사용한다. 그러나 표본평균은 주어진 표본을 기반으로 만들어졌기에 표본의 표본평균에서 deviation은 $n$개가 완전히 독립적이 아니다.

 

좀더 수학적으로 이야기 하면  표본분산의 기댓값이 어떻게 하면 모분산과 동일해지는가?(그런데 이것과 분산을 계산할 때 $n-1$을 사용하는 것과는 무슨관계인가?) 표본의 분산은 $\sum(x_i - \bar{x})^2$을 계산하야 한다. 우선 이 값의 모집단에서 기대값을 계산해보자.

\begin{align} E\left[ \sum_{i\in S}(x_i - \bar{x})^2\right]&= E\left[\sum_S x_i^2 - 2\bar{x}\sum_S x_i + n\bar{x}^2 \right]\\ &= E\left[ \sum_S x_i^2 -2\bar{x} ( n \bar{x}) - \bar{x}^2\right] \\&= \ E\left[\sum_S x_i^2 - n \bar{x}^2\right] \\ &=\sum_S E\left[ x_i^2\right] - n E\left[\bar{x}^2\right] \end{align}

그런데 주어진 표본의 각 원소는 모집단에서 랜덤하게 선택되었으므로 $ (\mu, \sigma^2)$의 분포를 가지므로 

$$E\left[x_i^2\right] = E[x^2] = n( \sigma^2 + \mu^2 )$$

또, 표본평균은 $ (\mu , (\sigma/\sqrt{n})^2)$인 분포를 가지므로,

$$E\left[\bar{x}^2 \right]=  \left( \frac{\sigma}{ \sqrt{n} } \right) ^2 + \mu ^2$$

임을 알 수 있다. 따라서,

$$ E\left[\sum_S (x_i -\bar{x})^2  \right]= n (\sigma^2+\mu^2)- n\left( \frac{\sigma^2}{n} +\mu^2 \right) =(n-1)\sigma^2 $$

\begin{align}\Rightarrow\quad E\left[\frac{1}{n-1} \sum_S (x_i - \bar{x})^2 \right]  &=\frac{1}{n-1} E\left[\sum_S (x_i - \bar{x})^2\right] \\ &= \frac{1}{n-1}\times(n-1)\sigma^2\\ &=\sigma^2\end{align}

즉, $n$개의 원소로 구성된 표본에서 원소들이 표본평균에서 벗어난 정도를 제곱한 값의 합을 $n-1$로 나눈 값을 그 표본의 표본분산으로 정의하면($\bar{\sigma}=\frac{1}{n-1}\sum_{i\in S} (x_i-\bar{x})^2$), 이들 표본분산의 기대값($E[\bar{\sigma}]$)은 모분산에 접근한다. 이렇게 정의된 표본분산은 불편추정량(unbiased estimator : 추정량의 기대값이 모집단의 모수(parameter)와 같아지는 경우)이 된다.

728x90
,