Processing math: 100%

 

모집단의 평균이 알려지지 않은 경우에는 (대부분) 표본(S)의 평균(ˉx)으로 모집단의 평균(μ)을 대체한다. 그런 다음 각 표본에서 표본평균을 뺀 값을 이용해서 분산을 계산하는데 n개의 샘플에서 표본평균을 뺀 값의 합 S(xˉx)은 항상 0이 된다. 즉, n개의 값들이 서로 완전히 독립적이지 않고 한 개의 제한조건에 걸린 것이므로 독립적인 값은 n1개이다. 따라서 표본평균으로 분산을 구할 때 n1을 사용한다. 모집단이 분산이나, 모집단의 구성원은 완전히 독립적인 것으로 볼 수 있으므로 그 독립적인 것으로 평균이 모평균이므로 나누기 n을 사용한다. 그러나 표본평균은 주어진 표본을 기반으로 만들어졌기에 표본의 표본평균에서 deviation은 n개가 완전히 독립적이 아니다.

 

좀더 수학적으로 이야기 하면  표본분산의 기댓값이 어떻게 하면 모분산과 동일해지는가?(그런데 이것과 분산을 계산할 때 n1을 사용하는 것과는 무슨관계인가?) 표본의 분산은 (xiˉx)2을 계산하야 한다. 우선 이 값의 모집단에서 기대값을 계산해보자.

E[iS(xiˉx)2]=E[Sx2i2ˉxSxi+nˉx2]=E[Sx2i2ˉx(nˉx)ˉx2]= E[Sx2inˉx2]=SE[x2i]nE[ˉx2]

그런데 주어진 표본의 각 원소는 모집단에서 랜덤하게 선택되었으므로 (μ,σ2)의 분포를 가지므로 

E[x2i]=E[x2]=n(σ2+μ2)

또, 표본평균은 (μ,(σ/n)2)인 분포를 가지므로,

E[ˉx2]=(σn)2+μ2

임을 알 수 있다. 따라서,

E[S(xiˉx)2]=n(σ2+μ2)n(σ2n+μ2)=(n1)σ2

E[1n1S(xiˉx)2]=1n1E[S(xiˉx)2]=1n1×(n1)σ2=σ2

즉, n개의 원소로 구성된 표본에서 원소들이 표본평균에서 벗어난 정도를 제곱한 값의 합을 n1로 나눈 값을 그 표본의 표본분산으로 정의하면(ˉσ=1n1iS(xiˉx)2), 이들 표본분산의 기대값(E[ˉσ])은 모분산에 접근한다. 이렇게 정의된 표본분산은 불편추정량(unbiased estimator : 추정량의 기대값이 모집단의 모수(parameter)와 같아지는 경우)이 된다.

728x90
,