카이제곱분포
배경
모집단이 정규분포를 따르지 않을 때, t분포를 이용한 모평균추론보다, t분포를 이용한 모분산추론이 더 심각한 오류를 만든다.
따라서 모분산은 t분포를 쓰지 않고, 카이제곱분포를 쓴다.
정의
> "표준정규분포 하는 모집단에서 얻은 n개의 data 제곱의 합" == 분산 이라는 통계량을 분석한 것이다.
> V = (Xbar - x1)**2 + (Xbar- x2)**2 + (Xbar- x3)**2 ----(Xbar- xn)**2
> χ**2 = V / σ**2 = (n-1)s**2/σ**2
특징
> 감마분포의 특수한 형태
> 자유도 (관측한 데이터의 수) 에 따라 달라진다.
> 0 근처의 데이터 상대도수가 크다.
> 자유도 n이 커짐에 따라서 가운데 볼록한 높이가 낮아지면서 점점 오른쪽으로 치우쳐져간다.
-> 정규분포를 따른다.
> V는 표본들에서 평균값을 뺀 값의 제곱이기 때문에, 위 그래프의 x축은 일정한 자유도에서 분산의 평균이다.
> y축은 해당 분산에서의 확률 값들을 말한다.
> 카이제곱분포표 행은 자유도, 열은 확률이다.
카이제곱분포에서의 신뢰구간
예제-1
Q. χ**2 분포에서 자유도가 17인 χ**2 분포의 상, 하위 5%의 확률을 주는 값을 찾아라.
위의 카이제곱분포표에서 자유도가 17인 카이제곱분포의 상, 하위 5%확률은 8.67~27.59 구간이다.
목적
> 정규분포에서는 데이터들이 얼마나 치우쳐져있는지를 평균표준편차로만 알기 때문에, 치우쳐짐의 정도를 정확히 모르기 때문에, 카이제곱분포를 통해 분산의 가설검정, 신뢰구간으로 검정하는데 사용한다.
> 카이제곱분포의 95%예언적중구간을 이용하여 모분산을 구간추정 할 수 있게 된다.
> 모평균을 모를때 // 모평균을 알 때, 둘 다 모분산 구간추정이 가능하다.
ex) 어떤 나비의 몸길이 모집단은 모평균이 80mm인 정규모집단이라고 한다. 이 때 관측된 3마리의 몸길이가 76, 85, 93mm 일 경우 모분산의 95% 신뢰구간을 구하시오.
χ**2 = [ (76-80)**2 + (85-80)**2 + (83-80)**2 ]/σ**2= 50/σ**2
V는 자유도가 3인 카이제곱분포를 하는 데이터 중의 하나라는 것을 알고 있다.
σ의 신뢰구간을 구할 수 있다.
참고
https://m.blog.naver.com/mykepzzang/220852102307
다음은 카이제곱분포가 사용되어지는 용도에 대해 상세히 적어둔 블로그다.
https://math100.tistory.com/44
'AI' 카테고리의 다른 글
Statistics : 6-1, 6-2 : 확률분포 : 확률변수 (0) | 2020.01.02 |
---|---|
Statistics : 5-5 : 독립사건 vs 배반사건 (0) | 2020.01.02 |
Statistics : 확률분포들의 서로 얽혀있는 구조 (0) | 2020.01.01 |
Statistics : 4-4 : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수 (0) | 2020.01.01 |
Statistics : 4-3 : 두 변수 자료의 요약 : 산점도 (0) | 2020.01.01 |
댓글