본문 바로가기
AI

Statistics : 카이제곱분포

by 월곡동로봇팔 2020. 1. 1.

카이제곱분포

배경

모집단이 정규분포를 따르지 않을 때, t분포를 이용한 모평균추론보다, t분포를 이용한 모분산추론이 더 심각한 오류를 만든다.
따라서 모분산은 t분포를 쓰지 않고, 카이제곱분포를 쓴다.

정의

> "표준정규분포 하는 모집단에서 얻은 n개의 data 제곱의 합" == 분산 이라는 통계량을 분석한 것이다.
> V = (Xbar - x1)**2 + (Xbar- x2)**2 + (Xbar- x3)**2 ----(Xbar- xn)**2
> χ**2 = V / σ**2 = (n-1)s**2/σ**2

특징

> 감마분포의 특수한 형태
> 자유도 (관측한 데이터의 수) 에 따라 달라진다.
> 0 근처의 데이터 상대도수가 크다.
> 자유도 n이 커짐에 따라서 가운데 볼록한 높이가 낮아지면서 점점 오른쪽으로 치우쳐져간다.
-> 정규분포를 따른다.
> V는 표본들에서 평균값을 뺀 값의 제곱이기 때문에, 위 그래프의 x축은 일정한 자유도에서 분산의 평균이다.
> y축은 해당 분산에서의 확률 값들을 말한다.

> 카이제곱분포표 행은 자유도, 열은 확률이다.

카이제곱분포에서의 신뢰구간

예제-1

Q. χ**2 분포에서 자유도가 17인 χ**2 분포의 상, 하위 5%의 확률을 주는 값을 찾아라.

위의 카이제곱분포표에서 자유도가 17인 카이제곱분포의 상, 하위 5%확률은 8.67~27.59 구간이다.

목적

> 정규분포에서는 데이터들이 얼마나 치우쳐져있는지를 평균표준편차로만 알기 때문에, 치우쳐짐의 정도를 정확히 모르기 때문에, 카이제곱분포를 통해 분산의 가설검정, 신뢰구간으로 검정하는데 사용한다.
> 카이제곱분포의 95%예언적중구간을 이용하여 모분산을 구간추정 할 수 있게 된다.
> 모평균을 모를때 // 모평균을 알 때, 둘 다 모분산 구간추정이 가능하다.

ex) 어떤 나비의 몸길이 모집단은 모평균이 80mm인 정규모집단이라고 한다. 이 때 관측된 3마리의 몸길이가 76, 85, 93mm 일 경우 모분산의 95% 신뢰구간을 구하시오.

 

χ**2 = [ (76-80)**2 + (85-80)**2 + (83-80)**2 ]/σ**2= 50/σ**2 

V는 자유도가 3인 카이제곱분포를 하는 데이터 중의 하나라는 것을 알고 있다.

σ의 신뢰구간을 구할 수 있다. 

 


참고

https://m.blog.naver.com/mykepzzang/220852102307

 

[확률과 통계] 49. 카이제곱 분포, Chi-Squared Distribution

카이제곱 분포는 감마 분포(gamma distribution)의 특수한 형태입니다. 우선 카이제곱 분포가 어떻게 생긴 ...

blog.naver.com

다음은 카이제곱분포가 사용되어지는 용도에 대해 상세히 적어둔 블로그다.

https://math100.tistory.com/44

 

카이제곱분포란?

통계에서 보통 무엇인가를 조사하고 분석할 때, 데이터의 중심위치를 파악하는 것이 중요한데, 이 중심위치를 나타내는 대표적인 척도가 평균이다. 그리고 평균을 기준으로 각 데이터가 흩어져 있는 정도, 즉 치우..

math100.tistory.com

 

댓글