본문 바로가기
AI

Statistics : 10-3 : 통계적 추정 : 가설검증 (가설의 정의, 오류의 종류)

by 월곡동로봇팔 2020. 1. 11.

가설검증 (귀납적 방법, Testing Statistical hypothesis)


2019/12/22 - [ML/statistics] - Statistics : 통계적 추정

 

Statistics : 통계적 추정

통계적 추정 우리는 앞에서 표준정규분포에 대해 공부했다. 2019/12/22 - [ML/statistics] - Statistics : 정규분포 (Normal Distribution) Statistics : 정규분포 (Normal Distribution) 정규분포 (Normal Distri..

mambo-coding-note.tistory.com

우리는 앞에서 통계적 추정을 정의하였다.

"엄청나게 많은 dataset 중에서 data의 작은 부분으로, data가 가지는 집단 전체를 추리하는것"

이것이 통계학이 원하는 가치이다.

 

용어정리

  • 모집단 : 관측된 데이터 뒷면에 펼쳐져 있는 모든 데이터를 통계학에서는 모집단이라 한다.
  • 통계적 추정 : 관측된 데이터로 모집단을 추리 하는 것이다.

 


예시-1, 모수 (표본의 수) 예측

Q. 이상이 없는 N개의 동전으로 던지기 실험을 할 때, 앞면이 10개가 나온다는 결과만을 알고 있다고 하면, 던진 개수를 N 으로 하여, 다음 N을 예측하는 것이 타당한지 타당하지 않은지 얘기해보자.

Q. == (아파트를 분양하기 위해 신문에 광고를 실었다고 가정하자. 모델하우스를 둘러보기 원하는 10명의 사람으로부터 문의전화를 받았다. 만약 모델하우스를 둘러보기 원하는 사람은 확률 1/2로 사전에 문의전화를 한다. 그렇다면 모델하우스를 둘러보기 원하는 인원수를 예상해보자)

 

위는 같은 문제이다.

 

이는 "현실에서 10이라는 data가 관측되었는데, 우리는 N을 얼마로 예상하는 것이 타당한가?" 에 대한 질문에 답해야한다.

 

이 때, 추측하려는 N을 모집단이 가진 "모수" 라고 부른다. 예상하는 모집단의 종류와 같은 의미다.

또 실제로는 얼마인지 모르는 추정의 대상이며, 모집단을 하나로 정하는 일이다.

-> 문제는 N을 어떻게 타당하게 고를 것 이냐 라는 것이다.

 

만약 N이 20이라고 할 수 있다. 하지만 "대략" 절반이 앞면이라고 가정한다면, 21, 19도 타당할 수도 있다.

그러면 20에서 어디까지 벗어나도 타당한거지? N이 16이면 어때? N은 36이면 어때? 에 대한 물음에

가장 최적의 조건을 찾아야한다.

Ex) N이 16일 때, μ은 8, σ은 2, 예언 적중구간은 4.08~11.92 이다.

Ex) N이 36일 때, μ은 18, σ은 3, 예언 적중구간은 12.12~23.88 이다.

 

따라서 앞면이 10개 나오는 상황에서는 N이 16일 때가 적합하고, N이 36이라면 적합하지 않다고 할 수 있다.

 


기각 & 채택

여기서 우리는 N이 36이 적합하지 않다! 라는 의미가 두 가지로 해석된다.

1. 모집단에 관한 가설이 바른데, risk 안, 5%에 포함되어서 희귀한 일이 일어났다.
2. 모집단에 관한 가설 (N이 36일거야) 이 바르지 않다.

위와 같은 두 가정하에, N이 36이 아니므로 가설을 기각한다. N은 16이다라고 하는 것을 가설을 채택한다. 라고 정의한다.

 

예시-2 (표본평균 예측)

Q. 성인의 콜레스테롤의 수치는 모평균 200, 모표준편차 24를 따른 정규분포를 따른다. 콜레스테롤을 낮춰야하는 목표를 가질 때, 표본평균들이 몇 이하일 때 콜레스테롤을 낮췄다고 말할 수 있을까?

 

모평균을 추정하기위해 표본평균을 이용한다! Xbar는 200 주변으로 값을 갖게 될 것이다.

물론 Xbar가 작게나왔다고 해서 모평균보다 작게나 크게 나왔다고 말하지는 못한다.

하지만!!! Xbar가 모평균이 200일 때는 나오기 힘들 정도로 작은 값이었다면, 우리는 이로부터 "모평균이 200인데 우연히 작은 값들로 이루어진 것만 있다" 가아니라 "모평균이 200보다 작은 것은 아니었을까 하고 생각"하게 되는 것이다.

 

90%의 확률로 맞을 것이라고 생각을 할 때, P[Xbar ≤ c] = 0.05 이 되는 구간인 c를 찾으면, 그 구간에 만약 표본평균이 존재한다면, 가설을 기각한다. 만약 표본평균이 c 위로 구간에 있다면, 이에 맞는 가설을 채택한다.

 

즉, c = 193.76 이하이면, "표본평균이 모평균 구간에서 존재할 것 = 콜레스테롤이 200 근방으로 줄지 않을 것" 이라는 가설에 대해 안 맞기 때문에, 기각한다. 따라서 콜레스테롤 수치를 줄이는데 도움이 된다.

c = 193.76 이상이면, "표본평균이 모평균 구간에서 존재할 것 = 콜레스테롤이 200 근방으로 줄지 않을 것" 이라는 가설에 대해 맞기 때문에, 채택한다. 따라서 콜레스테롤 수치를 줄이는데 도움이 되지 않는다.

 


 

가설 (hypothesis)

대립가설 (H1) (alternative hypothesis) 입증하여 주장하고자 하는 가설
귀무가설 (H0) 대립가설을 입증할 수 없을 때, 대립가설을 무효화시키면서 받아들이는 가설

위의 예시-1 을 지켜보자

 

위에서의 콜레스테롤의 모평균이 200보다는 떨어졌다! 라는 걸 증명해야하니 "H1:μ<200" 으로 표현할 수 있다.

또한 "콜레스테롤의 모평균이 200으로 수렴한다"는 것이 오류이기에 "H0:μ=200 or H0:μ>=200으로 표현가능하다.

보통은 H0을 먼저하고, H1을 나중에 한다.

 


오류의 종류

가설검정이란 추출된 표본으로부터 모수에 대한 가설이 적합한지를 판단하는 것이다.

 

판단은 두 가지 형태로 나타난다.

  1. H0 (귀무가설)을 기각하고 H1 (대립가설)을 채택한다.
  2. H0을 기각하지 못하기 때문에 H0을 유지한다.
실제 / 예상 H0 H1
H0 o

1종 오류

(H0가 맞는데 H0을 기각해서 H1이라고 예상)

H1

2종 오류

(H0가 틀린데 H0을 기각하지 못하는 경우)

o

 

댓글