본문 바로가기
AI

Statistics : 7-4 : 초기하분포

by 월곡동로봇팔 2020. 1. 4.

초기하분포(Hypergeometric distribution)

 

정의

> 비복원추출에서 N개 중에 K가 원하는 것이고 n번 추출했을때 원하는 것 k개가 뽑힐 확률의 분포이다.
> P(X=x) = DCx * (N-D)C(n-x) / NCn

> N : 모집단의 크기
> n : 표본의 크기
> D : 모집단 내에서 범주 A에 속하는 구성원의 수 (A 는 k개가 뽑히는 경우)
> X : 표본 내에서 범주 A에 속하는 구성원의 수

예시-1

Q. 50개 중 불량품이 5개인 더미에서 10개를 조사관이 비복원추출을 할 때, 2개의 불량품을 발견한 확률 P을 구하시오. 

> 50개의 더미에서 10개를 고르는 경우의 수 = 50C10
> 2개의 불량품을 고를 확률은 5C2, 8개의 정품을 고를 확률은 45C8, 동시에 고를확률은 5C2 x 45C8

> P = 5C2 x 45C8 / 50C10

초기하분포의 기댓값, 표준편차

> p = D / N = 모집단 내의 범주 A에 속하는 수 / 모집단의 크기 (60개중 12개가 불량->불량뽑을확률 = 0.2)
> E(X) = np 
> 표준편차 = √np(1-p)√((N-n)/(N-1))

예시-2

Q. 대학에서 전체 50명의 교수 중에서 5명을 뽑아 위원회를 구성하고자 한다. 선출과정은 무작위이고 통계학과 교수가 6명이 포함된다.

Q-1 ) 위원회에 통계학과 교수가 한명도 없을 확률은?
> 6C0 * 44C5 / 50C5

Q-2 ) 적어도 1명 이상의 통계학과 교수가 포함될 확률은?
> P(X≥1) = 1-P(X=0)

Q-3) 몇 명의 통계학과 교수가 포함되리라고 예상하는가?
> E(X) = np = 5*6/50 = 0.6명 == 1명이라고 예상한다.

 

결론

초기하분포는 비복원추출에 대해서 적용되며, 모집단이 표본에 비해 20배이상 크다면, 이는 복원추출처럼 적용이 된다. 실생활에서 많이 쓰이는 분포이다.

댓글