본문 바로가기
AI

Statistics : 7-5 : 포아송분포

by 월곡동로봇팔 2020. 1. 4.

포아송분포 (Poisson Distribution)

 

정의

> 연속된 시간상에서 발생하는 경우처럼 사건은 매순간 발생할 수 있다.
> 그러나 매 순간마다 베르누이 시행을 한다고 하기에는 "시행횟수가 너무 많고, 매 순간의 성공확률은 아주 작기 때문에" 이항분포로는 부족하다.
> 연속된 사건을 다루는 분포를 포아송분포라고 한다.

> ex) 프러시아 질병 중 매년 말에 치여 사망하는 병사의 수
> ex) 국내에서 발생하는 진도 4이상 지진의 횟수
> ex) 한 야구경기에서의 실책의 수

조건

> 포아송분포는 매 순간 사건 발생이 가능하나, 매 순간의 사건 발생 확률은 아주 작은 경우에 주로 이용되는 확률모형이다. 따라서 "평균 발생횟수"를 이용한다.

1. 주어진 구간에서 사건의 평균 발생횟수의 확률분포는 구간의 시작점에는 관계가 없고 구간의 길이에만 영향을 받는다.
2. 한 순간에 2회 이상의 사건이 발생할 확률은 거의 0에 가깝다. (매 순산 사건 발생 확률이 굉장히 적기 때문)
3. 한 구간에서 발생한 사건의 횟수는 겹치지 않는 다른 구간에서 발생하는 사건의 수에 영향을 받지 않는다.

포아송분포의 확률질량함수

확률변수 X가 평균이 m인 포아송분포를 따를 때, 확률질량함수는 P(X=x)=e**-m * m**x / x! (x=0,1,----)

예시-1 (포아송분포와 이항분포의 차이점 구분)

Q. 강의시간(50분) 동안에 평균 3번의 휴대폰이 울린다고 한다. 선생님이 휴대폰이 한 번도 울리지 않으면 퀴즈를 안 본다고 했다. 학생들이 퀴즈를 볼 확률은 얼마나 되는가?

P(X≥1) = 1- P(X=0) = 1- (e**-3 * 3**0 / 0!) = 1-e**-3 = 0.95021

만약 50분을 1초 간격으로 나눠서 이 간격을 서로 독립인 베르누이 시행으로 보면, 위 문제는 이항분포의 문제로 볼 수 있다. 초당 성공확률은 3/3000 = 0.001 이기 때문에, X는 모수가 (3000, 0.001)인 이항분포를 따르게 된다.
따라서 P(X≥1) = 1- P(X=0) = 1 - (3000C0)(0.001)**0(0.999)**3000 = 0.95029 

포아송분포와 차이점이 많이 없는 것을 알 수 있다.

이는 이항분포의 확률함수에서 n이 커지고 p는 작아지면서 np가 일정하게 유지되면 이항분포의 확률함수는 평균이 m인 포아송분포의 확률함수와 가까워진다.

댓글