본문 바로가기
AI

Statistics : 8-5 : 정규분포가정의 조사

by 월곡동로봇팔 2020. 1. 7.

정규점수 (normal scores)

 

정의

> 표준정규분포에서의 이상적인 표본을 말한다.
> 표준정규분포의 확률밀도함수를 등확률구간으로 나누어 주는 경계값, Z의 의미를 말한다.
ex) 

정규확률그림 (normal probability plot)

정의

> 표본이 이상적인 정규분포와 얼마나 흡사한지를 그림으로 보여준다.

주의!!!!

위와 아래의 표는 편의상 4개를 적어둔 것이다. 실제는 n이 30이상일 때 중심극한정리로 인해, 표본들은 정규분포를 따르기 때문에, 표본들을 크기가 커지는 순으로 정렬해두면, 실제로 정규점수와 순서가 일치함을 알 수 있다.

실제로 관측한 x값, 정규점수 이상적인 x값
44, -0.84 μ + σm1
68, -0.25 μ + σm2
75, 0.25 μ + σm3
82, 0.84 μ + σm4

x = μ + σz의 관계식을 이용하여, 표준정규분포의 정규점수 mi로부터 구 할 수 있다.

정규점수는 표준편차 앞에 붙는 z로써, 백분위를 나눌 때 사용한다.

위와 같은 표에서 데이터가 4개기 때문에, 4개의 지점, 5개의 구간으로 나누게 된다.

 

위에서의 산점도가 선형을 가지게 된다면, μ , σ 가 일정하다는 의미, 즉 정규분포를 따른다는 의미이다.

 

따라서 만일 모집단이 실제로 정규분포를 따른다면, 위의 표 2에서 양쪽의 값은 서로 가까울 것이라고 예상된다.


자료의 변환 (제일 중요!!!!!!!!!!!!)

필요성

> 표본의 크기가 작은 경우에는 이 분포가 정규분포를 따르는지 확인을 해야한다.
> 확인해서 정규분포를 따르지 않는다면, 이는 자료의 변환을 통해서 정규분포로 향하는 분포로 만들어 줄 수 있다.

방법

  • 큰 자료값을 더 크게 :  x**2, x**3
  • 큰 자료값을 더 작게 : x**(1/x), logx, 1/x

댓글