정규분포 (Normal Distribution)
2019/12/21 - [ML/statistics] - Statistics : 통계학, 도수분포표
앞에서도 언급했듯이, 데이터들은 "제각각의 구조"를 가지고 있으며,
우리는 데이터들의 특징을 알기위해서 평균값, 분산, 표준편차를 사용한다고 알고있다.
우리 사회에서는 데이터의 분포가 가장 일반적인 정규분포이다. 근데 왜??
> 물론 모든 자료들을 정규분포로 설명할 수는 없다. 하지만 여러 통계학의 근간, 여러곳에 응용이 가능하기 때문이다.
> 목적
1. 우리는 정규분포를 이용해서, 데이터에 모집단의 평균값을 빼주고 표준편차를 나눠줌으로써, 데이터들의 평균값을 0, 표준편차를 1로 만들 수 있다. 따라서 여러 모집단들을 한 번에 평균값과 표준편차를 맞춤으로써 비교가 가능하다.
2. 중심극한정리에 의해 표본의 갯수가 30이상 넘어가면, 이는 정규분포로 근사함을 알 수 있다. 따라서 정규분포가 굉장히 많이 쓰인다.
정규분포의 확률밀도함수 (probability density function), 분포 그래프
흔히 우리가 Z라고 부르는 (X-μ)/σ 부분 때문에 서로 대칭이 이루어진다.
히스토그램 상에서는 매끄러운 곡선이 나오지는 않지만, 정규분포가 확률밀도함수를 따르게 된다면, 적분을 통하여 x값의 차이가 극한 0으로 향하면, 매끄러운 곡선이 나오게 된다.
정규분포의 확률밀도함수의 평균, 분산, 특징
표준정규분포
정의
> 정규분포는 데이터의 평균값과 표준편차를 이용해서 평균값을 0, 표준편차를 1로 만든 것이다.
기존의 데이터에 +4를 한다고 하면, 평균값은 4가 증가하지만, 분산과 편차는 동일함을 알 수 있다.
따라서 우리는 데이터에 평균값을 빼주면서 데이터들의 평균값을 0으로 맞춰둘 수 있다.
기존의 데이터에 *2를 한다고 하면, 평균값은 이미 위에서 데이터에 평균값을 해주면서 평균값을 0으로 맞춰두었다.
*2를 해준다고 해도 평균값은 이미 0이니, 분산과 표준편차만 보면 된다. 따라서 분산은 *4, 표준편차는 *2를 한 것처럼 나왔다.
표준정규분포의 성질 - 1
평균값이 0, 표준편차가 1인 정규분포이다.
표준정규분포의 성질 - 2
+1 ~ -1 범위의 데이터의 상대도수는 0.6826 (약 70%)
+2 ~ -2 범위의 데이터의 상대도수는 0.9544 (약 95%)
2번째의 성질은 매우 중요하다. 대부분의 데이터가 2번째의 범위안에 모두 속해 있는 것을 볼 수 있다.
이는 데이터를 판단하는데의 기준이 되기 때문에 매우 중요하다.
일반정규분포
일반정규분포의 성질 - 1
평균값이 μ, 표준편차가 σ인 정규분포이다.
일반정규분포의 성질 - 2
μ+1σ ~ μ-1σ 범위의 데이터의 상대도수는 0.6826 (약 70%)
μ+2σ ~ μ-2σ 범위의 데이터의 상대도수는 0.9544 (약 95%)
일반정규분포는 표준정규분포가 Z = (x-μ)/σ 이기 때문에, 그대로 평균값과 표준편차를 바꿔준 것이다.
우리가 알아야 할 부분은 "표준정규분포와 일반정규분포를 서로 유동적으로 바꿔쓸 수 있다."
정규분포 적용
- 데이터들을 도수분포표를 그린다.
- 상대도수대로 일반정규분포를 그린다.
- 다른 데이터 그래프와 비교하기 위해, 표준정규분포로 바꾼다.
- 데이터들끼리 표준정규분포로 보고 비교한다.
'AI' 카테고리의 다른 글
Statistics : 10-2 : 통계적 추정 : 구간추정 (0) | 2019.12.22 |
---|---|
Statistics : 10-1 : 통계적 추정 (0) | 2019.12.22 |
Statistics : 3-2 : cf) 평균값과 표준편차를 이용한 데이터 분석 (0) | 2019.12.21 |
Statistics : 3-3 : 분산, 표준편차 (0) | 2019.12.21 |
Statistics : 3-2 : 평균값, 중앙값, 최빈값 (0) | 2019.12.21 |
댓글