본문 바로가기
AI

Statistics : 3-3 : 분산, 표준편차

by 월곡동로봇팔 2019. 12. 21.

분산(variance), 표준편차 (Standard Deviation)


배경

2019/12/21 - [ML/statistics] - Statistics : 3-2 : 평균값, 중앙값, 최빈값

 

Statistics : 3-2 : 평균값, 중앙값, 최빈값

평균값 정의 ∑(데이터) / (데이터의 총 갯수)로 나누기해서 얻은 값이다. ∑ (계급값 * 상대도수) 배경 도수분포표나 히스토그램은 몇 가지 단점들을 가지고 있다. 만든 사람의 생각이 들어가니, 실제로 표..

mambo-coding-note.tistory.com

우리가 위에 포스팅에서 통계량은 데이터들이 어떠한 특성을 가지고 있는지, 평균값, 표준편차를 이용해 수치적으로 정한다고 배웠다. 또한 평균값의 특성상 "평균값은 data들이 평균값 주위로 분포해있다" 를 알 수 있다고 했다.

예시

하지만 위에 그림처럼 평균값은 data들의 상태를 알 수 없다.

즉, 데이터가 주변에 어느 정도 퍼져있는지, 흩어져있는지 알 수 없다.

이를 파악하기 위해 우리는 표준편차를 도입한다.

 

정의

> 데이터가 주변에 어느정도 퍼져있는지, 얼마나 흩어져있는지 데이터의 분포 정도를 나타낸다.
> [ Σ(데이터 - 데이터의 평균값) ] **2

i)  그냥 분산일 때!
σ**2 = ( Σ(xi - xbar)**2) / n

ii) 표본분산일 때!
s**2 = ( Σ(xi - xbar)**2 ) / (n-1)

iii) 정리
s**2 = ( Σ(xi - xbar)**2 ) = Σxi**2 -n(xbar)**2 = Σxi**2 -( Σxi )**2/(n-1) = E(x**2) - E(x)**2/(n-1)

 

예시 - 1

Q . "소득의 분포" 이다.

A,B 라는 나라가 있는데, 둘의 소득의 평균값은 m으로 같다.
하지만, 이들의 나라들이 빈부격차 없이 똑같은 소득을 가진다고 말하지 못한다.

평균소득이 똑같더라도, A,B 나라들이 '평등한'나라인지, '빈부격차가 심한' 나라인지 "결론" 내리지 못한다.

예시 - 2

Q . "버스 운행 상황"

두 버스가 있는데, 이 중에서 어느 버스를 이용할지 "결론" 을 내려야 한다.
A 버스는 배차간격이 +- 2분, B버스는 배차간격이 +- 10분이다.

하지만, 여기서 평균값은 같기 때문에 평균값만 보고 B버스를 고른다면, 이는 "결론"에 대한 오류가 있을 수 있다.

따라서 평균값도 중요하지만 "불규칙한 상태의 통계량" 표준편차를 아는 것이 매우 중요하다!!


평균값과 표준편차의 이해

 

예시 - 3 : [7시 반에 도착하는 버스가 5일동안 도착한 시간]

32 27 29 34 33

5개의 데이터의 평균값은 31이다. 이 버스는 평균적으로 31분에 도착하는 버스라고 알 수 있지만, 실제로는 평균값 31분의 주변에 흩어져서 분포한 것이다.

"이것은 버스가 도착한 시간이 제각각이라는 것이다."

우리는 이제 이 버스가 "제각각인게 어느 정도"인지가 궁금하다.

우선은 각 데이터를 평균값으로 빼볼 것이다.

 

예시 - 4 : [7시 반에 도착하는 버스가 5일동안 도착한 시간 -> 평균값으로 뺀 table]

1 -4 -2 3 2

각 데이터들을 평균값으로 뺀 값, 이 수치들을 통계학에서는 "편차" 라고 한다.

 

이 5개의 편차를 축약, 하나의 수로 대표시키는 일이 필요하다.

하지만, ( 1 -4 -2 +3 +2) / 5 = 0. +와 -가 상쇄가 되어, 이는 데이터의 불규칙한 정도를 나타내는 통계량으로 나타내지 못한다.

 

따라서 우리는 "제곱평균" 을 사용한다.

 

{1**2 + (-4)**2 + (-2)**2 + 3**2 + 2**2 } / 5 = 6.8. 이 통계량을 "분산"이라고 한다.

분산은 단위가 분에서 분**2으로 바뀌는 것을 알 수 있고, +- 4를 향하는 data들을 대표하는 통계량 수치가 너무 크다.

따라서 우리는 루트를 씌워줘서 단위와 수치를 맞춰준다.

 

이를 "표준편차"라고 한다.

 


결론

 

  • 즉, 평균값은 데이터의 대표값이고, 표준편차는 데이터들이 평균값 기점으로 얼마나 떨어져 있는지 보여주는 값이다.
  • 평균값과 표준편차를 알아야, 모집단의 특성을 파악해서 추론이 가능하다.

댓글