본문 바로가기
AI

Statistics : 3-2 : 평균값, 중앙값, 최빈값

by 월곡동로봇팔 2019. 12. 21.

평균값


정의

  1. ∑(데이터) / (데이터의 총 갯수)로 나누기해서 얻은 값이다.
  2. ∑ (계급값 * 상대도수)

 

배경

도수분포표나 히스토그램은 몇 가지 단점들을 가지고 있다.

  1. 만든 사람의 생각이 들어가니, 실제로 표를 보고 이해하지 못하는 경우가 생긴다. -> 히스토그램에서 하나의 계급값들은 각각의 수치들이 차이가 얼마나 나는지에 대한 부분을 알지 못한다. 따라서 데이터로부터 추출한 성질을 통해서 결론도출이 힘들 수 있다.
  2. 상당히 많은 공간을 차지한다. -> 논문에서는 집약적으로 다뤄야하기 때문에, 잘 써야함.

이 단점들을 극복하기위해 축약 방법 중 통계량이 나왔다.

 

통계량은 데이터의 특징을 하나의 숫자로 표현한 것이다.

구체적으로는, 평균값, 분산, 표준편차 등등이다.

 

도수분포표에서의 평균값의 역할

예시

  • 평균값 = 계급값 * 상대도수 를 계산해 모두 합을 한 값, 데이터의 특성을 수치로 보여줌
  • 도수분포표를 만드는 것이 평균값이라는 통계량에는 별로 영향을 끼치지 않는다. 즉, 도수분포표를 만들어 평균값을 구하는 값과 실제 data들의 평균값과 차이가 없다는 것이다.

예를들어, 위에서 도수분포표는 6명의 학생이 계급값 145라는 값을 가지지만, 실제로는 141,143, 144, 146, 147, 149 라는 값을 가질 수 도 있다. 하지만, 이들을 계급값으로 상대적으로 +-로 표현하면 -4, -2, -1, +1, +2, +4

즉 상쇄가 되어 결국 계급값으로 평균값을 얻은 값과, 현실 평균값과의 오차가 많이 없다는 것을 알 수 있다.

이는 계급에 포함되어있는 data가 많을수록 오차가 줄 것이다.

 

 

평균값의 이해

  • 평균값은 "데이터는 수치적으로 퍼져있지만, 그 널리 퍼져있는 data 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것"
  • 데이터들은 평균값 주변에 분포되어있다.
  • 많이 나타나는 데이터들은 평균값에 주는 영향력이 굉장히 크다.
  • 히스토그램이 좌우대칭일 경우, 평균값은 대칭이 되는 축에 자리한다.
  • 평균값 + 평균값 + -----  + 평균값 = 모든 데이터의 합

 

cf ) 히스토그램에서 평균값이 받침점이 되는 이유

지렛대

위의 그림은 지렛대이다.

 

히스토그램에서의 평균값은 지렛대가 균형을 이루는 받침점이 된다고 했다.

 

지렛대의 원리로부터, m이 평균값일 때, (m-x)*b = (y-m)*c (b,c,는 B와 C의 도수, x,y 는 계급값, a/(a+b)와 b/(a+b)는 상대도수를 의미한다. )

 

m = (a/(a+b))*x + (b/(a+b))*y 에 해당한다. 따라서 상대도수 * 계급값들은 각 계급의 평균값이므로 m은 평균값이다.


중앙값 (median)

 

정의

> 전체 관측값을 크기 순서로 배열하면 중앙값은 다음과 같이 정의된다.

1. 자료의 개수(n)가 홀수이면, (n+1)/2번째 관측값
2. 자료의 개수(n)가 짝수이면, n/2번째 관측값과 n/2 +1 번째 관측값과 사이의 중간값 또는 평균

 

예시 - 1 

> 89 74 91 88 72 84 들의 표본들이 존재한다. 이들의 중앙값을 구하라.

i) 자료의 개수가 짝수일 때!
72 74 84 88 89 91 순서대로 놓았다.
자료의 개수가 6개이므로, 6/2 = 3번째 관측값과 6/2 +1 = 4번째 관측값의 평균인 (84 + 88) / 2 = 86이 중앙값이다.

ii) 자료의 개수가 홀수일 때!
만약 자료가 72 74 84 89 91 이라고 한다면, 자료의 개수가 5개이기 때문에, 관측값은 (5+1)/2 = 3번째 값인 84이다.

 

중앙값의 이해

표본평균과는 달리 중앙값은 관측값들의 변화에 민감하지 않고, 순서로 따지기 때문에 변화가 큰 값에 대해 영향을 받지 않는다.

 


표본평균, 중앙값, 최빈값의 비교

비교

 

댓글