본문 바로가기
AI

Statistics : 3-3 : 백분위수 및 사분위수, 변동계수

by 월곡동로봇팔 2020. 1. 1.

2019/12/21 - [ML/statistics] - Statistics : 3-3 : 분산, 표준편차

 

Statistics : 3-3 : 분산, 표준편차

분산(variance), 표준편차 (Standard Deviation) 배경 2019/12/21 - [ML/statistics] - Statistics : 3-2 : 평균값, 중앙값, 최빈값 Statistics : 3-2 : 평균값, 중앙값, 최빈값 평균값 정의 ∑(데이터) / (데..

mambo-coding-note.tistory.com

앞서서 우리는 표준편차에 대해 공부를 하였다.

 

장점 : 표본평균을 사용할 경우, 표준편차를 퍼진정도의 측도로 쓰는 것이 바람직하다.

단점 : 극단적인 값에 영향을 많이 받을 때가 있다.


백분위수

 

정의

> 자료의 수가 n개 일 때, 제 100 x p 의 백분위 수는 그 값보다 작거나 같은 관측값의 개수가 np개 이상, 그 값보다 크거나 같은 관측값이 n(1-p)개 이상인 값이다.

 

예시 - 1

i) 관측값이 홀수 일 때
ex) 30 31 35 37 38 38 38 39 40 40 41 42 43 44 44 45 78 이라는 수에서 50백분위수와 20백분위수를 구하시오.

> 관측값의 개수가 17개, 50백분위수를 구하려면, 17x0.5 = 8.5번째 == 9번째 40이 50백분위수이며, 중앙값이다.
> 20백분위수를 구하려면, 17x0.2 = 3.4 == 4 번째로 작은값인, 37이다.

ii) 관측값이 짝수 일 때
ex) 31 35 37 38 38 38 39 40 40 41 42 43 44 44 45 78 이라는 수에서 50백분위수와 20백분위수를 구하시오.

> 관측값의 개수가 16개, 50백분위수를 구하려면, 16x0.5 = 8번째 == 40이 50백분위수이며, 중앙값이다.
> 20백분위수를 구하려면, 16x0.2 = 3.2 == 4 번째로 작은값인, 38이다.

 

사분위수

 

정의

제 1 사분위수 : Q1 = 제 25백분위수
제 2 사분위수 : Q1 = 제 50백분위수 = 중앙값
제 3 사분위수 : Q1 = 제 75백분위수

장점 : 극단적으로 치우쳐진 값에 영향 안받음. 중앙값을 중심위치의 척도로 사용할 때 적합하다.

단점 : 이론적 추론이 어려워서 널리 쓰이지는 않음.

 

예시 - 2

Q . 89 74->50 91 88 72 84 로 변경되었을 때, 범위와 사분위수범위를 구하라.

정렬해보면, 50 72 84 88 89 91.

범위는 최대값 91 - 최소값 50 = 41.
사분위수범위는 제 1사분위수는 6x0.25 = 1.5== 2번째인 72, 제 3사분위수는 6x0.75 = 4.5 == 5번째인 89이다.
사분위수범위는 89-72인 17이다.
  바뀌기 전 바뀐 후
표준편차 8.10 15.75
범위 19 41
사분위수범위 15 17
74에서 50으로 변화한 이후로 영향정도를 비교한 것이라고 볼 수 있다.
즉, 74에서 50으로 변하면서, 표준편차가 두 배이상 증가하였고, 범위 또한 22 증가하여 두 배이상 증가함을 볼 수 있다.

하지만, 사분위수 범위를 보면 2 증가함을 보면서, 
극단적인 값이 들어와서 평균값에는 영향을 주었지만, 수가 많지 않아 중앙값에는 영향을 주지 않았음을 의미한다.
이 의미가 굉장히 중요하다. 실제로 적용을 해서 생각해보면, 백분위수는 어떤 데이터 수치가 변해서 얼마나 몇 개가 변화했는지를 따질 때 굉장히 중요한 수치라고 생각이 든다.

변동계수 (Coefficient of Variation)

 

정의

> CV = 표준편차/표본평균 X 100

장점 

1. 단위가 다르거나,

2. 중심위치가 매우 다른 두 개 이상의 분포를 비교할 때, 이들 수치를 가지고 "평균값 대비 퍼진정도"를 비교하는 것은 불합리하다. 따라서 상대적으로 퍼진 정도를 나타낼 때 굉장히 좋다.

 

날짜 A B
1 76,300 6,400
2 77,400 7,000
3 77,900 7,400
4 77,200 6,900
5 76,900 7,300
6 78,800 7,600
평균값 77,417 7,100
표준편차 861 429
변동계수 1.11 6.04

변동계수는 A 회사가 1.11, B 회사가 6.04로 월등히 높기 때문에, 변동계수만을 보고 판단한다면, B회사가 평균대비 편차가 심하기 때문에 B회사에 투자를 하는 것이 바람직하지 않다. 

댓글