2019/12/21 - [ML/statistics] - Statistics : 3-3 : 분산, 표준편차
앞서서 우리는 표준편차에 대해 공부를 하였다.
장점 : 표본평균을 사용할 경우, 표준편차를 퍼진정도의 측도로 쓰는 것이 바람직하다.
단점 : 극단적인 값에 영향을 많이 받을 때가 있다.
백분위수
정의
> 자료의 수가 n개 일 때, 제 100 x p 의 백분위 수는 그 값보다 작거나 같은 관측값의 개수가 np개 이상, 그 값보다 크거나 같은 관측값이 n(1-p)개 이상인 값이다.
예시 - 1
i) 관측값이 홀수 일 때
ex) 30 31 35 37 38 38 38 39 40 40 41 42 43 44 44 45 78 이라는 수에서 50백분위수와 20백분위수를 구하시오.
> 관측값의 개수가 17개, 50백분위수를 구하려면, 17x0.5 = 8.5번째 == 9번째 40이 50백분위수이며, 중앙값이다.
> 20백분위수를 구하려면, 17x0.2 = 3.4 == 4 번째로 작은값인, 37이다.
ii) 관측값이 짝수 일 때
ex) 31 35 37 38 38 38 39 40 40 41 42 43 44 44 45 78 이라는 수에서 50백분위수와 20백분위수를 구하시오.
> 관측값의 개수가 16개, 50백분위수를 구하려면, 16x0.5 = 8번째 == 40이 50백분위수이며, 중앙값이다.
> 20백분위수를 구하려면, 16x0.2 = 3.2 == 4 번째로 작은값인, 38이다.
사분위수
정의
제 1 사분위수 : Q1 = 제 25백분위수
제 2 사분위수 : Q1 = 제 50백분위수 = 중앙값
제 3 사분위수 : Q1 = 제 75백분위수
장점 : 극단적으로 치우쳐진 값에 영향 안받음. 중앙값을 중심위치의 척도로 사용할 때 적합하다.
단점 : 이론적 추론이 어려워서 널리 쓰이지는 않음.
예시 - 2
Q . 89 74->50 91 88 72 84 로 변경되었을 때, 범위와 사분위수범위를 구하라.
정렬해보면, 50 72 84 88 89 91.
범위는 최대값 91 - 최소값 50 = 41.
사분위수범위는 제 1사분위수는 6x0.25 = 1.5== 2번째인 72, 제 3사분위수는 6x0.75 = 4.5 == 5번째인 89이다.
사분위수범위는 89-72인 17이다.
바뀌기 전 | 바뀐 후 | |
표준편차 | 8.10 | 15.75 |
범위 | 19 | 41 |
사분위수범위 | 15 | 17 |
74에서 50으로 변화한 이후로 영향정도를 비교한 것이라고 볼 수 있다.
즉, 74에서 50으로 변하면서, 표준편차가 두 배이상 증가하였고, 범위 또한 22 증가하여 두 배이상 증가함을 볼 수 있다.
하지만, 사분위수 범위를 보면 2 증가함을 보면서,
극단적인 값이 들어와서 평균값에는 영향을 주었지만, 수가 많지 않아 중앙값에는 영향을 주지 않았음을 의미한다.
이 의미가 굉장히 중요하다. 실제로 적용을 해서 생각해보면, 백분위수는 어떤 데이터 수치가 변해서 얼마나 몇 개가 변화했는지를 따질 때 굉장히 중요한 수치라고 생각이 든다.
변동계수 (Coefficient of Variation)
정의
> CV = 표준편차/표본평균 X 100
장점
1. 단위가 다르거나,
2. 중심위치가 매우 다른 두 개 이상의 분포를 비교할 때, 이들 수치를 가지고 "평균값 대비 퍼진정도"를 비교하는 것은 불합리하다. 따라서 상대적으로 퍼진 정도를 나타낼 때 굉장히 좋다.
날짜 | A | B |
1 | 76,300 | 6,400 |
2 | 77,400 | 7,000 |
3 | 77,900 | 7,400 |
4 | 77,200 | 6,900 |
5 | 76,900 | 7,300 |
6 | 78,800 | 7,600 |
평균값 | 77,417 | 7,100 |
표준편차 | 861 | 429 |
변동계수 | 1.11 | 6.04 |
변동계수는 A 회사가 1.11, B 회사가 6.04로 월등히 높기 때문에, 변동계수만을 보고 판단한다면, B회사가 평균대비 편차가 심하기 때문에 B회사에 투자를 하는 것이 바람직하지 않다.
'AI' 카테고리의 다른 글
Statistics : 4-3 : 두 변수 자료의 요약 : 산점도 (0) | 2020.01.01 |
---|---|
Statistics : 4-2 : 두 변수 자료의 요약 : 분할표 (0) | 2020.01.01 |
Statistics : 10-2 : 통계적 추정 : 점추정 (0) | 2019.12.26 |
Statistics : 9-3 : 중심극한정리 (0) | 2019.12.26 |
Statistics : 9-1 : 모집단, 통계량, 모수 (0) | 2019.12.26 |
댓글