본문 바로가기
AI

Statistics : 3-2 : cf) 평균값과 표준편차를 이용한 데이터 분석

by 월곡동로봇팔 2019. 12. 21.

한 dataset 중에 있는 어떤 data가 갖는 의미

내 점수가 85점이라고 할 때, 위의 그림을 A 학급, B 학급이라고 하자.

 

만약 A 학급이라면, 표준편차가 B 학급보다는 작다. 따라서 내 점수는 평균에서 많이 멀어져 있고, 다른사람들도 평균에서 머물러있다는 뜻이므로, 내 점수는 가치가 높다.

만약 B 학급이라면, 표준편차가 A 학급보다는 크다. 따라서 점수 분포가 평균에서 다들 많이 떨어져있으므로, 고득점의 사람들도 A 학급보다는 많다는 의미이기 때문에, 내 점수의 가치는 낮다.

위의 그림처럼, dataset이 만약에 정규분포에 가깝다면???

평균점수에서 표준편차만큼 높은 정도의 경우는 특수하다고 볼 수 없지만, 평균점수에서 표준편차보다 2, 3배만큼 큰 경우는 특수하다고 볼 수 있다.

"특수하다"는 것은 전체 범위의 2.5% 안에 드는 데이터 이기 때문에, 이는 특수한 경우라고 볼 수 있다.

 

여러 dataset을 서로 비교해서 나타내는 차이

평균값 : 60 평균값 : 50
표준편차 : 10 표준편차 : 30
50~70점, 안정된 점수. 20~80점, 불안정한 점수
일률적으로는 80점 대학을 가지는 못함. 일률적으로는 80점 대학을 갈 수 있음.

둘은 "공부를 잘하는 것"이라는 서열적인 평가가 아니라 "성질이 다른 것"으로 평가할 수 있다.

즉, 평균점수만 보면, 평균값 60점이 공부를 잘하는 것 처럼 보이지만, 일률적으로는 그렇지 않다고 볼 수 있다.

 

예시 : 주가

내가 투자하려고 하는 주가가 월평균수익률 평균값은 2.5%이다.

근데 만약 표준편차가 9%라면, 월평균수익률 평균값은 11.5%~-6.5% 내외로 발견된다.

즉, 주가에서의 표준편차는 리스크를 나타내면서 기회를 나타내는 지표가 되기도 한다.

 

예시 : 하이리스크 하이리턴

예시2

예시 2처럼, "평균수익률이(리턴)이 크다면, 표준편차(리스크)가 크다"는 것을 알 수 있다.

 

따라서 (로우 리스크, 로우 리턴), (하이 리스크, 하이 리턴) 관계를 가질 때, 우리는 어떤 상품이 좋다는 것을 판단할까?

예시3

예시 3을 보면, 4개의 점이 찍혀있는 직선으로 생각했을 때, 14.2 를 가르키는 두개의 점이  존재한다.

왼쪽이 P, 오른쪽이 A라 할 때, P는 A보다 표준편차가 작기 때문에, 더 안정적이고, 우월한 상품임을 알 수 있다.

따라서 "직선상의 위의 점들은 직선 상의 어떤 상품보다도 가치가 높은 상품이며, 직선상의 아래의 점들은 직선 상의 어떤 상품보다도 가치가 낮은 상품이다." 를 증명할 수 있다.

 

cf) 샤프지수

리턴/리스크 = tan(샤프지수)

P는 A보다 각이 크고, 샤프지수가 높은 것을 의미, 우량화 기업임을 알 수 있다.

 

댓글