본문 바로가기
AI

Statistics : 6-6 : 확률분포 : 공분산과 상관계수

by 월곡동로봇팔 2020. 1. 2.

공분산 (확률변수에서 적용)

 

정의

> 두 개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도로서 (X-μx)(Y-μy).의 기댓값으로 정의된다.
> Cov(X, Y) = E[(X-μx)(Y-μy)] =  E(XY) - μxμy (E가 붙으면 확률함수가 붙는다고 생각하자. μxE(Y) = μxμy )

특징

> X, Y가 ++ or -- 로 같은 방향으로 변화할 때, 공분산 값은 양수가 될 것이다.
> X, Y가 +- or -+ 로 다른 방향으로 변화할 때, 공분산 값은 음수가 될 것이다.
> 이는 두 확률변수의 관계의 방향을 나타내게 된다.
> 확률변수에 상수배를 하면 -> Cov(aX, bY) = abCov(X, Y)

상관계수

2020/01/01 - [ML/statistics] - Statistics : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수

 

Statistics : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수

표본상관계수(Sample Correlation Coefficient) 정의 > 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 표본상관계수이다. 두 변수 (x,y) 에 대하여 관측값 n개의 짝 (x1, y1), (x2..

mambo-coding-note.tistory.com

상관계수에 대해서는 그 전에서 posting을 하였다. 자세한 부분은 이 게시글을 참조하면 좋을 것 같다.

 

간단히 상관계수에 대해서 말하면, 상관계수는 데이터들의 분포가 선형에 얼마나 가까운지를 알려주면서 두 데이터들의 상관관계의 정도를 알려주는 수치이다.

 

상관계수에서 공분산을 쓰는 이유

> 공분산은 X,Y가 상호 어떤관계를 가지며 변화하는가를 보여주는 척도이다.
> 공분산은 X, Y의 관계에 영향을 받을 뿐 아니라 그것들이 퍼져있는 정도에도 영향을 받는다.
> 따라서 상관계수는 공분산에 각 X, Y의 표준편차를 나눠줘서 퍼져있는 정도에 영향을 줄인다. 따라서 두 확률변수의 관계를 측정하는 척도로써 제안될 수 있다.

> Corr (X,Y) = Cov(X, Y) / σxσy

 

댓글