공분산 (확률변수에서 적용)
정의
> 두 개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도로서 (X-μx)(Y-μy).의 기댓값으로 정의된다.
> Cov(X, Y) = E[(X-μx)(Y-μy)] = E(XY) - μxμy (E가 붙으면 확률함수가 붙는다고 생각하자. μxE(Y) = μxμy )
특징
> X, Y가 ++ or -- 로 같은 방향으로 변화할 때, 공분산 값은 양수가 될 것이다.
> X, Y가 +- or -+ 로 다른 방향으로 변화할 때, 공분산 값은 음수가 될 것이다.
> 이는 두 확률변수의 관계의 방향을 나타내게 된다.
> 확률변수에 상수배를 하면 -> Cov(aX, bY) = abCov(X, Y)
상관계수
2020/01/01 - [ML/statistics] - Statistics : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수
상관계수에 대해서는 그 전에서 posting을 하였다. 자세한 부분은 이 게시글을 참조하면 좋을 것 같다.
간단히 상관계수에 대해서 말하면, 상관계수는 데이터들의 분포가 선형에 얼마나 가까운지를 알려주면서 두 데이터들의 상관관계의 정도를 알려주는 수치이다.
상관계수에서 공분산을 쓰는 이유
> 공분산은 X,Y가 상호 어떤관계를 가지며 변화하는가를 보여주는 척도이다.
> 공분산은 X, Y의 관계에 영향을 받을 뿐 아니라 그것들이 퍼져있는 정도에도 영향을 받는다.
> 따라서 상관계수는 공분산에 각 X, Y의 표준편차를 나눠줘서 퍼져있는 정도에 영향을 줄인다. 따라서 두 확률변수의 관계를 측정하는 척도로써 제안될 수 있다.
> Corr (X,Y) = Cov(X, Y) / σxσy
'AI' 카테고리의 다른 글
Statistics : 7-3 : 이항분포 (0) | 2020.01.04 |
---|---|
Statistics : 7-2 : 베르누이 시행 (0) | 2020.01.04 |
Statistics : 6-1, 6-2 : 확률분포 : 확률변수 (0) | 2020.01.02 |
Statistics : 5-5 : 독립사건 vs 배반사건 (0) | 2020.01.02 |
Statistics : 카이제곱분포 (0) | 2020.01.01 |
댓글