표본상관계수(Sample Correlation Coefficient)
정의
산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 표본상관계수이다.
두 변수 (x,y) 에 대하여 관측값 n개의 짝 (x1, y1), (x2, y2), ---- (xn,yn)이 주어질 때, 상관계수는 다음과 같이 계산.
특징
1. 표본상관계수 r은 -1 ~ 1 사이에 있다.
2. 표본상관계수는 크기는 얼마나 직선위에 있는지 직선관계 // 부호는 직선관계의 방향을 나타낸다.
-- r>0 : 양의 상관관계, 기울기가 양수이다.
-- r<0 : 음의 상관관계, 기울기가 음수이다.
-- r=1 : 모든 점이 정확히 기울기가 양수인 직선 위에 위치한다.
-- r=-1: 모든 점이 정확히 기울기가 음수인 직선 위에 위치한다.
-- r=0 : x, y 사이에 선형관계가 없다. 직선이 아니라는 것, (곡선일수도 있다.)
예시-1
위의 산점도의 상관계수는 0.897이다.
인과관계와 상관관계 (매우 중요 매우매우매우매우)
상관관계와 인과관계를 구분하는 것은 매우매우매우매우매우매우 중요하다.
이 때문에 결과가 달라지기 때문이다.
Q . 몇 개의 도시에서 매월 발생한 살인사건의 발생건수 x, 종교집회의 횟수 y를 조사하여 산점도를 작성하였다.
살인사건의 발생건수와 종교집회의 횟수 사이에는 r=1에 가까운 상관계수를 가지고 있다.
하지만 여기 이 두 변수 사이에 인과관계가 성립이 된다고 가정하면, 살인사건의 발생을 줄이기위하여, 종교집회를 억제해야한다는 결론이 나온다.
하지만 이는 제 3의 변수, 잠재변수인 "도시의 규모, 주민의 수"가 존재한다.
큰 도시에서는 살인사건도 많고 종교 집회도 많지만, 주민 수가 적은 도시에서는 둘 다 수가 적다.
따라서 두 변수의 높은 상관계수값은 주민 수의 따른 결과이지, 살인사건의 발생수와 종교집회의 높은 인과관계를 나타내는 것이 아니라는 것을 말한다.
결론
- 상관관계는 두 변수가 연관성을 따지는 것이고, 제 3의 변수가 있을 수도 있다.
- 인과관계는 원인이 존재하고 결과가 존재하는 것이다. "A 때문에 B가 발생한다" 라는 논리이다.
- 상관관계는 인과관계를 나타내는 것이 아님을 무조건 알아야 한다.
- 따라서 두 변수가 진짜 인과관계인지, 연관성만 높은 것인지를 결정하는 것은 추론이 아니라 두 변수에 대한 연관성이를 확인하기 위해서는 잠재변수를 모두 제거한 후, 상관관계를 지켜봐야한다.
'AI' 카테고리의 다른 글
Statistics : 카이제곱분포 (0) | 2020.01.01 |
---|---|
Statistics : 확률분포들의 서로 얽혀있는 구조 (0) | 2020.01.01 |
Statistics : 4-3 : 두 변수 자료의 요약 : 산점도 (0) | 2020.01.01 |
Statistics : 4-2 : 두 변수 자료의 요약 : 분할표 (0) | 2020.01.01 |
Statistics : 3-3 : 백분위수 및 사분위수, 변동계수 (0) | 2020.01.01 |
댓글