본문 바로가기
AI

Statistics : 4-4 : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수

by 월곡동로봇팔 2020. 1. 1.

표본상관계수(Sample Correlation Coefficient)

 

정의

산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 표본상관계수이다.
두 변수 (x,y) 에 대하여 관측값 n개의 짝 (x1, y1), (x2, y2), ---- (xn,yn)이 주어질 때, 상관계수는 다음과 같이 계산.

표본상관계수 공식

특징

1. 표본상관계수 r은 -1 ~ 1 사이에 있다.
2. 표본상관계수는 크기는 얼마나 직선위에 있는지 직선관계 // 부호는 직선관계의 방향을 나타낸다.
-- r>0 : 양의 상관관계, 기울기가 양수이다.
-- r<0 : 음의 상관관계, 기울기가 음수이다.
-- r=1 : 모든 점이 정확히 기울기가 양수인 직선 위에 위치한다.
-- r=-1: 모든 점이 정확히 기울기가 음수인 직선 위에 위치한다.
-- r=0 : x, y 사이에 선형관계가 없다. 직선이 아니라는 것, (곡선일수도 있다.)

예시-1

위의 산점도의 상관계수는 0.897이다.

 

인과관계와 상관관계 (매우 중요 매우매우매우매우)

상관관계와 인과관계를 구분하는 것은 매우매우매우매우매우매우 중요하다.
이 때문에 결과가 달라지기 때문이다.

Q . 몇 개의 도시에서 매월 발생한 살인사건의 발생건수 x, 종교집회의 횟수 y를 조사하여 산점도를 작성하였다.

살인사건의 발생건수와 종교집회의 횟수 사이에는 r=1에 가까운 상관계수를 가지고 있다.
하지만 여기 이 두 변수 사이에 인과관계가 성립이 된다고 가정하면, 살인사건의 발생을 줄이기위하여, 종교집회를 억제해야한다는 결론이 나온다.

하지만 이는 제 3의 변수, 잠재변수인 "도시의 규모, 주민의 수"가 존재한다.
큰 도시에서는 살인사건도 많고 종교 집회도 많지만, 주민 수가 적은 도시에서는 둘 다 수가 적다.

따라서 두 변수의 높은 상관계수값은 주민 수의 따른 결과이지, 살인사건의 발생수와 종교집회의 높은 인과관계를 나타내는 것이 아니라는 것을 말한다.

결론

  • 상관관계는 두 변수가 연관성을 따지는 것이고, 제 3의 변수가 있을 수도 있다.
  • 인과관계는 원인이 존재하고 결과가 존재하는 것이다. "A 때문에 B가 발생한다" 라는 논리이다.
  • 상관관계는 인과관계를 나타내는 것이 아님을 무조건 알아야 한다.
  • 따라서 두 변수가 진짜 인과관계인지, 연관성만 높은 것인지를 결정하는 것은 추론이 아니라 두 변수에 대한 연관성이를 확인하기 위해서는 잠재변수를 모두 제거한 후, 상관관계를 지켜봐야한다.

댓글