본문 바로가기
AI

Statistics : 선형회귀 : 잔차의 검토

by 월곡동로봇팔 2020. 1. 14.

잔차 or 독립변수와 예측값의 산점도

정상인 경우

정상

예측값의 산점도가 위와 같이 random 하게 퍼져있는 경우에는, 정상적인 선형회귀임을 알 수 있다.

 

비선형성인 경우

비선형성인 경우

잔차와 예측값의 분포가 2차형태를 나타내므로, 이를 해결하는 방법으로는 이차항을 추가시키는 것이다.

등분산성이 아닌 경우

등분산성이 아닌경우

잔차와 예측값의 산점도가 일정한 분산을 가지고 있지 않고, 일정하게 분산이 증가하는 방향으로 분포가 생겼다.

이를 해결하는 방법으로는 변수변환 (log, 1/x 등등) 이 있다.

 


오차의 정규성 검정

잔차는 정규분포를 따른다고 되어있다.

2020/01/13 - [ML/statistics] - Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정

 

Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정

회귀분석 목적 1. 변수들이 서로 관련이 있는가? 2. 관련이 있다면 얼마나 밀접하게 관련이 있는가? 3. 관심이 있는 변수의 값을 그 외 다른 변수의 값으로부터 예측할 수 있는가? (머신러닝의 목적) 독립변수 &..

mambo-coding-note.tistory.com

위의 포스팅에 잔차는 정규분포를 따르는 부분을 자세히 적어놨다. 

 

따라서 잔차의 정규성을 검정하기 위해, 우리는 정규확률그림을 도입한다.

2020/01/07 - [ML/statistics] - Statistics : 정규분포가정의 조사

 

Statistics : 정규분포가정의 조사

정규점수 (normal scores) 정의 > 표준정규분포에서의 이상적인 표본을 말한다. > 표준정규분포의 확률밀도함수를 등확률구간으로 나누어 주는 경계값, Z의 의미를 말한다. 정규확률그림 (normal probability plot..

mambo-coding-note.tistory.com

정규확률그림에 대한 부분은 위에서 포스팅 해놓았다.


오차의 독립성 검정

비독립성인 경우

비독립성

회귀모형의 가장 중요한 가정은 오차 εi가 서로 독립이라는 점이다. 이는 잔차가 정규분포를 따르는 것으로 알 수 있는 부분이다.

 

오차가 서로 독립이 아닌 경우는 여러가지가 있다. 예를 들어, 물가 주식가격과 같이 시간에 따라 관측값을 얻는 경우, 관측값의 순서를 임의로 정할 수 없기 때문에, 오차εi가 독립이라는 가정이 위배되는 경우가 있다. 또한 연속적인 시점에서 자료가 수집이 될 경우 독립의 가정이 위배된다.

 

바로 위 산점도를 보면, ei ei-1와의 산점도다.

만약 ei-1이 줄어드는데 ei가 같이 줄어들고 서로 상관관계가 있다고 하면, 이는 독립성이 위배된다고 알 수 있다.

만약 ei-1이 줄어들던 말던 ei는 상관없는 다른 값을 가르키면, 이는 독립성이 보장된 것을 알 수 있다.

 

위의 그래프를 보자. 일정한 패턴을 보이므로, 독립성을 만족하지 않는다.

대부분 시계열 자료일 경우에 이런 분포가 나온다. 

따라서 시계열 모형을 쓰거나, 시계열 분석에서 자기회귀 오차가 있는 회귀분석을 이용해야 한다.

댓글