잔차 or 독립변수와 예측값의 산점도
정상인 경우
예측값의 산점도가 위와 같이 random 하게 퍼져있는 경우에는, 정상적인 선형회귀임을 알 수 있다.
비선형성인 경우
잔차와 예측값의 분포가 2차형태를 나타내므로, 이를 해결하는 방법으로는 이차항을 추가시키는 것이다.
등분산성이 아닌 경우
잔차와 예측값의 산점도가 일정한 분산을 가지고 있지 않고, 일정하게 분산이 증가하는 방향으로 분포가 생겼다.
이를 해결하는 방법으로는 변수변환 (log, 1/x 등등) 이 있다.
오차의 정규성 검정
잔차는 정규분포를 따른다고 되어있다.
2020/01/13 - [ML/statistics] - Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정
위의 포스팅에 잔차는 정규분포를 따르는 부분을 자세히 적어놨다.
따라서 잔차의 정규성을 검정하기 위해, 우리는 정규확률그림을 도입한다.
2020/01/07 - [ML/statistics] - Statistics : 정규분포가정의 조사
정규확률그림에 대한 부분은 위에서 포스팅 해놓았다.
오차의 독립성 검정
비독립성인 경우
회귀모형의 가장 중요한 가정은 오차 εi가 서로 독립이라는 점이다. 이는 잔차가 정규분포를 따르는 것으로 알 수 있는 부분이다.
오차가 서로 독립이 아닌 경우는 여러가지가 있다. 예를 들어, 물가 주식가격과 같이 시간에 따라 관측값을 얻는 경우, 관측값의 순서를 임의로 정할 수 없기 때문에, 오차εi가 독립이라는 가정이 위배되는 경우가 있다. 또한 연속적인 시점에서 자료가 수집이 될 경우 독립의 가정이 위배된다.
바로 위 산점도를 보면, ei ei-1와의 산점도다.
만약 ei-1이 줄어드는데 ei가 같이 줄어들고 서로 상관관계가 있다고 하면, 이는 독립성이 위배된다고 알 수 있다.
만약 ei-1이 줄어들던 말던 ei는 상관없는 다른 값을 가르키면, 이는 독립성이 보장된 것을 알 수 있다.
위의 그래프를 보자. 일정한 패턴을 보이므로, 독립성을 만족하지 않는다.
대부분 시계열 자료일 경우에 이런 분포가 나온다.
따라서 시계열 모형을 쓰거나, 시계열 분석에서 자기회귀 오차가 있는 회귀분석을 이용해야 한다.
'AI' 카테고리의 다른 글
Statistics : 7-8 : 감마분포 (0) | 2020.01.16 |
---|---|
Statistics : 7-7 : 기하분포 (0) | 2020.01.16 |
Statistics : 회귀분석 : 선형관계의 강도 (0) | 2020.01.14 |
Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정 (0) | 2020.01.13 |
Statistics : 정규모집단에서의 추론 : t 분포 (0) | 2020.01.11 |
댓글