오차 (Error)
정의
> "모집단"에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이(정확치와 관측치의 차이)
종류
1) 정오차(constant error)
- 일정한 조건하에서 같은 방향 또는 같은 크기로 일어나는 오차
(1) 물리적 원인에 따른 오차
(2) 기계적 원인에 따른 오차
(3) 개인적 특성에 따른 오차
2) 우연오차(accident error)
- 관측 조건에 따라서 그때그때 나타나는 오차
3) 착오(mistake)
- 관측자의 부주의로 인한 오차
잔차(Residual)
정의
> "표본집단" 에서 관측값이 회귀선과 비교해볼 때 나타나는 차이
검증
1) 독립성 가정
- 선형회귀분석에서 종속변수가 시간 또는 위치에 영향을 받는 시계열데이터인 경우 이웃하는 관찰값들 사이에 상관관계가 있을 수 있음
- 따라서 이러한 데이터 set에서는 오차항들이 서로 독립적이라는 조건을 검토해보아야 함
- 이러한 상관을 자기상관(autocorrelated)이라고 하며, 자기상관은 한 시점의 오차항과 과거시점들의 오차항들과의 상관임
- 자기상관(독립성)을 알아보기 위해 주로 Durbin-Waston 통계량을 사용
2) 등분산성 가정
- 선형회귀분석에서는 오차항들의 분산이 일정하다고 가정하는데 이를 오차항의 등분산성이라 함
- 이러한 등분산성을 알아보기 위해 잔차플롯(산점도)을 활용함(자료 점들이 무작위적으로 고루 분포되어 있으면 등분산성 가정)
3) 정규성 가정
- 선형회귀분석에서는 오차항들의 정규성을 가정함
- 정규성을 측정하기 위해서 줄기잎그림을 그려보는 방법이 있고, 정규확률 산점도를 그려볼 수 도 있으며, Q-Q 도표, 콜모고르프 스미느로프 검정, 샤피로-윌크스 검정 등을 활용할 수 있음
결론
결국, 우리는 모집단에서 바로 오차를 알아내지 못하기에, 표본집단을 추출한 후, 잔차를 이용, 검증을 통해 잔차를 정의하고 이를 이용해 선형회귀를 사용한다.
'AI' 카테고리의 다른 글
ML : Model : K-Nearest-Neighbor, KNN (0) | 2020.02.09 |
---|---|
ML : Model : (Gaussian) Naive Bayes Classifier (0) | 2020.02.09 |
ML&DL : train, validation, test 데이터로 나누기 (0) | 2020.02.01 |
ML&DL : 정규성, 독립성, 등분산성 검증 (0) | 2020.02.01 |
Statistics : 14-1, 2 : 분산분석 (0) | 2020.01.22 |
댓글