본문 바로가기
AI

ML : 오차 vs 잔차

by 월곡동로봇팔 2020. 2. 1.

오차 (Error)

 

정의

> "모집단"에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이(정확치와 관측치의 차이)

종류

1) 정오차(constant error)

- 일정한 조건하에서 같은 방향 또는 같은 크기로 일어나는 오차

(1) 물리적 원인에 따른 오차

(2) 기계적 원인에 따른 오차

(3) 개인적 특성에 따른 오차

 

2) 우연오차(accident error)

- 관측 조건에 따라서 그때그때 나타나는 오차

3) 착오(mistake)

- 관측자의 부주의로 인한 오차


잔차(Residual)

 

정의

> "표본집단" 에서 관측값이 회귀선과 비교해볼 때 나타나는 차이

검증

1) 독립성 가정

- 선형회귀분석에서 종속변수가 시간 또는 위치에 영향을 받는 시계열데이터인 경우 이웃하는 관찰값들 사이에 상관관계가 있을 수 있음

- 따라서 이러한 데이터 set에서는 오차항들이 서로 독립적이라는 조건을 검토해보아야 함

- 이러한 상관을 자기상관(autocorrelated)이라고 하며, 자기상관은 한 시점의 오차항과 과거시점들의 오차항들과의 상관임

- 자기상관(독립성)을 알아보기 위해 주로 Durbin-Waston 통계량을 사용

 

2) 등분산성 가정

- 선형회귀분석에서는 오차항들의 분산이 일정하다고 가정하는데 이를 오차항의 등분산성이라 함

- 이러한 등분산성을 알아보기 위해 잔차플롯(산점도)을 활용함(자료 점들이 무작위적으로 고루 분포되어 있으면 등분산성 가정)

 

3) 정규성 가정

- 선형회귀분석에서는 오차항들의 정규성을 가정함

- 정규성을 측정하기 위해서 줄기잎그림을 그려보는 방법이 있고, 정규확률 산점도를 그려볼 수 도 있으며, Q-Q 도표, 콜모고르프 스미느로프 검정, 샤피로-윌크스 검정 등을 활용할 수 있음

결론

결국, 우리는 모집단에서 바로 오차를 알아내지 못하기에, 표본집단을 추출한 후, 잔차를 이용, 검증을 통해 잔차를 정의하고 이를 이용해 선형회귀를 사용한다.

 

https://m.blog.naver.com/PostView.nhn?blogId=jmzzang4004&logNo=100050479647&proxyReferer=https%3A%2F%2Fwww.google.com%2F

 

오차와 잔차

오차와 잔차 비교 Ⅰ. 오차 1. 오차(error)의 정의 - 모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는...

blog.naver.com

 

댓글