본문 바로가기
AI

ML : Ensemble Learning : Bagging

by 월곡동로봇팔 2020. 2. 20.

Bootstrapping

> Bootstrapping의 의미는 복원추출이다. 즉, sampling을 하고 다시 넣는다. 중복으로 뽑힐 수도 있다.
> Bootstrapping 을 한다면 전체 데이터의 63%만 추출된다.

Bagging 과정

Bagging

> Bootstrapping으로 sample들을 추출한다면 전체 데이터의 63%만 포함되기 때문에 남은 data들을 활용.
> 남은 data들을 validation처럼 활용하며, Error율을 계산한 후, Out-Of-Bag Error를 예측한다.

Bias vs Variance

2020/02/20 - [machine_learning/statistics] - Statisics : Bias vs Variance

 

Statisics : Bias vs Variance

Bias Bias는 "data들이 한 쪽에 치우쳐져 있는 정도"를 말한다. 쉽게 생각하면 딥러닝에서 X*W + b 에서 b가 bias이다. bias는 X*W를 공간적으로 보면 평행이동하는 것으로 해석할 수 있다. 즉, 평행이동을 한다..

mambo-coding-note.tistory.com


Tree vs Bagging

Tree vs Bagging

  • 깊이 성장한 Tree
  • Bootstrapping을 하기 때문에, 학습데이터가 서로 다르기 때문에 data들의 차이를 말하는 분산이 증가한다. 
  • 또한 overfitting이 심하기 때문에 bias, 어느 특정한 예측값-실측값의 정도가 거의 0으로 수렴할 것이기에 이는 한쪽으로 치우쳐진 정도를 의미하는 편향, bias가 감소한다.
  • Bagging
  • 대체적으로 overfitting이 되어있는 Tree들로 구성이 되어있으니, 편향, bias는 유지한 상태
  • 대수의 법칙이 적용되면서 학습데이터로 학습한 learner들의 예측값이 다르더라도, 전체적인 예측값은 다수결의 원칙에 의해 그 차이가 점점 줄어든다. 많은 데이터들을 cover하기 떄문이다. 따라서 분산이 감소하며, 학습데이터의 noise에 강건해진다.
  • 단점은 모형해석의 어려움이 존재한다.

'AI' 카테고리의 다른 글

ML : Ensemble Learning : RandomForest  (0) 2020.02.20
Statisics : Bias vs Variance  (0) 2020.02.20
ML : Ensemble Learning  (0) 2020.02.20
ML : Model : LDA vs SVM  (4) 2020.02.13
ML : Model : SVM 이란? / LDA vs SVM / SVM 정의  (0) 2020.02.12

댓글