Bootstrapping
> Bootstrapping의 의미는 복원추출이다. 즉, sampling을 하고 다시 넣는다. 중복으로 뽑힐 수도 있다.
> Bootstrapping 을 한다면 전체 데이터의 63%만 추출된다.
Bagging 과정
> Bootstrapping으로 sample들을 추출한다면 전체 데이터의 63%만 포함되기 때문에 남은 data들을 활용.
> 남은 data들을 validation처럼 활용하며, Error율을 계산한 후, Out-Of-Bag Error를 예측한다.
Bias vs Variance
2020/02/20 - [machine_learning/statistics] - Statisics : Bias vs Variance
Tree vs Bagging
- 깊이 성장한 Tree
- Bootstrapping을 하기 때문에, 학습데이터가 서로 다르기 때문에 data들의 차이를 말하는 분산이 증가한다.
- 또한 overfitting이 심하기 때문에 bias, 어느 특정한 예측값-실측값의 정도가 거의 0으로 수렴할 것이기에 이는 한쪽으로 치우쳐진 정도를 의미하는 편향, bias가 감소한다.
- Bagging
- 대체적으로 overfitting이 되어있는 Tree들로 구성이 되어있으니, 편향, bias는 유지한 상태
- 대수의 법칙이 적용되면서 학습데이터로 학습한 learner들의 예측값이 다르더라도, 전체적인 예측값은 다수결의 원칙에 의해 그 차이가 점점 줄어든다. 많은 데이터들을 cover하기 떄문이다. 따라서 분산이 감소하며, 학습데이터의 noise에 강건해진다.
- 단점은 모형해석의 어려움이 존재한다.
'AI' 카테고리의 다른 글
ML : Ensemble Learning : RandomForest (0) | 2020.02.20 |
---|---|
Statisics : Bias vs Variance (0) | 2020.02.20 |
ML : Ensemble Learning (0) | 2020.02.20 |
ML : Model : LDA vs SVM (4) | 2020.02.13 |
ML : Model : SVM 이란? / LDA vs SVM / SVM 정의 (0) | 2020.02.12 |
댓글