본문 바로가기
AI

ML : Ensemble Learning : RandomForest

by 월곡동로봇팔 2020. 2. 20.

정의

RandomForest 정의

2020/01/02 - [machine_learning/statistics] - Statistics : 6-6 : 확률분포 : 공분산과 상관계수

 

Statistics : 6-6 : 확률분포 : 공분산과 상관계수

공분산 (확률변수에서 적용) 정의 > 두 개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도로서 (X-μx)(Y-μy).의 기댓값으로 정의된다. > Cov(X, Y) = E[(X-μx)(Y-μy)] = E(..

mambo-coding-note.tistory.com

공분산은 두 개의 class들이 서로 얼마나 상관관계가 있는지 치수로 보여준다. E[(X-μx)(X-μy)]

 

독립일 때는 서로 상관관계가 존재하지 않는다. Bagging을 복원추출하기 때문에 각각의 트리들을 독립하지 않고, 이는 공분산이 0이 아니라는 의미 (비슷한 tree구조가 만들어질 확률이 높다.) 이다. 따라서 Tree, base learner들이 많아짐에 따라 모델 전체의 분산이 증가하게 될 수도 있어 예측률을 떨어뜨릴 수 있다.

이 때, 모델의 분산을 줄여주는 RandomForeset 방법이 등장한다.

 

RandomForest Model

Model

  • Bagging은 모든 변수, 즉 모든 열을 다 포함해서 sampling을 했기 때문에 전체 model의 분산을 줄이기가 힘들었다.
  • RandomForest는 변수들을 특정 갯수로 추출하여 sampling을 하였기 때문에 전체 model의 분산을 줄이는데 톡톡한 공헌을 하였다.
  • hyperparameter 는 √n 개이다. 
  • 따라서 bagging의 단점인 전체 model의 분산이 커지는 부분을 보완하여 분산을 줄여줌으로써, 성능이 좋아진다.

 

 

'AI' 카테고리의 다른 글

RL : Monte Carlo Tree Search (MCTS)  (0) 2020.02.25
자연어처리 : NLTK  (0) 2020.02.24
Statisics : Bias vs Variance  (0) 2020.02.20
ML : Ensemble Learning : Bagging  (0) 2020.02.20
ML : Ensemble Learning  (0) 2020.02.20

댓글