본문 바로가기
AI

ML : Model : LDA vs SVM

by 월곡동로봇팔 2020. 2. 13.

Model 의 선택 : LDA vs SVM

왼쪽 같은 그림을 보고 우리는 선을 그어서 Classification을 할 수 있을거라고 판단을 할 것이다.

 

이 때, 우리는 LDA vs SVM 이라는 갈림길에 놓인다.

 

어떠한 선택을 할 것인가??

 

우리는 LDA와 SVM의 성격을 알아야 한다.

 

 

 

장단점 / Model LDA SVM
장점
  • naive bayes 모델과 달리, 설명변수간의 공분산 구조를 반영 (애초에 확률모델에서 naive bayes를 쓴다)
  • 가정이 위반되더라도 어느정도 robust (변화에 민감하지 않다).
  • 데이터가 정규분포를 안 따른다면 covariance 구조를 고려하는 것은 비효율적이기에 정규분포를 안따라도 가능하다. -> LDA의 정규분포를 따라야 하는 단점을 보완가능
  • Boundary 근처의 관측치만을 고려할 수 있음
  • 예측의 정확도가 다른 Model 들 보다 높다. (Error를 포함해서 만들기 때문에 Overfitting이 덜하다.)
  • 고차원에서 모두 효과적
  • 차원 수 > 데이터 수 일때도 효과적이다.
  • 커널 함수 customizing 가능 (커널 함수는 데이터를 고차원으로 매핑하여 선형분리하는 것으로 여러종류가 있다.) 
단점
  • 가장 작은 그룹의 샘플 수가 설명변수의 개수보다 많아야 함.
  • 정규분포 가정에 크게 벗어난다면, 잘 설명하지 못한다.
  • 공분산 구조가 서로 다른 경우를 반영하지 못한다.
  • Model에서 C를 사용자가 정의를 해줘야한다.
  • C를 정해줘야 해서 Model 구축에 시간이 오래걸린다.
  • 차원의 저주가 생긴다.
  • 데이터가 너무 많으면 속도가 느리고 메모리적으로 힘들다.
  • 확률 추정치를 제공하지 않고 5분할 교차검증을 사용하여 소비 리소스가 큼.

댓글