본문 바로가기

LDA5

자연어처리 : Topic Modeling : LDA (Latent Dirichlet Allocation) 1. Abstract Topic Modeling은 간단하게 말하자면, 문서의 집합에서 topic을 찾아내는 프로세스를 말합니다. 이는 검색엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용합니다. 나도 client들이 반응을 검색을 할 때, benzene, water은 시약이라는 주제를 알고, room temperature 는 조건, bial은 시약통 같은 topic들을 추려내서 내가 원하는 결과를 알도록 도와줄 수 있다. 2. LDA의 가정 LDA는 문서의 집합으로부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘입니다. LDA는 앞서 배운 빈도수 기반의 표현 방법인 BoW의 행렬 DTM 또는 TF-IDF 행렬을 입력으로 하는데, 이로부터 알 수 있는 사실은 LDA는 .. 2020. 3. 14.
ML : Model : LDA vs SVM Model 의 선택 : LDA vs SVM 왼쪽 같은 그림을 보고 우리는 선을 그어서 Classification을 할 수 있을거라고 판단을 할 것이다. 이 때, 우리는 LDA vs SVM 이라는 갈림길에 놓인다. 어떠한 선택을 할 것인가?? 우리는 LDA와 SVM의 성격을 알아야 한다. 장단점 / Model LDA SVM 장점 naive bayes 모델과 달리, 설명변수간의 공분산 구조를 반영 (애초에 확률모델에서 naive bayes를 쓴다) 가정이 위반되더라도 어느정도 robust (변화에 민감하지 않다). 데이터가 정규분포를 안 따른다면 covariance 구조를 고려하는 것은 비효율적이기에 정규분포를 안따라도 가능하다. -> LDA의 정규분포를 따라야 하는 단점을 보완가능 Boundary 근처의 .. 2020. 2. 13.
ML : Model : LDA 배경, 정의, LDA 응용 (QDA) Linear Discriminant Analysis (LDA) 배경 data가 특정 범주로 나눠질 때, 이를 선을 그어서 model을 만드는 것을 LDA라고 한다. 가정 각 숫자 집단은 "정규분포 형태의 확률분포"를 가진다. (μ, σ를 써야하기 때문에) 각 숫자 집단은 "비슷한 형태의 공분산 구조"를 가진다. 특징 Boundary Plane에 직교하는 단위벡터 : 자료들을 이 단위벡터에 정사영 시킨 분포의 형태를 고려. 평균의 차이를 극대화하려면? : 두 평균 vector (μ1 - μ2) 의 차이 벡터를 이용. 분산대비 평균의 차이를 극대화 하는 boundary를 찾는 것이 목표 정의 LDA의 확률모델은 log( fk(x)/ fl(x) ) + log(πk/πl) 이고, 0보다 크면 범주 k, 0보다 .. 2020. 2. 11.
ML : Model : LDA : 사영(Projection) 정사영 v의 u로 위로의 사영이며, proj u v이라고 말한다. 만약 u의 길이가 1 (u가 단위벡터라면), 위 벡터의 크기는 내적의 값과 일치한다. v의 벡터의 크기는 |u||v|/|u|**2 *u = |v|cosθu 이므로 |v|cosθ이다. v와 u의 내적의 크기는 |v||u|cosθ = u는 단위벡터이므로 내적의 크기는 |v|cosθ다. 정사영의 LDA 적용 목표 : 분산은 최소화하면서 평균을 최대화 하는 사영을 찾는 것. 가정 : a를 단위벡터라고 가정 사영된 자료 : x 자료들을 a 단위벡터로 정사영한 것이다. 이는 내적값과 동일하다. 사영된 평균 : μ1, μ2 를 m1, m2로 사영한 것. 대각선으로 사영한 것이다. μT * a 는 내적, 이는 스칼라 값을 가진다. 사영된 표본분산 : 다.. 2020. 2. 10.
ML : Model : LDA Math : 다변량 정규분포 정규분포 위는 정규분포의 함수이다. 밑은 이 변량 정규분포의 함수로, x1, x2 그룹(변수 X) 사이의 상관관계를 정의할 때, x1,x2로 한꺼번에 표현한 함수이다. 실제로 함수를 보면 표준편차를 상관계수를 넣어서 나눠줌으로써 상관관계가 작용함을 보여준다. 상관계수를 ρ라고 하고, ρ= cov(x1,x2)/σ1σ2 = E[(X1-μ1)(X2-μ2)]/σ1σ2 이다. 실제로 ρ가 작아짐에 따라 상관관계, 즉 그래프에서의 선형관계가 옅어짐을 확인할 수 있다. ρ = 0 이면 상관관계가 없고 서로 영향을 주지 않으므로, 이는 독립이다. 따라서 f(x1,x2) = f(x1)f(x2)이다. ρ = 1 이면 상관관계가 짙고 선형관계를 유지함을 알 수 있다. Σ-1의 이유 Σ는 Covariance Matrix 다... 2020. 2. 10.