배경
LSA : count 기반
LSA는 DTM이나 TF-IDF 행렬과 같이 각 문서에서의 각 단어의 빈도수를 카운트 한 행렬이라는 전체적인 통계 정보를 입력으로 받아 차원을 축소(Truncated SVD)하여 잠재된 의미를 끌어내는 방법론이었습니다.
LSA는 카운트 기반으로 코퍼스의 전체적인 통계 정보를 고려하기는 하지만, 왕:남자 = 여왕:? (정답은 여자)와 같은 단어 의미의 유추 작업(Analogy task)에는 성능이 떨어집니다.
Word2Vec : 예측 기반
Word2Vec는 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄이며 학습하는 예측 기반의 방법론이었습니다.
Word2Vec는 예측 기반으로 단어 간 유추 작업에는 LSA보다 뛰어나지만, 임베딩 벡터가 윈도우 크기 내에서만 주변 단어를 고려하기 때문에 코퍼스의 전체적인 통계 정보를 반영하지 못합니다.
GloVe는 이러한 기존 방법론들의 각각의 한계를 지적하며, LSA의 메커니즘이었던 카운트 기반의 방법과 Word2Vec의 메커니즘이었던 예측 기반의 방법론 두 가지를 모두 사용합니다.
또한 Word2Vec, GloVe 모두 써보고 제일 좋은 성능으로 써야한다.
나머지 원리는 너무 어려워서 여기서 익히자.
'AI' 카테고리의 다른 글
DL : Entropy, Cross Entropy (0) | 2020.03.18 |
---|---|
자연어처리 : 절차적 단계가 뭘까? (0) | 2020.03.15 |
자연어처리 : Word Embedding : Word2Vec, CBOW, Skip-Gram, Negative Sampling (0) | 2020.03.14 |
자연어처리 : Topic Modeling : LDA (Latent Dirichlet Allocation) (0) | 2020.03.14 |
자연어 처리 : Topic Modeling : 잠재의미분석 (LSA) (2) | 2020.03.12 |
댓글