glove1 자연어처리 : Word Embedding : Glove (Global Vectors for Word Representation, GloVe) 배경 LSA : count 기반 LSA는 DTM이나 TF-IDF 행렬과 같이 각 문서에서의 각 단어의 빈도수를 카운트 한 행렬이라는 전체적인 통계 정보를 입력으로 받아 차원을 축소(Truncated SVD)하여 잠재된 의미를 끌어내는 방법론이었습니다. LSA는 카운트 기반으로 코퍼스의 전체적인 통계 정보를 고려하기는 하지만, 왕:남자 = 여왕:? (정답은 여자)와 같은 단어 의미의 유추 작업(Analogy task)에는 성능이 떨어집니다. Word2Vec : 예측 기반 Word2Vec는 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄이며 학습하는 예측 기반의 방법론이었습니다. Word2Vec는 예측 기반으로 단어 간 유추 작업에는 LSA보다 뛰어나지만, 임베딩 벡터가 윈도우 크기 내에서만 주변 단어를.. 2020. 3. 15. 이전 1 다음