본문 바로가기

tf-idf2

자연어 처리 : TF-IDF 활용해 문서의 유사도 구하기 How to get document similarity? Cosine Similarity on Bag of Words Cosine similarity on with Bag of Words Back of Words 먼저 문장들을 back of words를 해서 벡터로 구현한다. d4와의 유사도를 검증을 위해, cosine similarity를 한다. (d4는 d4와 비교하였기 때문에 유사도 1) 이 때, d1이 가장 비슷하다고 나왔다. 하지만 american restaurant의 메뉴가 궁금하기 때문에 search 잘못함. -> TD-IDF로 검증한다. Back of Words + TF-IDF 위의 table은 TF-IDF로 구현한 table이다. Back of Words는 문장간의 반복적인 관용구들을 배.. 2020. 3. 6.
자연어 처리 : 카운트 기반의 단어 표현 : TF-IDF 1. 정의 (1) TF (Term Frequency) TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 위의 문장을 보면 car 의 TF 수치가 높은 것을 보아, car가 중요한 문장이다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 위 그림이 가설의 예시이다. 여기 문장에서 중요한 단어는 friend 이다. 하지만 TF 수치상으로는 a 도 중요하다. 이는 관용적으로 많이 쓰이는 말이고 연관성이 없다는 것 이다. (2) IDF (Inverse Document Frequency) 관용적인 표현이나 연관성이 없는 단어의 수치를.. 2020. 3. 6.