특정 문서 내 keyword 추출1 자연어 처리 : 카운트 기반의 단어 표현 : TF-IDF 1. 정의 (1) TF (Term Frequency) TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 위의 문장을 보면 car 의 TF 수치가 높은 것을 보아, car가 중요한 문장이다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 위 그림이 가설의 예시이다. 여기 문장에서 중요한 단어는 friend 이다. 하지만 TF 수치상으로는 a 도 중요하다. 이는 관용적으로 많이 쓰이는 말이고 연관성이 없다는 것 이다. (2) IDF (Inverse Document Frequency) 관용적인 표현이나 연관성이 없는 단어의 수치를.. 2020. 3. 6. 이전 1 다음