표제어 추출1 자연어처리 : 텍스트 전처리 : 정제 및 정규화 : 어간 추출 및 표제어 추출 (stemming & Lemmatization) 정의 정제 및 정규화 작업 중 포함되는 stemming, Lemmatization, 어간 추출 및 표제어 추출이다. stemming, Lemmatization 의 목표는 겉보기에는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것이 포인트다. 이러한 방법들은 단어의 빈도수를 기반으로 문제를 풀고자 하는 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용된다. 자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일이다. 형태소 정의 의미를 가진 가장 작은 단위 (morpheme) 1) 어간 (stem) 단어의 의미를 담고 있는 단어의 핵심 부분 2) 접사 .. 2020. 3. 4. 이전 1 다음