binary classifier1 자연어처리 : 텍스트전처리 : 토큰화 (Tokenization) Text Preprocessing 자연어 처리에서는 우리가 쓸 수 있게 Tokenization, Cleaning, Normalization 하는 일을 하게 된다. 이 때, 주어진 corpus에서 token으로 나눈 작업은 tokenization이라 한다. 보통 의미있는 단위를 token으로 정의한다. 1. 단어 토큰화 (Word Tokenization) token의 기준을 word로 한 tokenization을 word tokenization이라 한다. 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주된다. 보통 토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않는다. 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리.. 2020. 3. 4. 이전 1 다음