word_counts1 자연어처리 : 텍스트 처리 : 정수 인코딩 (Integer Encoding) 정의 컴퓨터는 text보다는 number를 더 잘 처리한다. 따라서 text를 number로 바꾸는 작업을 하기도 한다. 단어를 정수에 mapping시키는 전처리 작업을 해야한다. index 부여방법은 빈도수가 높은 단어들만 사용하기 위해서 단어에 대한 빈도수를 기준으로 정렬한 뒤 부여한다. text를 숫자로 바꾸는 작업 전에는 전처리 단계가 모두 끝나있어야 한다. 1. 정수 인코딩 (Integer Encoding) 1) Dictionary 이용 dictionary 사용해서 문장 토큰화 및 정제작업을 거친 단어 토큰화 진행 dict에는 중복을 제거한 단어와 각 단어에 대한 빈도수가 기록 빈도수 높은 단어 -> 낮은 index 부여 빈도수 낮은 단어들을 Out-Of-Vocabulary, OOV 로 다시 m.. 2020. 3. 4. 이전 1 다음