dispersion_plot1 자연어처리 : NLTK NLTK (Natural Language ToolKit) NLTK 란? nltk는 파이썬 자연어 처리 패키지로 Classfication (분류) Tokenization (단어를 쪼개다) Stemming(형태소 분석) tagging (품사를 달다) parsing (어구를 나누다) semantic reasoning(의미론적 추리, 이 단어가 어떠한 의미를 가지고 있는지, 문장에서 중요한 의미인지) 이렇게 6가지를 구사할 수 있다. tokenize 자연어 문서를 분석하기 위해서는 우선 긴 문자열을 분석을 위한 작은 단위로 나누어야 한다. 이 문자열 단위를 토큰(token)이라고 하고 이렇게 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 한다. 영문의 경우에는 문장, 단어 등을 토큰으로 .. 2020. 2. 24. 이전 1 다음