NLTK2 자연어처리 : Tagging Work : NER (Named Entity Recognition) 정의 개체명인식 (Named Entity Recognition)은 말 그대로 단어가 " 어떤 이름을 가진 개체로 인식 " 하는것을 말한다. 그 단어가 어떤 유형의 단어를 뜻하는지를 말한다. 개체명인식은 보통 텍스트의 전처리가 끝난 이후에 적용된다. NLTK를 이용한 개체명 인식(Named Entity Recognition using NTLK) NLTK에서는 개체명 인식기(NER chunker)를 지원하고 있다. from nltk import word_tokenize, pos_tag, ne_chunk sentence = "James is working at Disney in London" sentence=pos_tag(word_tokenize(sentence)) print(sentence) # 토큰화와 품.. 2020. 3. 23. 자연어처리 : NLTK NLTK (Natural Language ToolKit) NLTK 란? nltk는 파이썬 자연어 처리 패키지로 Classfication (분류) Tokenization (단어를 쪼개다) Stemming(형태소 분석) tagging (품사를 달다) parsing (어구를 나누다) semantic reasoning(의미론적 추리, 이 단어가 어떠한 의미를 가지고 있는지, 문장에서 중요한 의미인지) 이렇게 6가지를 구사할 수 있다. tokenize 자연어 문서를 분석하기 위해서는 우선 긴 문자열을 분석을 위한 작은 단위로 나누어야 한다. 이 문자열 단위를 토큰(token)이라고 하고 이렇게 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 한다. 영문의 경우에는 문장, 단어 등을 토큰으로 .. 2020. 2. 24. 이전 1 다음