정규 및 정규화1 자연어처리 : 텍스트 전처리 : 정제 및 정규화 (Cleaning & Normalization) 정의 앞에서 corpus를 용도에 맞게 token으로 분류하는 것을 tokenization이라고 했다. tokenization이 이루어지기 전에, text data를 용도에 맞게 정제 및 정규화 (Cleaning & Normalization)하는 일이 항상 함께한다. 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. token화 작업 전, 후로 계속 이루어진다. 보통 완벽하게 정제는 하지 못하며 일종의 합의점을 찾기도 한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 가령, USA = US 하나의 단어로 정규화해볼 수 있다. uh-huh = uhhuh는 형태는 다르지만 여전히.. 2020. 3. 4. 이전 1 다음