정의
기계가 훈련 단계에서 학습한 단어들을 모아놓은 걸을 단어 집합, Vocabulary 라고 한다.
test 단계에서 기계가 미처 학습못한 단어가 등장한다면, 이는 Out-Of-Vocabulary, OOV 라고 한다.
단어 분리는 (subword segmentation) 하나의 단어는 의미있는 여러 내부 단어들(subwords)의 조합으로 구성된 경우가 많으니, 여러 단어로 분리해사 단어를 이해보겠다는 것이 목표이다.
주로 Byte Pair Encoding(BPE), SentencePiece 두 개가 존재한다.
1. BPE
기존에 있던 단어를 분리한다는 의미다.
BPE을 요약하면, 글자(charcter) 단위 -> 집합(vocabulary)을 만들어 내는 Bottom up 방식의 접근을 사용한다.
우선 훈련 데이터에 있는 단어들을 모든 글자(chracters) 또는 유니코드(unicode) 단위로 단어 집합(vocabulary)를 만들고, 가장 많이 등장하는 유니그램을 하나의 유니그램으로 통합한다.
'AI' 카테고리의 다른 글
자연어처리 : 언어모델 : N-gram (0) | 2020.03.05 |
---|---|
자연어처리 : 언어 모델 (Language Model) (0) | 2020.03.05 |
자연어처리 : 텍스트 처리 : one-hot-encoding (0) | 2020.03.04 |
자연어처리 : 텍스트 처리 : 정수 인코딩 (Integer Encoding) (0) | 2020.03.04 |
자연어처리 : 텍스트 전처리 : 불용어처리 (Stopword) (0) | 2020.03.04 |
댓글