본문 바로가기
AI

자연어처리 : 텍스트 전처리 : 단어 분리하기 (BPE)

by 월곡동로봇팔 2020. 3. 5.

정의

기계가 훈련 단계에서 학습한 단어들을 모아놓은 걸을 단어 집합, Vocabulary 라고 한다.

test 단계에서 기계가 미처 학습못한 단어가 등장한다면, 이는 Out-Of-Vocabulary, OOV 라고 한다.

 

단어 분리는 (subword segmentation) 하나의 단어는 의미있는 여러 내부 단어들(subwords)의 조합으로 구성된 경우가 많으니, 여러 단어로 분리해사 단어를 이해보겠다는 것이 목표이다.

 

주로 Byte Pair Encoding(BPE), SentencePiece 두 개가 존재한다.


1. BPE

기존에 있던 단어를 분리한다는 의미다.

BPE을 요약하면, 글자(charcter) 단위 -> 집합(vocabulary)을 만들어 내는 Bottom up 방식의 접근을 사용한다.

우선 훈련 데이터에 있는 단어들을 모든 글자(chracters) 또는 유니코드(unicode) 단위로 단어 집합(vocabulary)를 만들고, 가장 많이 등장하는 유니그램을 하나의 유니그램으로 통합한다.

 

 

댓글