SLM1 자연어처리 : 언어모델 : N-gram 정의 SLM의 일종이지만, 단어 고려를 모든 단어를 고려하는 것이 아닌, n개로 정한 갯수만 고려한다. 1. corpus에서 카운트하지 못하는 경우의 확률 감소 SLM의 한계는 훈련 코퍼스에 확률을 계산하고 싶은 문장이나 단어가 없을 수 있다는 점이다. 또한 확률을 계산하고 싶은 문장이 길어질수록 갖고있는 코퍼스에서 그 문장이 존재하지 않을 가능성이 높다. 따라서 참고하는 단어를 줄이면, 즉 n을 설정해주면 카운트 가능성이 높아진다. P(is|An adorable little boy) ≈ P(is|boy), P(is|An adorable little boy) ≈ P(is|little boy) 즉, 앞 단어 중 임의의 개수만 포함해서 카운트하여 근사하자는 뜻이다. 2. N-gram unigrams : an.. 2020. 3. 5. 이전 1 다음