자연어 처리 : 카운트 기반의 단어 표현 : Bag of Words + DTM
1. Bag of words 란? (1) 정의 단어들의 출현 빈도에만 집중하는 text data 수치화 표현방법이다. 문장을 숫자로 표현, 가방 안에 순서 상관없이 문자를 모두 넣는다고 생각하자. (2) BoW 만드는 과정 문장을 입력하면, 단어들이 모두 포함된 단어들을 list 화 한 후, key 값에 맞는 단어들의 value를 증가해준다. 예를 들면, not good, not bad 경우에는 not이 2개, bad 1개, good 1개 로 [0, 0, 0, 0, 2, 1, 1] 이다. 이런식으로 여러 문장들의 단어 집합 리스트를 만들어서 test 문장을 하나씩 비교해보면 유사도 측정이 가능하다. (3) 유사도 비교 위 문장에서 awesome thank you, great thank you의 bag o..
2020. 3. 6.