자연어처리 : 텍스트 처리 : one-hot-encoding
정의 '나', '는', '자연어', '처리', '를', '배운다' 라는 단어가 있다. 이를 하나씩 {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5} 라고 mapping을 한 후, 자연어의 one-hot-vector는 [0, 0, 1, 0, 0, 0] 이라고 나온다. 즉, 실제 그 단어가 해당하는 index 위치에 1을, 나머지는 0을 취하는 작업을 one-hot-encoding 기법이라 한다. keras를 이용한 one-hot-encoding # Tokenizer : 언어의 빈도수, index, number 만큼 cut하는 기능까지 from tensorflow.keras.preprocessing.text import Tokenizer # to_categori..
2020. 3. 4.