본문 바로가기
AI

DL : Keras texts_to_matrix 이해하기

by 월곡동로봇팔 2020. 3. 10.
texts_to_matrix()는 입력된 텍스트 데이터로부터 행렬(matrix)를 만드는 도구입니다. 
texts_to_matrx()는 총 4개의 모드를 지원하는데 각 모드는 'binary', 'count', 'freq', 'tfidf'로 총 4개입니다. 
우선 'count' 모드를 사용해봅시다.

word_index를 기준으로 texts들을 matrix로 바꾼다.
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

texts = ['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']

t = Tokenizer()
t.fit_on_texts(texts)
print(t.word_index)
print(t.texts_to_matrix(texts, mode = 'count')) # texts_to_matrix의 입력으로 texts를 넣고, 모드는 'count'
"""
{'바나나': 1, '먹고': 2, '싶은': 3, '사과': 4, '길고': 5, '노란': 6, '저는': 7, '과일이': 8, '좋아요': 9}
[[0. 0. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 2. 0. 0. 0. 1. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1.]]
"""

'AI' 카테고리의 다른 글

DL : Keras : 20개 뉴스 판별하기 project  (0) 2020.03.10
DL : Keras : Sequential vs Functional API  (0) 2020.03.10
DL : Keres 기초  (0) 2020.03.10
ML & DL : 오류 정리  (0) 2020.03.08
ML & DL : 오류를 막는 방법  (0) 2020.03.08

댓글