1. Text 전처리
정규식 표현, stopwords 적용, nltk, 어간추출, 표제어 추출, 대소문자 변경 등등 여러가지 기법이 존재한다.
여기서 내가 이 단어를 어떻게 바꾸고, 없애고 할 것인지가 나중에 model의 performance에 영향을 줄 것 이다.
2. Sentence & Word 분류
2-1 count 기반의 기법
N-gram, BoW, DTM, TF-IDF 등등 여러가지 기법이 존재한다.
그리고 DTM을 기반으로 하는 cosine 유사도 및 유클리드 유서도, 잠재의미론적 추측법인 LSA가 존재한다.
2-2 예측 기반의 기법
Word2Vec : 앞뒤 단어들을 비교를 해 중심단어가 무엇이 올 것인지 or 중심단어를 입력해 주위 단어들이 어떤 단어들이 나올 것인지 예측하는 기법을 말한다. 이 때 LookUp table이라는 기법이 존재한다.
GloVe : count기반의 LSA 기법과 예측기반의 Word2Vec 기법을 합친 기법이 존재한다.
3. Language Model 정하기
처음 input Layer에 위의 여러 기법들 중 어떤 기법을 적용할지에 따라 내 language model은 달라진다.
(위의 embedding 기법을 적용해야 차원축소가 가능, 성능이 높아지게하는 원인이 된다.)
그리고 RNN을 적용할 것인지, LSTM을 적용할 것인지, GRU을 적용할 것인지에 따라 또 Language model은 달라진다.
또한 VAE를 적용할 것인지 GAN을 적용할 것인지에 따라 내가 새로운 data를 만들어 쓸 수 있다.
'AI' 카테고리의 다른 글
DL : VAE Reference (0) | 2020.03.18 |
---|---|
DL : Entropy, Cross Entropy (0) | 2020.03.18 |
자연어처리 : Word Embedding : Glove (Global Vectors for Word Representation, GloVe) (0) | 2020.03.15 |
자연어처리 : Word Embedding : Word2Vec, CBOW, Skip-Gram, Negative Sampling (0) | 2020.03.14 |
자연어처리 : Topic Modeling : LDA (Latent Dirichlet Allocation) (0) | 2020.03.14 |
댓글