자연어처리 : 절차적 단계가 뭘까?

정규식 표현, stopwords 적용, nltk, 어간추출, 표제어 추출, 대소문자 변경 등등 여러가지 기법이 존재한다.

여기서 내가 이 단어를 어떻게 바꾸고, 없애고 할 것인지가 나중에 model의 performance에 영향을 줄 것 이다.

N-gram, BoW, DTM, TF-IDF 등등 여러가지 기법이 존재한다.

그리고 DTM을 기반으로 하는 cosine 유사도 및 유클리드 유서도, 잠재의미론적 추측법인 LSA가 존재한다.

Word2Vec : 앞뒤 단어들을 비교를 해 중심단어가 무엇이 올 것인지 or 중심단어를 입력해 주위 단어들이 어떤 단어들이 나올 것인지 예측하는 기법을 말한다. 이 때 LookUp table이라는 기법이 존재한다.

GloVe : count기반의 LSA 기법과 예측기반의 Word2Vec 기법을 합친 기법이 존재한다.

처음 input Layer에 위의 여러 기법들 중 어떤 기법을 적용할지에 따라 내 language model은 달라진다.

(위의 embedding 기법을 적용해야 차원축소가 가능, 성능이 높아지게하는 원인이 된다.)

그리고 RNN을 적용할 것인지, LSTM을 적용할 것인지, GRU을 적용할 것인지에 따라 또 Language model은 달라진다.

또한 VAE를 적용할 것인지 GAN을 적용할 것인지에 따라 내가 새로운 data를 만들어 쓸 수 있다.

DL : VAE Reference (0)	2020.03.18
DL : Entropy, Cross Entropy (0)	2020.03.18
자연어처리 : Word Embedding : Glove (Global Vectors for Word Representation, GloVe) (0)	2020.03.15
자연어처리 : Word Embedding : Word2Vec, CBOW, Skip-Gram, Negative Sampling (0)	2020.03.14
자연어처리 : Topic Modeling : LDA (Latent Dirichlet Allocation) (0)	2020.03.14

월곡동 로봇팔의 대학원일지