본문 바로가기
AI

자연어처리 : 절차적 단계가 뭘까?

by 월곡동로봇팔 2020. 3. 15.

1. Text 전처리

정규식 표현, stopwords 적용, nltk, 어간추출, 표제어 추출, 대소문자 변경 등등 여러가지 기법이 존재한다.

여기서 내가 이 단어를 어떻게 바꾸고, 없애고 할 것인지가 나중에 model의 performance에 영향을 줄 것 이다.

 

2. Sentence & Word 분류

2-1 count 기반의 기법

N-gram, BoW, DTM, TF-IDF 등등 여러가지 기법이 존재한다.

 

그리고 DTM을 기반으로 하는 cosine 유사도 및 유클리드 유서도, 잠재의미론적 추측법인 LSA가 존재한다.

2-2 예측 기반의 기법

Word2Vec : 앞뒤 단어들을 비교를 해 중심단어가 무엇이 올 것인지 or 중심단어를 입력해 주위 단어들이 어떤 단어들이 나올 것인지 예측하는 기법을 말한다. 이 때 LookUp table이라는 기법이 존재한다.

GloVe : count기반의 LSA 기법과 예측기반의 Word2Vec 기법을 합친 기법이 존재한다.

 

3. Language Model 정하기

처음 input Layer에 위의 여러 기법들 중 어떤 기법을 적용할지에 따라 내 language model은 달라진다.

(위의 embedding 기법을 적용해야 차원축소가 가능, 성능이 높아지게하는 원인이 된다.)

그리고 RNN을 적용할 것인지, LSTM을 적용할 것인지,  GRU을 적용할 것인지에 따라 또 Language model은 달라진다.

 

또한 VAE를 적용할 것인지 GAN을 적용할 것인지에 따라 내가 새로운 data를 만들어 쓸 수 있다.

댓글