1) 수집 (acquisition)
model을 학습시키기 위해서는 data가 필요하다. 자연어 데이터를 말뭉치 또는 corpus 라고 부른다.
Corpus는 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말한다.
Corpus는 txt, csv, xml 등등 다양하다.
2) 점검 및 탐색 (Inspection and Exploration)
data를 수집했다면 점검하고 탐색하는 단계이다.
여기서는 데이터의 구조, 노이즈 데이터, 머신러닝 적용을 위해서 어떻게 data를 정제해야하는지를 파악한다.
이 단계를 탐색적 데이터 분석 (Exploration Data Analysis, EDA) 단계다. 이는 독립변수, 종속변수, 변수 유형, 변수의 데이터타입 등을 점검하며 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미한다.
3) 전처리 및 정제 (Preprocessing and Cleaning)
자연어처리 단계에서는 token화, 정제, 정규화, 불용어 제거 (stopwords) 단계이다.
까다로운 전처리의 경우에는 전처리 과정에서 머신러닝이 적용되기도 한다.
4) 모델링 및 훈련 (Modeling and Training)
데이터 전처리가 끝난 후, 적절한 머신러닝 모델은 선택하면 기계에 학습시킨다.
위처럼 dataset이 있을 때, training set, validation set, test set 세가지로 나눠서 검증을 하면 정확도가 올라간다.
5) 평가 (Evaluation)
test set을 넣어 평가를 한다.
6) 배포 (Deployment)
정확하다면 배포를 한다.
하지만, 배포단계에서 다시 수집 단계로 돌아갈 수도 있다.
'AI' 카테고리의 다른 글
자연어처리 : 텍스트 전처리 : 정제 및 정규화 (Cleaning & Normalization) (0) | 2020.03.04 |
---|---|
자연어처리 : 텍스트전처리 : 토큰화 (Tokenization) (0) | 2020.03.04 |
자연어처리 : FastText (0) | 2020.03.04 |
RL : Monte Carlo Tree Search (MCTS) (0) | 2020.02.25 |
자연어처리 : NLTK (0) | 2020.02.24 |
댓글