본문 바로가기

Workflow1

자연어처리 : 기본적인 Workflow 1) 수집 (acquisition) model을 학습시키기 위해서는 data가 필요하다. 자연어 데이터를 말뭉치 또는 corpus 라고 부른다. Corpus는 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말한다. Corpus는 txt, csv, xml 등등 다양하다. 2) 점검 및 탐색 (Inspection and Exploration) data를 수집했다면 점검하고 탐색하는 단계이다. 여기서는 데이터의 구조, 노이즈 데이터, 머신러닝 적용을 위해서 어떻게 data를 정제해야하는지를 파악한다. 이 단계를 탐색적 데이터 분석 (Exploration Data Analysis, EDA) 단계다. 이는 독립변수, 종속변수, 변수 유형, 변수의 데이터타입 등을 점검하며 데이터의 특징과 내재.. 2020. 3. 4.

이전 1 다음

티스토리툴바