본문 바로가기

자연어처리3

DL : RNN (Recurrent Neural Network) 1. RNN 등장 배경 피드 포워드 신경망은 입력의 길이가 고정되어 있어 자연어 처리를 위한 신경망으로는 한계가 있었습니다. 결국 다양한 길이의 입력 시퀀스를 처리할 수 있는 인공 신경망이 필요 (RNN의 재귀함수 같은 동작때문, time_step...)하게 되었는데, 자연어 처리에 대표적으로 사용되는 인공 신경망인 RNN, LSTM 이 생긴다. 2. RNN 정의 다양한 길이의 입력 시퀀스를 처리할 수 있는 인공 신경망이다. 또한 은닉층의 노드에서 활성화함수를 통해 나온 결과값을 출력층 방향으로 내보내면서, 다시 은닉층의 노드의 다음 계산의 입력을 보내지는 특징을 가진다. RNN cell, Memory cell 은닉층에서 활성화함수를 통해 결과를 내보내는 역할을 하는 노드를 cell이라 한다. Hidde.. 2020. 3. 10.
자연어처리 : 기본적인 Workflow 1) 수집 (acquisition) model을 학습시키기 위해서는 data가 필요하다. 자연어 데이터를 말뭉치 또는 corpus 라고 부른다. Corpus는 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말한다. Corpus는 txt, csv, xml 등등 다양하다. 2) 점검 및 탐색 (Inspection and Exploration) data를 수집했다면 점검하고 탐색하는 단계이다. 여기서는 데이터의 구조, 노이즈 데이터, 머신러닝 적용을 위해서 어떻게 data를 정제해야하는지를 파악한다. 이 단계를 탐색적 데이터 분석 (Exploration Data Analysis, EDA) 단계다. 이는 독립변수, 종속변수, 변수 유형, 변수의 데이터타입 등을 점검하며 데이터의 특징과 내재.. 2020. 3. 4.
Python : basic : 문자열 (re) re, 정규식 표현 (개 중요~) 텍스트 데이터를 다루다 보면 텍스트에서 일정한 패턴을 찾아야 할 때가 있다. 패턴이란 이메일 주소 형식, ‘한글 문자 연속 세 개’, ‘열 자리 숫자’ 등 텍스트가 배열된 규칙을 뜻한다. 이처럼 텍스트의 패턴을 나타내는 텍스트를 정규식(regular expression)이라고 부른다. 어떤 텍스트에서 지정한 패턴이 발견될 때 ‘텍스트에 패턴이 매치한다’라고 한다. 패턴 매치를 활용하면 텍스트가 올바른 형식인지, 텍스트에 어떤 내용이 포함되어 있는지 등을 확인할 수 있다. 예를 들어, 사용자가 입력한 이메일 주소가 올바른 형식인지 검사하거나, 문서에서 한글이 몇 자이고 알파벳이 몇 자인지 셀 수도 있다. 정규식은 텍스트를 다루는 대부분의 프로그램에서 유용하게 활용된다. 정.. 2019. 11. 22.