ML : Machine Learning 개념과 종류 : 개념과 종류
정의 머신러닝은 f(x)라는 함수, 머신러닝 알고리즘을 만들어 X라는 입력변수를 받으면 Y라는 종속변수를 출력하는 과정이다. 또한 회귀분석의 경우 모집단을 잘 알지 못하기 때문에, 학습데이터만 추출하여 추정하는 머신러닝 알고리즘을 만든다. 예시 지도학습 vs 비지도학습 지도학습 (Supervised) 비지도학습 (UnSupervised) Y = F(x) 일 때, Y는 연속형 변수, X는 연속 or 이산형 변수, F는 회귀모형 Y는 이산형 변수(class), X는 연속 or 이산형 변수, F는 분류모형 출력변수는 존재하지 않고, 입력 변수 (X) 간의 관계에 대해 모델링을 하는 것. 회귀모형, 분류모형 군집분석(유사데이터), PCA(독립변수들의 차원축소화) ML의 종류 선형 회귀분석 (Linear Regr..
2020. 3. 7.
자연어 처리 : 문서 유사도 : 유클리드, 코사인, 자카드
1. Euclidean Distance Similarity 좌표를 word들이라고 가정을 해보자. (5,1)과 다른 단어들을 유사도 측정을 해볼 때, 거리는 피타고라스 정리로 구할 수 있다. 여기서 거리가 짧으면 단어들끼리 유사도가 높고, 거리가 길면 단어들끼리 유사도가 낮다고 판단한다. import numpy as np def dist(x,y): return np.sqrt(np.sum((x-y)**2)) doc1 = np.array((2,3,0,1)) doc2 = np.array((1,2,3,1)) doc3 = np.array((2,1,2,2)) docQ = np.array((1,1,0,1)) print(dist(doc1,docQ)) print(dist(doc2,docQ)) print(dist(doc3..
2020. 3. 6.
자연어 처리 : 카운트 기반의 단어 표현 : Bag of Words + DTM
1. Bag of words 란? (1) 정의 단어들의 출현 빈도에만 집중하는 text data 수치화 표현방법이다. 문장을 숫자로 표현, 가방 안에 순서 상관없이 문자를 모두 넣는다고 생각하자. (2) BoW 만드는 과정 문장을 입력하면, 단어들이 모두 포함된 단어들을 list 화 한 후, key 값에 맞는 단어들의 value를 증가해준다. 예를 들면, not good, not bad 경우에는 not이 2개, bad 1개, good 1개 로 [0, 0, 0, 0, 2, 1, 1] 이다. 이런식으로 여러 문장들의 단어 집합 리스트를 만들어서 test 문장을 하나씩 비교해보면 유사도 측정이 가능하다. (3) 유사도 비교 위 문장에서 awesome thank you, great thank you의 bag o..
2020. 3. 6.
자연어처리 : 카운트 기반의 단어 표현
단어의 표현 방법 국소 표현 (Local Representation) : 단어 그 자체만을 보고 특정 값에 mapping 하는 방법 ex) puppy -> a[0], cute ->a[1], lazy ->a[2], turtle -> a[3] 분산 표현 (Distributed Representation) : 단어 주변을 참고하여 단어를 표현하는 방법 ex) puppy와 cute는 상관관계가 존재, 따라서 vector(1,0), (0.9,0.1) // turtle와 lazy는 vector (0,1), (0.1, 0.9) 구조 우리는 자연어처리에서 예측을 기반으로하는 FastText를 주로 학습할 것이고, 예측과 카운트 두 가지 방법이 모두 사용된 GloVe를 학습할 것이다.
2020. 3. 6.