자연어처리 : 절차적 단계가 뭘까?
1. Text 전처리 정규식 표현, stopwords 적용, nltk, 어간추출, 표제어 추출, 대소문자 변경 등등 여러가지 기법이 존재한다. 여기서 내가 이 단어를 어떻게 바꾸고, 없애고 할 것인지가 나중에 model의 performance에 영향을 줄 것 이다. 2. Sentence & Word 분류 2-1 count 기반의 기법 N-gram, BoW, DTM, TF-IDF 등등 여러가지 기법이 존재한다. 그리고 DTM을 기반으로 하는 cosine 유사도 및 유클리드 유서도, 잠재의미론적 추측법인 LSA가 존재한다. 2-2 예측 기반의 기법 Word2Vec : 앞뒤 단어들을 비교를 해 중심단어가 무엇이 올 것인지 or 중심단어를 입력해 주위 단어들이 어떤 단어들이 나올 것인지 예측하는 기법을 말한다...
2020. 3. 15.
Numpy : np.linalg.svd (SVD)
np.linalg : 선형대수 method가 담겨져있다. np.linalg.svd(A, full_matrices=True, compute_uv) full_metrics defualt=True, True일 경우, A가 (M,N)일 때 U = (M,M), V=(N,N) False일 경우, A가 (M,K)일 때, U=(M,K), V=(K,N), K = min(M,N) A = np.array([[0,0,0,1,0,1,1,0,0], [0,0,0,1,1,0,1,0,0], [0,1,1,0,2,0,0,0,0], [1,0,0,0,0,0,0,1,1]]) U, s, VT = np.linalg.svd(A, full_matrices=False) print('U : {}, \nU\'s shape : {}'.format(U.rou..
2020. 3. 12.