ML : Scikit-learn : Parameter & Atrribute & Method
요즘 대학원에서 연구생활을 하다보니, 코딩을 공부할 기회가 많이 적어지긴 했다.... 그러면서 동시에 포스팅에 너무 뜸해지다가, 다행히 수업 중 신경망입문을 들으면서 sklearn에 대해서 다시 자세히 배우는 것 같아 다행이다. 까먹기 전에, 그리고 중간고사가 닥치기 전에 미리미리 해두기 위해 오늘 블로그 포스팅을 미리 해두려 한다. 다른 블로그 포스팅을 보더라도, scikit-learn, sklearn에서 생성자로 쓰이는 파라미터들에 대한 설명이 자세히 없는 것 같아 내가 미리 적어두어서 나중에 사용하고자 한다. Parameter Perceptron( penalty=None, alpha=0.0001, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=Tru..
2020. 4. 15.
자연어처리 : Tagging Work
정의 태깅작업이란? 단어에 어떠한 종류의 단어인지, tagging을 하는 작업을 말한다. 개체명 인식기와 품사 태거를 만드는데, 이러한 두 작업의 공통점은 RNN의 다-대-다(Many-to-Many) 작업이면서 또한 앞, 뒤 시점의 입력을 모두 참고하는 양방향 RNN(Bidirectional RNN)을 사용한다는 점이다. 1. training data에 대한 이해 X와 y데이터의 쌍(pair)은 병렬 구조를 가진다는 특징을 가집니다. X와 y의 각 데이터의 길이는 같습니다. ['EU', 'rejects', 'German', 'call', 'to', 'boycott', 'British', 'lamb'] ['B-ORG', 'O', 'B-MISC', 'O', 'O', 'O', 'B-MISC', 'O'] 8 (..
2020. 3. 23.
DL : VAE (Variational AutoEncoder)
Supervised vs UnSupervised Supervised Unsupervised (x : data, y : label) -> data를 보고 labeling을 함. Just Data, X Classification, Regression, Object Detection, Semantic Segmentation, Image Captioning Clustering (K-mean), Dimension Reduction (PCA, 3차원 공간에 있는 data들을 성분분석을 통해 2차원 공간으로 내려서 봄.) Feature Learning (VAE, GAN : input data가 encoder NN을 통해 Feature Z라는 잠재변수를 만들고, Z를 이용해 다시 data를 만들어 처음 input da..
2020. 3. 18.
자연어처리 : 절차적 단계가 뭘까?
1. Text 전처리 정규식 표현, stopwords 적용, nltk, 어간추출, 표제어 추출, 대소문자 변경 등등 여러가지 기법이 존재한다. 여기서 내가 이 단어를 어떻게 바꾸고, 없애고 할 것인지가 나중에 model의 performance에 영향을 줄 것 이다. 2. Sentence & Word 분류 2-1 count 기반의 기법 N-gram, BoW, DTM, TF-IDF 등등 여러가지 기법이 존재한다. 그리고 DTM을 기반으로 하는 cosine 유사도 및 유클리드 유서도, 잠재의미론적 추측법인 LSA가 존재한다. 2-2 예측 기반의 기법 Word2Vec : 앞뒤 단어들을 비교를 해 중심단어가 무엇이 올 것인지 or 중심단어를 입력해 주위 단어들이 어떤 단어들이 나올 것인지 예측하는 기법을 말한다...
2020. 3. 15.