LM Pretraining
LM은 문장들의 확률로 계산하는 모델을 말한다.
NLP Task들이다. Task를 해결하기 위해 다음과 같이 이용한다.
GPT2 -> Transformer이고 unsupervised Learning이다.
Self-Attention (BERT) : order라는 context 기반으로
Masked-self-attention : Masked forward 방향으로 attention을 학습한다.
어떻게 하면 빠르고 안전하게 분산되어서 학습할 수 있을까? 가 집중했다.
1. corpus를 preprocessing 하지 않고,
2. 전체 epoch
3. fusing
??? 이해 안됨...찾아보기 이부분
KoBERT KoGPT --> github 에 있고 적용 바로 가능하다.
이미 pretrained 되어있는 모델을 바로 쓸 수 있으니까 장점이다.
챗봇같은 경우는 물어볼때마다 하나씩 답변해야한다는 단점, + 유저가 다 알고있어야한다고 가정해야한다.
한번에 입력하는 경우는 빼먹은 부분을 새로 detect해서 다시 알려달라고 한다.
댓글