자연어 처리
기계가 집중해야할 곳을 알려주는 매커니즘.구글에서 개발.언어의 경우 기계에 Attention을 어떻게 하는지 알아보겠다.
Bidirectional Encoder Representations from Transformers
2018년 ~ : BERT 등 transfer learning을 적용하는 pretrained 모델2019년 ~ : GPT-3 등 generation에 포커싱한 모델이 큰 축을 이루게 됨
음악 생성 모델
sigmoid / tanh / ReLU
중복 문자 및 불필요한 공백 제거
EleutherAI의 GPT-J, GPT-NeoX
Model Parallelism, Data Parallelism, Accelerate, DeepSpeed
1. 이루다 2. DPR 3. DR-BERT 4. BERT-FP
큰 모델을 한정된 자원에서 효율적으로 학습하는 법
accelerate에서 학습 tracking하기
LM 분산학습 오류
크면 local minima, 작으면 밖으로 나가버림
multi GPU로 LM 분산학습 중 에러
NLP 하다보면 모델이랑 데이터 너무 거대한데 한정된 자원으로 어떻게 돌릴 수 있을까
간단 비교