+ 오늘의 연구 코멘트
- prompting 관련 연구
- VLM 오픈소스 중 대표적인 모델 llama, Qwen이 있는데 Qwen이 좀더 성능이 좋음
- 대형 모델을 학습시켜야 할때 클라우드 서비스 이용하는 것도 방법임
Language Model
- language modeling은 우리가 살고있는 세계의 언어 지식을 model에게 encodeing하는 것 → 자주보이는 sentence Probability를 그렇지 않은 Probability보다 높여가는 것
- probability theory를 적용 → sentence를 하나의 unit으로 보는것이 아닌 timestep별로 쪼개서 Conditional Probability로 적용
(Neural) Language Modeling
- 핵심은 현실 세계에서 자주 등장하는 sentence의 Probability를 높이는것
- 즉, sequence에 대한 Conditional Probability를 높이는 것이 목표
(Left-to-Right) Language Models
- autoregressive language model : 이전 token이 주어졌을때 다음 token의 probability 높이는 방법
- ex) GPT series
(Masked) Language Models
- Masked Language Model : sequence 안의 일부 token 위치를 랜덤하게 [MASK]로 가린 뒤, 주변 context를 보고 mask자리의 정답 probability를 prediction하도록 학습하는 방법
- 양방향의 context를 모두 보고 prediction하도록 학습되기 때문에, text generation에 적합하지 않음
- ex) BERT
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Paper