[청강] 딥러닝 13 - Language Model

방선생·2026년 1월 19일

청강

목록 보기
13/19

한양대학교 박서연 교수님 - github.io

(한양대학교 박서연 교수님의 딥러닝 수업을 청강 하면서 정리한 내용을 바탕으로 교수님의 허락을 받고 작성하였습니다.)


Language Model

Language_Model Code - GitHub


+ 오늘의 연구 코멘트

Sketch-of-Thought paper

  • prompting 관련 연구
    • VLM 오픈소스 중 대표적인 모델 llama, Qwen이 있는데 Qwen이 좀더 성능이 좋음
    • 대형 모델을 학습시켜야 할때 클라우드 서비스 이용하는 것도 방법임


Language Model

  • language modeling은 우리가 살고있는 세계의 언어 지식을 model에게 encodeing하는 것 → 자주보이는 sentence Probability를 그렇지 않은 Probability보다 높여가는 것
    • probability theory를 적용 → sentence를 하나의 unit으로 보는것이 아닌 timestep별로 쪼개서 Conditional Probability로 적용


(Neural) Language Modeling

  • 핵심은 현실 세계에서 자주 등장하는 sentence의 Probability를 높이는것
    • 즉, sequence에 대한 Conditional Probability를 높이는 것이 목표

(Left-to-Right) Language Models

  • autoregressive language model : 이전 token이 주어졌을때 다음 token의 probability 높이는 방법
    • ex) GPT series

(Masked) Language Models

  • Masked Language Model : sequence 안의 일부 token 위치를 랜덤하게 [MASK]로 가린 뒤, 주변 context를 보고 mask자리의 정답 probability를 prediction하도록 학습하는 방법
    • 양방향의 context를 모두 보고 prediction하도록 학습되기 때문에, text generation에 적합하지 않음
    • ex) BERT








  • 참고자료

BART Paper

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Paper

  • 대표적인 trasformer기반 Text Generation model
    • BERT는 Text Classification model (혹은 RoBERTa)
profile
AI & Robotics

0개의 댓글