LLM 사전학습 강의 by Upstage - 0. Introduction

jihyelee·2024년 8월 19일
0

language-model

목록 보기
14/16

강의 링크 (link)

Pretraining (사전학습) 이란

  • 모델을 대량의 코퍼스를 이용해 학습
  • 인풋 프롬프트가 주어지면, 다음 토큰을 예측하도록 학습

사전(pre) 학습인 이유

  • 사람의 선호에 맞도록(=human preferences alignment) 파인튜닝하거나
  • 지시사항(=instruction)을 따르도록 파인튜닝하기 이전에 진행되는 학습과정

사전학습 케이스

  • 랜덤하게 초기화된 가중치를 학습 (from-scratch)
  • 사전학습된 모델을 자신의 데이터를 가지고 연속하여 사전학습 (continual)

사전학습의 어려움

  • 비싼 연산 비용
    • 몆 주 혹은 몇 달동안의 학습 필요
    • 많은 수의 GPU 필요
  • 이 때문에 대부분 파인튜닝을 진행하거나, 프롬프팅을 사용해 LLM 사용

(그럼에도 불구하고) 사전학습이 필요한 경우

  • 특정 도메인에 맞는 언어모델이 필요한 경우
    • e.g. 법률, 헬스케어, 이커머스 등
  • 특정 언어를 지원해야 하는 경우
    • e.g. 태국어, 일본어

Depth Upscaling

  • Upstage에서 Solar 모델을 학습할 때 사용한 방식
  • 기존 언어모델들을 사용해 더 큰 언어모델을 만드는 기법
    • 작은 사전학습 모델들의 레이어를 중복 사용
    • 새로운 모델은 추가적으로 사전학습 진행
  • 사전학습의 비싼 연산비용 절감 가능
    • 최대 70% 절감 가능

꿀팁

  • 사전학습 시 어느 정도의 연산 비용이 드는지 HuggingFace calculator 등에서 미리 계산해볼 수 있음
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보