LLM 사전학습 강의 by Upstage - 0. Introduction

jihyelee·2024년 8월 19일

Language Model 딥러닝강의

0

language-model

목록 보기

14/16

강의 링크 (link)

Pretraining (사전학습) 이란

모델을 대량의 코퍼스를 이용해 학습
인풋 프롬프트가 주어지면, 다음 토큰을 예측하도록 학습

사전(pre) 학습인 이유

사람의 선호에 맞도록(=human preferences alignment) 파인튜닝하거나
지시사항(=instruction)을 따르도록 파인튜닝하기 이전에 진행되는 학습과정

사전학습 케이스

랜덤하게 초기화된 가중치를 학습 (from-scratch)
사전학습된 모델을 자신의 데이터를 가지고 연속하여 사전학습 (continual)

사전학습의 어려움

비싼 연산 비용
- 몆 주 혹은 몇 달동안의 학습 필요
- 많은 수의 GPU 필요
이 때문에 대부분 파인튜닝을 진행하거나, 프롬프팅을 사용해 LLM 사용

(그럼에도 불구하고) 사전학습이 필요한 경우

특정 도메인에 맞는 언어모델이 필요한 경우
- e.g. 법률, 헬스케어, 이커머스 등
특정 언어를 지원해야 하는 경우
- e.g. 태국어, 일본어

Depth Upscaling

Upstage에서 Solar 모델을 학습할 때 사용한 방식
기존 언어모델들을 사용해 더 큰 언어모델을 만드는 기법
- 작은 사전학습 모델들의 레이어를 중복 사용
- 새로운 모델은 추가적으로 사전학습 진행
사전학습의 비싼 연산비용 절감 가능
- 최대 70% 절감 가능

꿀팁

사전학습 시 어느 정도의 연산 비용이 드는지 HuggingFace calculator 등에서 미리 계산해볼 수 있음

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

이전 포스트

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

다음 포스트

LLM 사전학습 강의 by Upstage - 1. 왜 사전학습이 필요한가?

0개의 댓글

관련 채용 정보