modesta.log
로그인
modesta.log
로그인
LLM 사전학습 강의 by Upstage - 0. Introduction
jihyelee
·
2024년 8월 19일
팔로우
0
Language Model
딥러닝강의
0
language-model
목록 보기
14/16
강의 링크 (
link
)
Pretraining
(사전학습) 이란
모델을
대량의 코퍼스
를 이용해 학습
인풋 프롬프트가 주어지면,
다음 토큰을 예측
하도록 학습
사전(pre) 학습인 이유
사람의 선호에 맞도록(=human preferences alignment) 파인튜닝하거나
지시사항(=instruction)을 따르도록 파인튜닝하기 이전에 진행되는 학습과정
사전학습 케이스
랜덤하게 초기화된 가중치를 학습 (from-scratch)
사전학습된 모델을 자신의 데이터를 가지고 연속하여 사전학습 (continual)
사전학습의 어려움
비싼 연산 비용
몆 주 혹은 몇 달동안의 학습 필요
많은 수의 GPU 필요
이 때문에 대부분 파인튜닝을 진행하거나, 프롬프팅을 사용해 LLM 사용
(그럼에도 불구하고) 사전학습이 필요한 경우
특정 도메인에 맞는 언어모델이 필요한 경우
e.g. 법률, 헬스케어, 이커머스 등
특정 언어를 지원해야 하는 경우
e.g. 태국어, 일본어
Depth Upscaling
Upstage에서 Solar 모델을 학습할 때 사용한 방식
기존 언어모델들을 사용해 더 큰 언어모델을 만드는 기법
작은 사전학습 모델들의 레이어를 중복 사용
새로운 모델은
추가적으로 사전학습
진행
사전학습의 비싼 연산비용 절감 가능
최대 70% 절감 가능
꿀팁
사전학습 시 어느 정도의 연산 비용이 드는지
HuggingFace calculator
등에서 미리 계산해볼 수 있음
jihyelee
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab
팔로우
이전 포스트
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
다음 포스트
LLM 사전학습 강의 by Upstage - 1. 왜 사전학습이 필요한가?
0개의 댓글
댓글 작성
관련 채용 정보