머신러닝/딥러닝 분야 특성을 고려한 라이센스 검토
Open-SourceLLM:모델의 자유로운 학습 및 상업화를 위한 필수 요소
민감 정보를 활용한 Finetune - 외부 ClosedLLM활용 불가능
LLM사전학습은 현실적 장벽 존재
동일 자원에서 모델 성능을 가장 높이는 학습 데이터 수와 모델 크기
관계식
⇒정해진 사전학습 예산 존재 시 모델 크기와 학습 데이터는 반비례 관계
밑 이미지에서 보이는 바와 같이 LLM 학습시 모델 크기별 최적의 학습데이터수 존재함.
LLaMA :Chinchilla Scaling Law 이상의 데이터 학습
LLM의 실제 서비스 활용을 위해선 Pretrain->SFT->RLHF의 3단계 학습
필수요건: 다양성, 적절성, 안정성
고품질의 Demonstration데이터를 확보할 수 있는 자동화된 데이터 구축 방법론
GPTAPI를 이용하여 데이터 구축(즉,GPT를 사용해서 자동화하겠다)
데이터 수집을 위한 초기 Prompt(Instruction)Pool확보
추가적인 Prompt생성 단계
-> 기존 Pool내 Prompt(Instruction+Input)8개를 샘플링하여 In-ContextLearning에 활용
생성된 Instruction의 분류문제 여부 판단 단계
고정된 In-ContextLearning(Instruction-tasklabel)이용
NonClassification 까지 포함되어야 함.
생성된 Instruction에 부합하는 답변(Instance)를 생성하는 단계
Self-Instruct를 통해 생성한 데이터를 이용한 SFT학습
-> HumanAnnotation데이터 없이 LLM에 대한 SFT학습 진행 가능
2023년 Stanford에서 발표한 LLMSFT학습 프로젝트
• Self-Instruct방식으로 생성한 데이터를 이용한 LLaMASFT학습
Alpaca:GPTAPI를 이용한 SFT데이터 생성 및 학습 프레임워크
-> Open-SourceLLM의 성능이 ClosedLLM과근접
평가 항목 | 기존 태스크 수행 능력 | LLM 평가 |
---|---|---|
평가 목적 | 모델의 해당 태스크 수행 능력 평가 | LLM의 범용 태스크 수행 능력 평가 |
평가 데이터 | 해당 태스크 데이터 | 범용적 능력 평가 데이터 |
평가 방법론 | 태스크 평가 파이프라인 및 계산 방법론 | 각 태스크별 상이한 평가 방법론 |
MMLU(MassiveMultitaskLanguageUnderstanding): LLM의 범용 태스크 수행 능력 평가용 데이터셋
HellaSwag:사람이 가지고 있는 상식 평가 데이터셋
HumanEval:LLM의 코드 생성 능력 평가 데이터셋
llm-evaluation-harness:자동화된 LLM평가 프레임워크
MMLU/HellaSwag/HELM등다양한 Benchmark 데이터를 이용한 평가 가능
1. K-ShotExample과 함께 LLM입력
2. 각 보기 문장을 생성할 확률 계산
3. 확률이 가장 높은 문장을 예측값으로 사용 → 정답 여부 확인
G-Eval:GPT-4를 이용한 생성문 평가 방법론
G-Eval:LLM의생성문(요약문)에 대한 특정 기준을 이용한 평가 가능