오늘 공부한 내용은 sLLM과 LLM 평가 방법에 대해서 배웠다.
기존 LLM을 경량화한 AI 모델로, 자연어 처리 작업을 수행하면서도 더 적은 컴퓨팅 자원으로 효율적으로 운영될 수 있는 언어 모델
모델의 자유로운 학습과 상업화를 위해선 Open Source LLM이 필수적이다.
사전훈련하는 데이터, 파라미터, 코드, llm 그 자체 모두 다 저작권 이슈가 있을 수 있다.
그리고 기업 내부망의 경우 보안이슈로 인해 자체 내부망에서만 운영할 LLM도 외부 LLM을 쓸 수없다.
LLaMA
Meta에서 만든 Open Source LLM. weight에 접근이 가능하고 상업화도 가능하다.
공개적으로 사용 가능한 데이터셋만을 사용하여 학습했다.
파라미터는 7~70B개
self-instruct
LLM의 실제 활용을 위해선 Pretrain, SFT, RLHF의 단계가 필요하다.
양질의 1만건 이상의 Demonstration Data가 필요한데 큰 인력과 비용이 소모된다.
이를 절감하기 위해 self-instruct는 모델에게 demonstration을 스스로 구현하게 한다.
초기 데이터만 사람의 개입으로 만들고 비슷한 과정을 스스로 만들게해서 그걸로 SFT 학습.
Alpaca
2023년 스탠포드에서 발표한 LLM SFT 학습 프로젝트
self-instruct 방식으로 생성된 데이터로 LLaMA SFT를 학습했다.
LLM은 특정 태스크에 대한 수행능력을 평가하는게 아니라, 범용 태스크 수행능력을 봐야한다.
기본적으로 태스크 수행 능력과 안정성(편향, 위험발언 여부)을 체크한다.
수행능력은 평가할 부분이 너무 광범위하고 안정성은 정의가 모호하다.
MMLU
LLM의 범용 태스크 수행능력 평가용 데이터셋
생물, 정치, 수학, 지리 등의 57가지 태스크를 객관식 형태로 평가한다.
llm-evaluation-harness
자동화된 LLM 평가 프레임워크.
MMLU, HellaSwag, HELM등 다양한 벤치마크 데이터를 이용한 평가가 가능하다.
G-Eval
창의성과 다양성이 중요한 태스크에 활용하는 방식으로 창의적 글쓰기 능력을 평가한다.
기반 모델로 GPT 4 같은 모델을 사용한다.