241205 TIL #555 AI Tech #88 sLLM / LLM 평가 방법

김춘복·2024년 12월 5일
0

TIL : Today I Learned

목록 보기
557/575

Today I Learned

오늘 공부한 내용은 sLLM과 LLM 평가 방법에 대해서 배웠다.


sLLM

기존 LLM을 경량화한 AI 모델로, 자연어 처리 작업을 수행하면서도 더 적은 컴퓨팅 자원으로 효율적으로 운영될 수 있는 언어 모델

  • 매개변수 규모
    LLM: 수천억 개에서 조 단위의 매개변수
    sLLM: 수천만 개에서 수십억 개의 매개변수
  • 모델의 자유로운 학습과 상업화를 위해선 Open Source LLM이 필수적이다.
    사전훈련하는 데이터, 파라미터, 코드, llm 그 자체 모두 다 저작권 이슈가 있을 수 있다.
    그리고 기업 내부망의 경우 보안이슈로 인해 자체 내부망에서만 운영할 LLM도 외부 LLM을 쓸 수없다.

  • LLaMA
    Meta에서 만든 Open Source LLM. weight에 접근이 가능하고 상업화도 가능하다.
    공개적으로 사용 가능한 데이터셋만을 사용하여 학습했다.
    파라미터는 7~70B개

  • self-instruct
    LLM의 실제 활용을 위해선 Pretrain, SFT, RLHF의 단계가 필요하다.
    양질의 1만건 이상의 Demonstration Data가 필요한데 큰 인력과 비용이 소모된다.
    이를 절감하기 위해 self-instruct는 모델에게 demonstration을 스스로 구현하게 한다.
    초기 데이터만 사람의 개입으로 만들고 비슷한 과정을 스스로 만들게해서 그걸로 SFT 학습.

  • Alpaca
    2023년 스탠포드에서 발표한 LLM SFT 학습 프로젝트
    self-instruct 방식으로 생성된 데이터로 LLaMA SFT를 학습했다.


LLM 평가 방법

  • LLM은 특정 태스크에 대한 수행능력을 평가하는게 아니라, 범용 태스크 수행능력을 봐야한다.

  • 기본적으로 태스크 수행 능력과 안정성(편향, 위험발언 여부)을 체크한다.
    수행능력은 평가할 부분이 너무 광범위하고 안정성은 정의가 모호하다.

  • MMLU
    LLM의 범용 태스크 수행능력 평가용 데이터셋
    생물, 정치, 수학, 지리 등의 57가지 태스크를 객관식 형태로 평가한다.

  • llm-evaluation-harness
    자동화된 LLM 평가 프레임워크.
    MMLU, HellaSwag, HELM등 다양한 벤치마크 데이터를 이용한 평가가 가능하다.

  • G-Eval
    창의성과 다양성이 중요한 태스크에 활용하는 방식으로 창의적 글쓰기 능력을 평가한다.
    기반 모델로 GPT 4 같은 모델을 사용한다.

profile
Backend Dev / Data Engineer

0개의 댓글