참고 사이트
https://ko.upstage.ai/feed/product/llm-evaluation-part1-benchmark-datasets
벤치마크 데이터셋이 필요한 이유는 무엇인가요?
2022년 말부터 대중이 이용할 수 있는 새로운 대규모 언어 모델(LLM)이 급증하고 있습니다. 여기저기서 새로운 LLM이 늘어나면서 어떤 모델이 좋은지 알아가기도 점점 더 어려워지고 있습니다. 그렇다면 어떤 모델이 정말 좋은 모델인지, 어떻게 알 수 있을까요?
벤치마크 데이터셋이란 무엇인가요?
벤치마크 데이터 세트는 LLM의 수능과 같습니다. 모델의 품질을 평가하기 위한 고정적이고 표준화된 접근 방식입니다. 이러한 학습 모델이 받은 점수를 통해 학습 모델의 성능을 파악하고 비교할 수 있으며, 더 나아가 학습 모델이 어떤 과목에 능숙한지 파악할 수 있습니다. 언어 처리 능력이 가장 뛰어난 무작위 모델 대신 특정 작업에 수학적 추론에 능숙한 모델을 사용하는 것이 더 현명할 수 있습니다.
기본적으로 언어 모델을 평가할 때에는 언어 모델의 핵심 능력인 "다음 단어를 예측하는 능력"을 봐야 합니다.
그 중 하나는 perplexity이며, 다음에 올 텍스트를 예측하는 모델의 능력을 측정합니다. Perplexity는 직역하면 "난해함의 정도"로 볼 수 있으며, 점수가 낮을수록 예측 정확도가 높음을 의미합니다. 이는 다음 단어를 예측하는 모델의 숙련도를 반영합니다. Perplexity는 훈련 중 모델의 진행 상황을 모니터링하고 출력의 기본 품질을 확인하는 데 유용하지만, 모델에 대한 종합적인 평가 지표로 볼 수는 없습니다.
Q. perplexity 에도 true sequence가 필요한가?
또 다른 측정 지표는 BLEU (이중 언어 평가 연구) 점수입니다. 이 점수는 언어모델의 출력이 사람이 작성한 텍스트에 얼마나 가까운지 평가하는 데 사용됩니다. 인간 참조 텍스트 (Human reference text)에 포함된 단어 수를 전체 단어 수로 나누어 계산하면 이 지표를 확인할 수 있습니다. BLEU 점수는 0에서 1까지이며, 점수가 1에 가까울수록 사람이 작성한 텍스트와 유사성이 높다는 것을 나타냅니다. 그러나 BLEU는 텍스트의 문맥을 고려하지 않기 때문에 한계가 있습니다. 예를 들어, 일상적인 문자 메시지와 공식적인 뉴스 기사는 서로 다른 언어적 접근 방식이 필요한데, BLEU 지표는 이 둘을 다르게 평가하지 않습니다. 따라서 기존의 평가 지표들만으로는 모든 영역과 업무에 걸쳐 언어모델을 평가하기는 어렵습니다.
Big 6 벤치마크 데이터셋 소개 :
ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k
KLUE라는 자연어 이해 평가 지표랑은 좀 다른게, 문맥 이해의 영역이고 우리가 평가하고자 하는건 생성의 성능 영역이라 이건 배제하는게 맞을 듯하다
BLEU는 어때? 기계번역 성능이라고는 하는데..