LMSYS - Chatbot Arena Human Preference Predictions

Sooin Yoon·2025년 3월 30일

google link code : 링크텍스트
: LLM간의 채팅 응답 품질을 인간이 어떻게 평가하는지를 예측하는 데이터 과학 문제
즉, 인간이 어떤 응답을 더 선호할지 예측하는 모델을 만드는 것이 목표

Overview

This competition challenges you to predict which responses users will prefer in a head-to-head battle between chatbots powered by large language models (LLMs).
이번 대회 ~ 하는 것을 과제로 내세운다. 사용자들이 어떤 응답을 더 선호할지 예측하는 챗봇 사이의 1:1 대결에서 LLM로 구동되는
You'll be given a dataset of conversations from the Chatbot Arena, where different(여러종류의 LLM) LLMs generate answers to user prompts.
챗봇 아레나로부터 나온 대화들의 데이터 셋을 받을것이고 다른 LLM이 대답을 만들어 낸다 사용자 프롬프트에 대해
By developing a winning machine learning model, you'll help improve how chatbots interact with humans and ensure they better align with human preferences.
성공적인 머신러닝모델 ~~이기는 것~~을 발견하는 것이 개선하는데 도움을 준다 어떻게 챗봇이 인간과 상호작용을 하고 그리고 그들이 인간의 선호에 더 잘 맞도록(align with ~에 맞추다) 보장한다

Description

Large language models (LLMs) are rapidly entering our lives, but ensuring their responses resonate with users is critical for successful interaction.
LLMs는 빠르게 우리 생활로 들어오지만 그들의 반응(LLM)이 사용자에게 공감되독록 보장한는 것 중요하다 성공적인 상호작용을 위해
This competition presents a unique opportunity to tackle this challenge with real-world data and help us bridge the gap between LLM capability and human preference.
이 대회는 제시한다 독특한 기회를 실세계 데이터를 이 과제를 해결할수 있는 도움을 준다 우리에게 LLM 역량과 인간 선호도 사이의 차이의 다리 역할을 한다.
=> 실제 데이터를 활용해 이 문제를 해결하고 LLM의 역량과 인간 선호 사이의 간극을 좁히는데 기역할 수 있는 독특한 기회를 제공한다.
We utilized a large dataset collected from Chatbot Arena, where users chat with two anonymous LLMs and choose the answer they prefer.
챗봇 아레나로부터 모은 많은 데이터 셋을 활용했다 챗봇 아레나의 사용자들은 2명의 익명인 LLM과 이야기하고 그들이 선호가 답을 선택한다
Your task in this competition is to predict which response a user will prefer in these head-to-head battles.
이 대회에서 너의 일은 예측하는 것이다. 사용자의 반응이 더 선호하는지 이러한 1:1 대결에서
This challenge aligns with the concept of "reward models" or "preference models" in reinforcement learning from human feedback (RLHF).
이 도전은 인간 피드백 기반 강화학습(RLHF)서 보상모델 또는 선호 모델의 컨셉에 맞춘다.

Previous research has identified limitations in directly prompting an existing LLM for preference predictions.
이전 연구는 확인했다 제한을 직접적인 프롬프트를 주는 방식의 한계를 선호하는 예측의 기존에 존재하는 LLM에서
=> 이전 연구에서는 선호도 예측을 위한 기존 LLM에 직접 프롬프트를 입력하는 방식에 한계가 있음을 확인했음
These limitations often stem from(~에서 비롯하다) biases such as favoring responses presented first (position bias), being overly verbose (verbosity bias), or exhibiting self-promotion (self-enhancement bias).
이러한 제한은 종종 편향으로부터 비롯하다. 먼저 제시된 응답을 더 선호하는 경향, 지나치게 장황한 표현을 사용하는 경향, 자기 자신을 과하게 긍정적으로 표현하는 경향

We encourage you to explore various machine-learning techniques to build a model that can effectively predict user preferences.
우리는 장려한다 너에게 탐구하기를 다양한 머신러닝 기술을 효과적인 예측 사용자 선호를 위한 모델을 만들기위한

Your work will be instrumental in developing LLMs that can tailor responses to individual user preferences, ultimately leading to more user-friendly and widely accepted AI-powered conversation systems.
너의 작업은 핵심적인 역할을 할것이다 발전하는 LLM을 재단할수 있다 반응을 개인적인 사용자 선호에 대해 궁극적으로 더 사용자 친화적이고 넓게는 받아들일 것이다 AI기반의 대화 시스템을
=> 당신의 작업은 사용자 개인의 선호에 맞춰 응답을 조정할수있는 LLM 개발하는데 핵심적인 역할을 하며 궁극적으로 더 사용자 친화적이고 널리 받아들여지는 AI 기반 대화 시스템으로 이어질 것이다.

Evaluation

평가 방식: Multi-class classification (A가 우수 / B가 우수 / 무승부)
평가지표: average log loss
→ 모델이 세 클래스에 대해 예측한 확률 분포가 실제 정답에 얼마나 가까운지를 평가함

Dataset

columns:
- 'id' : 고유 식별자
- 'model_a' : A번 모델 이름
- 'model_b' : B번 모델 이름
- 'prompt' : 사용자 질문(입력 프롬프트)
- 'response_a' : A번 모델의 대답
- 'response_b' : B번 모델의 대답
- 'winner_model_a' : 사용자 투표(A번 모델이 이김 여부), 1(사람이 더 좋아함) or 0
- 'winner_model_b' :사용자 투표(B번 모델이 이김 여부), 1 or 0
- 'winner_tie' : 사용자 투표(둘 다 비슷함, 무승부 여부) 1(무승부) or 0
  (A가 이기면 [1,0,0] , 무승부면 [0,0,1] 각 row에 대해 세 클래스의 확률값 합이 1이 되도록 제출)

EDA

응답 길이 차이나 프롬프트 수가 많을수록 평가 결과가 특정 방향으로 치우치는 경향
무승부(Tie)는 전체 비율에서 많지 않음 → 불균형 클래스 처리 필요
동일한 prompt라도 평가 대상 모델 쌍에 따라 결과가 다양함
A와 B 모델의 답변 스타일, 어휘 다양성, 문장 길이 등이 품질 차이를 만들어냄

텍스트 전처리 & 통계적 feature engineering
문장 길이, 단어 길이, 반복도, 문장부호 밀도 등
LLM input text 구성
프롬프트 + 두 모델의 응답 + 통계 feature → 하나의 문자열로 조합
Tokenizer 및 Padding 처리
HuggingFace GemmaTokenizer 사용, 길이 분포 기반 배치 사이즈 동적 조절
모델 구성
Gemma2ForSequenceClassification + LoRA fine-tuned weights 적용
LoRA는 q_proj, v_proj 등 transformer attention module에 적용됨
멀티 GPU 추론
두 GPU에 각각 모델 로딩 후 ThreadPoolExecutor를 이용한 병렬 추론
결과 저장
각 샘플에 대해 A/B 승률과 Tie 확률을 예측하여 submission.csv 생성

Lesson Learned

단순 응답 품질은 길이, 반복도, 문장 패턴 등으로도 일정 부분 설명 가능
→ 통계 feature만으로도 초기 분류 성능 확보 가능
LLM 구조를 직접 fine-tuning 하기 어려운 경우, LoRA만 적용해도 좋은 성능 확보
→ weight-efficient training의 효과
멀티 GPU 활용 + 배치 동적 조절로 큰 입력 텍스트도 안정적으로 처리 가능
응답 순서, 프롬프트 타입, 스타일 지정 등이 모델의 예측 결과에 영향을 미친다
Soft Label (A, B, Tie) 분포를 잘 반영하는 loss & 모델 구조 선택이 중요하다
→ 단순 one-hot 분류가 아니라 soft target에 맞는 로짓 학습 필요

Sooin Yoon

이전 포스트

SQL grammer

다음 포스트