교육 플랫폼의 발전은 개인화 교육의 중요성을 강조하고 있습니다.
학생 그룹의 능력에 기반하여 문제 난이도를 정확하게 추정하는 것은 굉장히 중요한 문제입니다.
여러 연구들은 학생들의 문제 풀이 기록이나 문제의 텍스트 정보를 활용해 문제 난이도를 예측하는 데 중점을 두었습니다.
하지만 이러한 방법은 많은 양의 학생에게 문제 풀이 기록을 요구하고 서로 다른 학생 그룹이 주관적으로 느끼는 난이도의 차이를 반영하지 못한다는 한계가 있습니다.
기존의 있는 문제점을 해결하기 위해 다양한 수준의 학생을 표현하기 위해 대규모 언어 모델을 활용한 LLaSA 프레임워크를 제안합니다.
Coursera와 Udemy와 같은 온라인 학습 플랫폼의 발전은 최근 개인화 교육의 중요성을 강조하고 있습니다.
방대한 교육 문제 데이터를 활용하여 학생들에게 적합한 난이도의 문제를 추천합니다.
학생들은 자신의 능력 수준에 맞는 문제를 풀며 효과적으로 학습할 수 있습니다 . 학생들의 능력 수준에 맞는 문제를 제공하려면 문제를 제공하기 전에 문제 난이도를 정확히 추정하는 것이 중요합니다.
문제 난이도 추정(QDE)은 전통적으로 수작업으로 진행되거나 문항 반응 이론(IRT)을 통해 수행되었습니다.
QDE은 교사나 강사와 같은 교육 전문가가 각 문제에 난이도 레이블을 부여하는 방식으로 이루어졌으나 전문가의 주관적 판단에 따라 결과가 달라지는 단점이 있습니다.
IRT를 사용하는 QDE는 학생의 문제 풀이 기록을 바탕으로 문제 난이도를 예측함으로써 주관적 편향을 최소화합니다.
설명 가능성과 학생의 능력 및 문제 난이도의 변화를 추적할 수 있는 장점을 제공하지만 방대한 학생 문제 풀이 기록을 수집해야 한다는 큰 한계를 가지고 있습니다.
최근 연구들은 NLP 기술을 활용하여 QDE를 수행하는 새로운 접근 방식을 탐구하고 있습니다.
NLP 기반 QDE 방법론은 여러 장점을 가지지만 문제 자체의 정보에만 초점을 맞추기 때문에 문제를 푸는 학생에 대한 정보는 반영하지 못합니다.
동일한 문제라도 학생 그룹의 능력 수준에 따라 난이도가 달라질 수 있는 점을 고려하지 못 합니다.
이러한 측면은 IRT를 통해 측정된 문제 난이도를 기반으로 학습함으로써 해결할 수 있지만 학생 그룹을 위해 모델을 학습시켜야 하는 등의 단점이 여전히 존재합니다.
LLM이 다양한 도메인에서 인간 수준의 성능을 달성한 점을 고려하여 LLM이 다양한 수준의 학생들을 대체할 수 있다고 가정합니다.
이 가설에 기반하여, 우리는 LLaSA(Large Language Models as Students at various levels)라는 새로운 프레임워크를 제안합니다.
LLaSA에서는 학생 그룹의 능력을 목표로 하여 학생들과 유사한 문제 해결 능력을 가진 LLM 클러스터를 형성합니다.
LLM을 학생의 대리하여 LLaSA는 LLM의 문제 풀이 기록을 활용해 학생 그룹이 인지하는 문제 난이도를 효과적으로 예측할 수 있습니다.
전통적인 QDE 방법과 달리 본 접근법은 LLM 구성을 수정하여 다양한 학생 그룹 간 문제의 인지 난이도 변화를 쉽게 적응시킬 수 있습니다.
LLaSA는 IRT에서 도출된 개별 학생 능력 수준을 사용하여 학생 그룹을 대표하는 LLM 클러스터를 형성합니다.
LLaSA는 이러한 능력을 추정하기 위해 학생의 문제 풀이 기록이 필요합니다. 만약 대안 정보(예: 성적, 레벨)가 제공된다면 LLaSA는 문제 풀이 기록 없이도 QDE를 수행할 수 있습니다.
LLaSA는 LLM이 생성한 문제 해결 기록에 IRT(문항반응이론)를 적용하여 문제의 난이도를 추정합니다.
Various Levels of LLMs
학생들의 다양한 능력을 반영하기 위해 LLM의 구조적 다양성과 훈련 기법을 활용합니다. 학
생들이 고유한 재능과 습득된 기술을 가지고 있다는 점에서 영감을 받아 최고 성능의 LLM만을 사용하는 대신 65개의 LLM의 선정합니다.
Question-solving Prompting Technique
LLM은 추가 훈련 없이 새로운 작업을 수행할 수 있는 (in-context learning) 능력을 보여줍니다.
성능과 추론 효율성을 고려하여 기존 연구의 MCP(Multiple Choice Prompt) 방법을 사용하며, POE(Process of Elimination), CoT(Chain-of-Thought), PS(Plan-and-Solve) 등의 프롬프트 기법을 함께 활용합니다.

효과적인 학생 대체를 위해 IRT 기반의 QDE(Question Difficulty Estimation), 학생 대표 LLM 클러스터 선정, LLM 클러스터 응답 집계를 포함한 세 가지 구성요소로 구성된 클러스터링 모듈을 제안합니다.
IRT for QDE
LLaSA에서는 Rasch 모델을 사용하여 LLM 문제 해결 기록을 바탕으로 질문 난이도와 학생 능력을 추정합니다.
학생 능력(αm)과 문제 난이도(βn)를 추정하고 확률 함수는 다음과 같이 정의됩니다:
Student Representative LLM Cluster Selection
학생과 LLM의 문제 해결 능력을 비교하여, 능력 차이가 가장 작은 상위 k개의 LLM을 선정합니다.
이렇게 선정된 LLM 클러스터는 학생의 문제 해결 능력을 대표하며 정확하고 신뢰할 수 있는 대체를 보장합니다.
LLM Cluster Response Aggregation
단일 LLM만으로는 학생의 문제 해결 성능을 완전히 대체하기 어려운 경우가 많습니다.
고성능 모델(GPT-4 등)은 단일 학생 대체에 가능성이 있지만 소규모 모델은 성능이 제한적입니다.
LLM 클러스터를 활용하여 다수의 LLM 응답을 통합하고 클러스터 내 어느 LLM이라도 문제를 맞히면 결과를 정답으로 간주합니다.
이를 통해 단일 모델의 한계를 넘어 다양한 학생 응답 패턴을 효과적으로 모방할 수 있습니다.
LLM 클러스터 선택 성능을 더욱 향상시키기 위해 LLM 분포 조정(LLMDA)이라는 선택적 방법을 도입합니다.
LLMDA는 LLM 풀에서 110개의 LLM을 무작위로 제거하고 나머지 LLM의 능력을 Rasch 모델을 사용해 재추정한 뒤 반복적으로 성능을 평가하는 방식입니다.
모든 가능한 조합에 대해 LLMDA를 적용하려면 방대한 계산이 필요하므로 110개의 LLM을 무작위로 제거하는 방식을 채택했습니다
LLMDA는 학생 분포에 대한 사전 지식 없이 LLM을 선택할 때 학생 수준 분포를 시뮬레이션하는 과정에서의 한계를 극복하는 데 필수적입니다.
LLMDA는 추정 과정에서 이상치 LLM을 제거하여 선택된 LLM 풀에서 학생 수준 분포를 보다 정확히 반영할 수 있도록 합니다.

LLM 클러스터 선택 과정에서 LLaSA는 학생의 문제 해결 기록을 활용하여 그들의 능력 정보를 얻습니다.
하지만 학생의 문제 해결 기록이 없는 경우에 대안적인 정보(예: 성적, 수준)를 이용해 LLM 클러스터 선택을 진행할 수 있습니다.
질문 해결 기록이 없는 상황에서도 LLaSA의 효과를 입증하기 위해 제로샷 LLaSA를 제안합니다.
Figure 2는 교사가 학생 수준 분포를 대략적으로 이해하고 있는 예를 보여줍니다.
제로샷 LLaSA의 LLM 선택 모듈은 높은 수준, 중간 수준, 낮은 수준의 학생 수와 같은 정보를 LLM의 능력 수준과 결합하여 학생 그룹을 대표할 수 있는 LLM 클러스터를 구성합니다.
LLM Selection Module
LLM의 능력 수준을 평가하기 위해 문제 해결 정확도를 기준으로 수준을 나눕니다.
상대적 순위 대신 최고 성과 LLM과 비교한 성과 비율에 따라 그룹을 분류합니다. 예를 들어, 최고 성과 LLM의 정확도가 0.8인 경우 정확도 0.6~0.8(0.8의 75%100%)의 LLM은 높은 수준 클러스터로 분류됩니다.
정확도 0.00.2(0.8의 0%~25%)의 LLM은 낮은 수준 클러스터로 분류되며 나머지는 중간 수준 클러스터에 포함됩니다.
이 접근법의 중요성은 LLM의 문제 해결 능력 분포가 학생의 분포와 동일하지 않다는 점에 있습니다.
LLM은 학생과 유사한 문제 해결 능력을 보이지만 학생의 능력 분포가 정규 분포를 이루지만, LLM의 능력 분포는 극도로 양극화되어 있으며 중간 범위에 속하는 경우가 거의 없습니다.
이러한 접근 방식을 통해 LLaSA는 LLM과 학생 그룹 간 문제 해결 능력 분포 차이에 상관없이 학생을 대체할 수 있는 효과적인 LLM 풀을 구성할 수 있습니다.