캐글에 관심사인 "교육" 관련 진행 중인 컴피티션이 있어 공유해요! 틀린 답을 보고 그에 대한 오해를 찾아내는 대회입니다. 학생들이 수학 학습을 개선하도록 돕는 온라인 교육 플랫폼 Eedi(https://eedi.com/) 데이터 셋을 기반으로 제작되었어요.
학생들이 수학 문제를 풀 때, 어떤 학생들은 잘못된 방식으로 문제를 풀어서 틀린 답을 낸다.
예를 들어, 문제에서 덧셈과 곱셈이 나왔을 때, 덧셈을 먼저 하고 그다음에 곱셈을 해야 하는데, 왼쪽에서 오른쪽으로 순서대로 계산하는 잘못된 방식으로 풀어서 답을 틀릴 수 있죠. 이걸 오해라고 할 수 있다.
이 대회에서의 목표는 학생들이 고른 오답이 어떤 오해와 관련이 있는지를 알아내는 것이다. 마치 선생님이 학생들이 왜 틀렸는지 이유를 알고 싶어하는 것과 같죠. 선생님은 학생이 "13"이라는 오답을 골랐을 때, "아, 이 학생은 덧셈과 곱셈의 순서를 헷갈렸구나"라는 걸 알 수 있다.

예를 들어, 하나의 문제에 대한 데이터는 이렇게 구성될 수 있음






from transformers import AutoModel, AutoTokenizer
# 사전 훈련된 BGE 모델 로드
model_name = "BAAI/bge-large-en"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
# 임베딩 생성
text = "What is the capital of France?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
# 임베딩 벡터 추출
embedding = outputs.last_hidden_state.mean(dim=1)
Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of Large Language Models with Misconceptions
https://arxiv.org/pdf/2310.02439
이 논문은 대형 언어 모델(LLM), 예를 들어 GPT-3.5와 GPT-4가 수학 문제에서 어떻게 오해(잘못된 개념)를 다루는지 평가하는 연구입니다. 여기서 LLM을 두 가지 역할로 나눠서 테스트
초보 학습자 역할: LLM이 수학 문제를 일부러 틀리게 푸는 시나리오입니다. 그런데 그냥 틀리는 게 아니라, 특정 오해에 기반한 잘못된 답을 선택해야 해요. 예를 들어, 소수점 처리에서 흔히 하는 오해 때문에 답을 틀리게 선택하는 겁니다. 이 과정을 통해 LLM이 얼마나 학생처럼 실수를 할 수 있는지 테스트합니다.
전문 튜터 역할: LLM이 학생이 틀린 답을 보고, 그 답이 어떤 오해 때문에 나왔는지 맞추는 역할입니다. 예를 들어, 학생이 '덧셈과 곱셈의 순서를 헷갈려서' 답을 틀렸다면, 그 오해를 LLM이 찾아내야 합니다. 이를 통해 LLM이 교사처럼 학생의 실수를 정확히 분석할 수 있는지 평가합니다.
LLM은 수학 문제를 푸는 것 자체는 잘합니다. 즉, 정답을 맞히는 건 문제가 없어요.
하지만 학생처럼 실수를 시뮬레이션하는 것과, 학생의 오해를 정확히 찾아내는 것은 어려워합니다. 특히 여러 가지 오해가 섞여 있을 때는 더 힘들어합니다.
Eedi(https://eedi.com/home)라는 수학 문제 데이터셋을 사용. 이 데이터셋은 초등학교 수학 문제와 그 문제를 틀린 이유인 오해가 잘 정리되어 있어요.
실험에서는 LLM에게 문제를 주고, 틀린 답을 내게 하거나(초보 학습자 역할), 틀린 답을 보고 왜 틀렸는지 오해를 찾아내게 했습니다(전문 튜터 역할).

초보 학습자 역할: GPT-4는 정확하게 오해에 기반한 틀린 답을 선택하는데 61.7% 의 정확도를 보였습니다. 이는 무작위 선택보다 훨씬 높은 결과이지만, GPT-4가 정답을 맞추는 성능(94.8%)과 비교하면 상대적으로 낮습니다.
전문 튜터 역할: GPT-4는 제한된 수의 오해가 주어졌을 때 91.9% 의 정확도로 학생의 오해를 찾아냈습니다. 그러나 오해의 수가 증가할수록 성능은 감소하여, 오해가 100개일 때는 39.8% 의 정확도를 기록했습니다.
LLM은 교사처럼 완벽한 역할을 하기엔 아직 부족해요. 특히, 학생이 왜 틀렸는지 오해를 찾아내는 데는 한계가 있습니다.
하지만 수학 교육에서 LLM을 더 발전시키면 학생들이 틀린 이유를 분석하고, 더 나은 학습 경험을 제공할 수 있는 가능성이 있습니다.
이 연구는 인공지능을 활용한 교육 도구를 개발하는 데 큰 기여를 할 수 있어요. 앞으로 LLM이 어떻게 학생의 오해를 더 잘 이해하고 도와줄 수 있을지에 대한 연구가 계속될 것으로 보입니다.