논문: https://arxiv.org/abs/2308.03892
학생의 문제 해결 전략을 이해하는 것은 지능형 튜터링 시스템(Intelligent Tutoring Systems, ITS) 및 적응형 교육 시스템(Adaptive Instructional Systems, AIS)을 통한 효과적인 수학 학습에 큰 영향을 미칠 수 있다.
문제 해결에 사용된 전략은 학생의 숙련도를 나타낼 수 있다. 또한, 잘못된 전략에서 드러나는 특정 오개념을 바로잡기 위한 개인화 학습을 제공하고, 전략을 개선하기 위한 특정 문제를 설계하며, 학생의 사고 방식을 반영한 지도로 학생의 좌절감을 최소화할 수 있다.
수학 학습에 있어서 확장 가능하고 공정한
학생의 문제 풀이 전략 예측 모델을 개발하는 것이 논문의 목표이다.
확장 가능성:
전체 데이터의 일부만을 샘플링하더라도 효율적인 학습 가능한 것.
공정성:
(숙련도나 기술 수준에 차이가 존재하는) 학습자 유형에 따라 모델 정확도가 다르지 않은 것.
미국 수학 교육 플랫폼인 MATHia를 활용한 실제 학생들의 학습 데이터를 사용했다.
학생과 컴퓨터 간의 상호작용 및 학생의 문제 해결 행동에 대한 로그를 포함한 것이다.
(예: 사용된 지식 구성 요소(Knowledge Component), 해당 단계(KC)가 올바르게 완료되었는지 여부, 힌트가 필요한지 여부 등)
PSLC datashop을 통해 공개적으로 이용 가능하다고 논문에 적혀 있었으나, 실제 데이터셋을 다운받아 확인해보기 어려웠다.
Bridge to Algebra 2008-2009 (BA08),
Carnegie Learning MATHia 2019-2020 (CL19).
학생 와 문제 에 대해,
가 를 해결하는데 사용할 전략(KC 시퀀스)을 예측하는 것이
논문에서 해결하고자하는 과제이다.
Node2Vec와 유사한 접근법을 활용하되, KC 에 대한 학생 의 숙련도(Mastery)를 이용해 그래프에서 경로를 샘플링하여 임베딩을 학습하는 것이다.
숙련도 값은 Attention 모델을 활용해 각 KC가 문제 해결에서 차지하는 역할(중요도)를 포함하여 계산한다.
훈련 데이터의 각 학생과 문제, KC를 노드 로 표현한다.
학생 가 문제 를 해결하는 데 KC 를 사용하는 경우, 두 개의 간선 가 생성된다.
좌측 그래프는 3명의 학생, 문제, 그리고 KC에 대한 예시 그래프이며,
우측은 임베딩을 학습하기 위해, 그래프에서 경로를 샘플링한 결과이다.
간단한 샘플링 전략 는 노드의 이웃을 무작위로 샘플링하는 것이지만,
학생이 KC를 문제에 성공적으로 적용했다면, 해당 간선은 더 큰 중요도를 부여받아야 한다. 따라서 Attention 모델을 훈련하여 그래프 의 간선에 대한 샘플링 확률을 추정한다.
CFA(Correct First Attempt)
교육과정 구조(단원 → 차시)를 기반으로 Attention 모델을 학습시켰다.
각 차시에서 학생이 해결한 문제 를 선택하고,
에서 사용된 각 KC에 대한 CFA 값을 예측하도록 모델을 훈련했다
(CFA 값 예측을 위한) Attention 모델 구조
인코더-디코더(encoder-decoder) 구조로, 입력은 KC 시퀀스로 구성되며, 인코더는 이 시퀀스를 잠재 표현으로 매핑하고 디코더는 CFA 값을 하나씩 디코딩한다.
Attention 가중치 계산:
KC 에 대한 학생 와 문제 의 숙련도(CFA) 투영 계산:
분리된 분포(아래의 식)를 사용해서 그래프 G에서 경로를 샘플링한다.
: 학생 에게 주어진 (Knowledge Component)를 샘플링할 확률.
: S와 K가 주어졌을 때 문제 P를 샘플링할 확률.
DP-Means HDP 클러스터링 기법을 활용한 비모수적 접근법을 이용하되, 전략 대칭성에 기반하여 학생과 문제의 MVec 임베딩을 공동으로 클러스터링하는 것이다.
이후 전체 데이터가 아닌 생성된 각 클러스터에서 샘플을 선택하여 모델을 훈련함으로써 정확도를 희생하지 않고 확장성을 확보할 수 있다.
대칭성(symmetry)에 기반한 비모수적 접근법을 통해 학생과 문제의 MVec 임베딩을 공동으로 클러스터링한다.
데이터셋 에 대해, 는 학생 집합이고 는 문제 집합이다.
Definition 1. 전략 불변 분할 (strategy-invariant partitioning)
- 분할 와 로 정의.
- 모든 , 에 대해:
만약 이고 라면, 와 은 각각 와 에 대해 동일한 전략을 따른다.- : 학생 분할/클러스터의 수, : 문제 분할/클러스터의 수.
전략 불변 분할을 통해 전체 데이터가 아닌 각 클러스터에서 샘플을 선택하여 모델을 훈련함으로써 정확도를 희생하지 않고 확장성을 확보할 수 있다.
로컬 클러스터(Local Clusters): 학생 및 문제 각각의 클러스터.
글로벌 클러스터(Global Clusters): 학생 클러스터와 문제 클러스터를 결합한 클러스터.
DP-Means HDP 클러스터링(2.3에서 다룸)
초기 클러스터링: 는 현재의 글로벌 클러스터.
각 클러스터 내의 전략 대칭성을 기반으로 점수 를 계산한다.
반복(iteration)마다 점수가 개선될 경우, 를 점진적으로 감소시켜 더 세밀한 클러스터를 생성한다. (Coarse-to-fine refinement 접근법)
전략을 MVec 임베딩과 위치 인코딩의 조합으로 표현하며, Smith-Waterman(SW) 알고리즘을 이용하여 위치 임베딩 간의 정렬을 계산함으로써 전략 대칭성을 계산하는 것이다.
글로벌 클러스터: 각 글로벌 클러스터는 전략 집합을 암묵적으로 나타낸다.
클러스터 내 전략 간의 대칭성(symmetric similarity)을 정량화하는 것이 목표이다.
각 전략은 MVec임베딩과 위치 인코딩(positional encodings)의 조합으로 표현된다.
전략에서 특정 KC K를 다음 벡터로 표현:
전략 간 대칭성을 계산하기 위해, 우리는 위치 임베딩 간의 정렬을 계산할 때, Smith-Waterman 알고리즘(SW)을 이용한다.
두 시퀀스 간 가능한 최적의 정렬을 계산하기 위해 지역 탐색(local search) 수행한다.
유사도 함수가 필요하며, 두 KC 간의 유사도로, 으로 설정된다. 즉, 와 의 위치 임베딩 간의 코사인 유사도이다.
정렬에 갭(gap, 비어있는 단계)을 남기는 비용을 나타내는 갭 페널티를 필요로 하며, 대칭성을 갭에 대해 불변으로 유지하기 위해 갭 페널티를 0으로 설정한다.
즉, 두 전략이 대칭적이라면 전략에 추가 단계를 포함하는 것이 허용하는 것이다.
로컬 정렬에 기반한 스코어링 행렬(scoring matrix)을 반복적으로 계산한다. 최적의 정렬에 대한 스코어를 제공하는 스코어링 행렬을 계산하는 최악의 경우 복잡도는 이며, 여기서 과 은 전략의 길이를 나타낸다.
두 전략 와 (길이 과 ) 간의 대칭성을 SW 알고리즘을 기반으로 정렬 을 통해 계산한다.
와 간의 대칭 점수 계산:
클러스터링 대칭성 추정:
학생과 문제 벡터를 입력으로 받아 KC 시퀀스를 출력으로 생성하는 One-to-Many LSTM 구조를 사용하여 전략을 예측한다.
Shakya et al. 의 접근법(CS):
동일한 데이터셋에서 중요도 샘플링(importance sampling)을 사용해 LSTM을 훈련하는 특화된 접근법.
다만, 숙련도(mastery)나 근사 대칭성(approximate symmetries)을 고려하지 않아 다양한 훈련 인스턴스를 효과적으로 찾지 못한다.
계층적 샘플링(GS, Group Sampling):
학생이 해결한 문제의 수에 비례하여 샘플링하는 접근법.
랜덤 샘플링(RS, Random Sampling):
학생과 문제를 균등하게 무작위로 샘플링하는 단순한 방법.
어텐션 샘플링(AS, Attention Sampling):
논문에서의 접근법으로, 대칭성과 숙련도를 고려한 샘플링을 수행하는 접근법.
접근법에 각 구성 요소를 단계적으로 추가하면서, 훈련 데이터 샘플 크기 변화에 따른 테스트 정확도를 관찰했다.
No Symmetries(NS):
대칭성을 사용하지 않으며, 클러스터링을 무작위로 수행했다.
StrategySymmetries(SS):
대칭성을 사용하되, 숙련도를 이용하여 임베딩을 학습하지 않았다.
Word2Vec 입력으로 학생(), 문제(), KC()의 삼중 쌍 만 사용하여 임베딩을 생성했다.
SS + Mastery(SS + MS):
대칭성과 함께, 숙련도를 포함하여 MVec 임베딩을 학습했다.
성취 수준이 다른 학생그룹에 대해 정확도가 크게 다르지 않는지 확인했다.
희귀 전략을 사용하는 하위 문제 그룹에서 차별적 오류가 발생하는지 확인했다.
문제 섹션을 를 이용해 계산한 전략 간 분산에 따라
5개의 하위 그룹으로 나누었다. ()