캐글필사 - Feedback Prize(English Language Learning)

Sooin Yoon·2025년 3월 30일

Overview

이 대회는 영어 학습자(비원어민)가 쓴 에세이를 다양한 언어 능력 점수로 예측하는 문제
6개의 평가 항목(예: 어휘 다양성, 문법 정확도 등)에 대해 점수를 예측하며, 이는 실제 영어 채점 기준에 기반
AI가 학습자의 글을 정확히 평가할 수 있다면, 자동 첨삭 시스템, 영어 학습 피드백 제공 시스템 등에 활용될 수 있음

Evaluation

문제 유형: Multi-target Regression (6개 점수 예측)
평가지표: MCRMSE (Mean Columnwise Root Mean Squared Error)

Input 에세이 원문 (full_text)
Output 6개 항목의 점수 예측 (실수값, 1~5 사이)
문제 유형 다중 회귀 (multi-target regression)
평가 지표 MCRMSE (컬럼별 RMSE 평균)
모델 Transformer 기반 LLM + 회귀 헤드 / traditional regressor + feature

EDA

예측할 타겟 (총 6개):
coherence/cohesion/syntax/vocabulary/phraseology/grammar

모든 에세이는 학습자의 수준에 따라 점수 분포가 다름
일부 점수들은 서로 높은 상관관계를 가짐 (예: grammar와 syntax, vocabulary와 phraseology 등)
에세이 길이, 문장 수, 단어 수, 고급 어휘 비율 등과 일부 점수는 양의 상관관계 있음
학습자의 proficiency_level(CEFR 등급)과 점수도 상관이 있음

Notebook 필사

이번 필사 대상은 상위권 솔루션 중 하나인 deberta_v3_xsmall 모델 기반 노트북
1. 데이터 전처리
: 토큰 수 확인, 텍스트 정제, 학습자 정보 제거
2. Tokenizer 및 Tokenized Dataset 생성
: AutoTokenizer 사용, huggingface Dataset 객체로 구성
3. 모델 구성
: DebertaV3-xsmall pretrained 모델 사용, 마지막 출력에 MLP 회귀 헤드 추가
4. Loss function
: MSELoss (6개 점수 모두 평균)
5. 훈련 전략

KFold or StratifiedGroupKFold
mixed precision training
early stopping, learning rate scheduler

추론 및 앙상블

Fold별 모델 예측 평균
결과를 submission.csv로 저장

Lesson Learned

텍스트의 품질/스타일에 따라 점수 분포가 미묘하게 달라짐, 단순한 길이, 문장 수 이상의 정보가 필요함
LLM 기반 모델이 기존 feature-based 회귀 모델보다 훨씬 뛰어난 성능, DeBERTa 계열이 특히 강력함
모든 점수를 하나의 회귀 헤드에서 예측하는 것이 학습 효율적, 각 점수가 서로 상관관계를 가지므로 다중 회귀가 잘 맞음
문법이나 어휘는 실제로 문장의 난이도와 직접적인 연관이 있음, 토큰 수준에서 학습이 잘 이뤄지는 구조가 필요
Efficient한 경량 모델 + 적절한 사전학습 모델 선택만으로도 상위권 가능, DebertaV3-xsmall + KFold 앙상블만으로도 뛰어난 결과

Sooin Yoon

이전 포스트

캐글필사 - LLM - Detect AI Generated Text

다음 포스트