EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

GEEE·2025년 12월 27일

0. 개요

기존 언어 모델 학습의 표준 방식인 MLE, 즉 Maximum Likelihood Estimation의 근본적인 결함을 지적하고, 최적 수송 이론의 Earth Mover Distance를 활용한 새로운 학습 방법을 제안.


1. 언어 모델 학습의 기초와 MLE의 수학적 정의

데이터 분포와 모델 분포의 일치

CE(P,Qθ)=ExP[logQθ(x)]\text{CE}(P, Q_\theta) = - \mathbb{E}_{x \sim P}[\log Q_\theta(x)]
  • PP: 인간이 사용하는 실제 언어 데이터 분포
  • QθQ_\theta: 파라미터 θ\theta로 정의되는 모델이 예측하는 분포
  • ExP\mathbb{E}_{x \sim P}: 데이터 분포 PP에서 샘플링한 xx에 대한 기댓값

언어 모델링의 궁극적 목적은 실제 언어 분포 PP와 모델 분포 QθQ_\theta 사이의 거리를 최소화하는 것임. 교차 엔트로피(Cross-Entropy)는 모델이 실제 데이터 분포를 얼마나 잘 모사하는지 측정하는 기본 척도로 널리 사용됨.

자기회귀(Auto-Regressive) 모델의 확률 계산

Qθ(x)=t=1xQθ(xtx<t)Q_\theta(\boldsymbol{x}) = \prod_{t=1}^{|\boldsymbol{x}|} Q_\theta(\boldsymbol{x}_t | \boldsymbol{x}_{<t})
  • x\mathbf{x}: 전체 텍스트 시퀀스
  • x|\mathbf{x}|: 시퀀스의 총 토큰 수
  • xtx_t: 시점 tt에서의 토큰
  • x<tx_{<t}: 시점 tt 이전의 모든 토큰들 (문맥)
  • Qθ(xtx<t)Q_\theta(x_t | x_{<t}): 문맥이 주어졌을 때 다음 토큰의 조건부 확률

자기회귀 모델은 전체 시퀀스의 확률을 각 시점에서의 조건부 확률들의 곱으로 분해함. 이전 문맥 x<tx_{<t}를 기반으로 다음 토큰 xtx_t를 순차적으로 예측하는 방식임.

MLE 학습 목적 함수의 토큰 레벨 분해

LMLE=CE(P,Qθ)=ExP[logQθ(x)]=ExP[t=1xlogQθ(xtx<t)]=ExP[t=1xCE(P(x<t),Qθ(x<t))]\mathcal{L}_{\text{MLE}} = \text{CE}(P, Q_\theta) = - \mathbb{E}_{x \sim P}[\log Q_\theta(x)] \\= - \mathbb{E}_{x \sim P} \left[ \sum_{t=1}^{|x|} \log Q_\theta(x_t | x_{<t}) \right] \\= \mathbb{E}_{x \sim P} \left[ \sum_{t=1}^{|x|} \text{CE}\left( P\left(\cdot|x_{<t}\right), Q_\theta\left(\cdot|x_{<t}\right) \right) \right]
  • LMLE\mathcal{L}_{\text{MLE}}: 최대 우도 추정법의 손실 함수
  • P(x<t)P(\cdot|x_{<t}): 문맥이 주어졌을 때 실제 데이터의 다음 토큰 분포
  • Qθ(x<t)Q_\theta(\cdot|x_{<t}): 문맥이 주어졌을 때 모델의 다음 토큰 분포

문장 전체에 대한 MLE 손실은 각 타임스텝에서 발생하는 토큰 레벨 교차 엔트로피의 합으로 분해됨. 학습 과정에서 매 시점마다 정답 토큰의 확률을 높이는 방향으로 최적화가 진행됨.


2. MLE 학습 방식의 근본적인 결함 분석

2.1 재현율 우선주의(Recall-prioritization) 문제

θLMLE=ExP[t=1xθQθ(xtx<t)Qθ(xtx<t)]\nabla_\theta \mathcal{L}_{\text{MLE}} = - \mathbb{E}_{x \sim P} \left[ \sum_{t=1}^{|x|} \frac{\nabla_\theta Q_\theta (x_t | x_{<t})}{Q_\theta (x_t | x_{<t})} \right]
  • θ\nabla_\theta: 파라미터 θ\theta에 대한 그래디언트
  • θQθ(xtx<t)\nabla_\theta Q_\theta(x_t|x_{<t}): 정답 토큰 확률의 그래디언트
  • Qθ(xtx<t)Q_\theta(x_t|x_{<t}): 정답 토큰에 대한 모델의 예측 확률

MLE의 그래디언트를 분석하면, 모델이 오직 정답 토큰 xtx_t의 확률을 높이는 데만 집중하는 재현율 우선(Recall-prioritized) 특성을 보임. 정답이 아닌 저품질 토큰의 확률을 명시적으로 낮추는 정밀도(Precision) 최적화가 부족해짐. 이로 인해 모델이 횡설수설하거나 반복적인 문구를 생성하는 퇴화(degeneration) 현상이 발생함.

손실 함수에서도 잘 나타나는데, Cross Entrophy는 PPlog(Q)-log(Q)의 곱의 기댓값. 즉 PPlog(Q)-log(Q)의 곱이 클수록 손실이 큼. PP는 실제 확률, log(Q)-log(Q)는 모델의 예측확률에 반비례, 즉 실제 정답 토큰에 대해서 모델이 확률이 낮다고 예측할수록 손실이 커짐. → 재현율 우선주의 문제

2.2 부정적 다양성 무시(Negative Diversity Ignorance)

CE(P(x<t),Qθ(x<t))zi={Qθ(xt)1if vi=xtQθ(vi)others\frac{\partial \text{CE}(P(\cdot|x_{<t}), Q_\theta(\cdot|x_{<t}))}{\partial z_i} = \begin{cases} Q_\theta(x_t) - 1 & \text{if } v_i = x_t \\ Q_\theta(v_i) & \text{others} \end{cases}
  • ziz_i: 소프트맥스 이전의 ii번째 토큰에 대한 로짓(logit) 값
  • viv_i: 어휘 사전의 ii번째 토큰
  • xtx_t: 정답 토큰
  • Qθ(vi)Q_\theta(v_i): 토큰 viv_i에 대한 모델의 예측 확률

로짓에 대한 편미분 결과, 정답 토큰을 제외한 모든 토큰이 동등하게 오답으로 취급됨. 그래디언트 기반 최적화에서 국소 최솟값에 도달하려면 정답 확률은 1로, 나머지 모든 토큰의 확률은 0으로 수렴해야 함. 문맥상 정답과 유사한 유의어(예: "glad"와 "happy")도 완전히 무관한 단어와 동일하게 페널티를 받음. 이로 인해 언어의 풍부한 의미론적 관계와 다양성 학습에 한계가 생김.

2.3 학습-평가 불일치(Train-Test Mismatch)

MLE 학습 시에는 데이터 분포 PP에서 샘플을 추출하여 기댓값을 계산함:

ExP[logQθ(x)]\mathbb{E}{x \sim P}[\log Q\theta(x)]

그러나 평가 시에는 모델 분포 QθQ_\theta에서 샘플을 생성하고 평가 함수 f()f(\cdot)로 품질을 측정함:

ExQθ[f(x)]\mathbb{E}{x \sim Q\theta}[f(x)]

학습 목표와 평가 목표 사이에 근본적인 불일치가 존재함. 기존 방법들은 강화학습이나 대조학습으로 평가 함수를 학습에 통합하려 했으나, 추가 오버헤드가 발생하고 태스크별로 다른 f()f(\cdot)를 사용해야 해서 범용 언어 모델링에 적용하기 어려움.


3. 최적 수송 이론을 통한 해결: Earth Mover Distance (EMD = WAS)

3.1 EMD의 기본 정의

EMD(P1,P2)=infγΠ(P1,P2)E(x1,x2)γ[C(x1,x2)]\text{EMD}(P_1, P_2) = \inf_{\gamma \in \Pi(P_1, P_2)} \mathbb{E}_{(x_1, x_2) \sim \gamma} [C(x_1, x_2)]
  • P1,P2P_1, P_2: 비교할 두 확률 분포
  • Π(P1,P2)\Pi(P_1, P_2): P1P_1P2P_2를 주변 분포로 갖는 모든 결합 분포의 집합
  • γ(x1,x2)\gamma(x_1, x_2): P1(x1)P_1(x_1)에서 P2(x2)P_2(x_2)로 이동시키는 확률 질량의 양 (수송 계획)
  • C(x1,x2)C(x_1, x_2): x1x_1에서 x2x_2로 단위 질량을 이동시키는 비용 (운송 비용)
  • inf\inf: 가능한 모든 수송 계획 중 최솟값

EMD는 한 확률 분포를 다른 분포로 변환하는 데 필요한 최소 운송 비용을 의미함. 최적 수송 문제(Optimal Transport)에서 유래했으며 단순히 확률값의 수치적 차이만 계산하는 교차 엔트로피와 달리, 샘플 간의 거리를 고려하여 더 정교한 분포 비교가 가능함.

3.2 언어 모델링을 위한 EMD의 토큰 레벨 정식화

EMD(Qθ(x<t),P(x<t))=infγΠ(Qθ(x<t),P(x<t))E(x1,x2)γ[C(x1,x2)]=infγΠ(Qθ(x<t),P(x<t))i=1Vj=1Vγ(vi,vj)C(vi,vj)\begin{aligned} \mathrm{EMD}(Q_\theta(\cdot|x_{<t}), P(\cdot|x_{<t})) &= \inf_{\gamma \in \Pi(Q_\theta(\cdot|x_{<t}), P(\cdot|x_{<t}))} \mathbb{E}_{(x_1, x_2) \sim \gamma}[C(x_1, x_2)] \\ &= \inf_{\gamma \in \Pi(Q_\theta(\cdot|x_{<t}), P(\cdot|x_{<t}))} \sum_{i=1}^{|V|} \sum_{j=1}^{|V|} \gamma(v_i, v_j) C(v_i, v_j) \end{aligned}
  • VV: 언어 모델의 어휘 사전 (vocabulary)
  • V|V|: 어휘 사전의 크기
  • vi,vjv_i, v_j: 어휘 사전 내의 ii번째, jj번째 토큰
  • γ(vi,vj)\gamma(v_i, v_j): 모델 분포의 viv_i에서 데이터 분포의 vjv_j로 이동시키는 확률 질량
  • C(vi,vj)C(v_i, v_j): 두 토큰 사이의 의미적 거리 (운송 비용)

→ 어휘 사전 내 모든 토큰 쌍에 대해 확률 질량을 어떻게 이동시킬지 최적의 수송 계획을 찾는 것이 새로운 학습 목표가 됨.

3.3 수학적 제약 조건과 물리적 의미

minγi=1Vj=1Vγ(vi,vj)C(vi,vj)\min_{\gamma} \sum_{i=1}^{|V|} \sum_{j=1}^{|V|} \gamma(v_i, v_j) C(v_i, v_j)
s.t.j=1Vγ(vi,vj)=P(vix<t)i{1,,V}i=1Vγ(vi,vj)=Qθ(vjx<t)j{1,,V}\begin{aligned}\text{s.t.} & \sum_{j=1}^{|V|} \gamma(v_i, v_j) = P(v_i | x_{<t}) \quad \forall i \in \{1, \ldots, |V|\} \\& \sum_{i=1}^{|V|} \gamma(v_i, v_j) = Q_\theta(v_j | x_{<t}) \quad \forall j \in \{1, \ldots, |V|\}\end{aligned}

제약 조건의 의미:

  • 첫 번째 제약: 각 토큰 viv_i에서 나가는 총 확률 질량 = 데이터 분포에서의 확률
  • 두 번째 제약: 각 토큰 vjv_j에 도착하는 총 확률 질량 = 모델 분포에서의 확률

EMD를 계산하기 위해선 위와같은 제약조건을 만족 해야 함. 제약 조건은 확률의 '질량 보존'을 강제함. 출발지(데이터 분포)에서 나가는 확률의 합과 목적지(모델 분포)에 도착하는 확률의 합이 각각 원본 분포와 정확히 일치해야 함. 이 조건 내에서 총 운송 비용을 최소화하는 최적 경로를 찾음.

3.4 의미론적 운송 비용 함수 (Semantically-Informed Transport Cost)

 C(vi,vj)=1eiejeiej  C(v_i, v_j) = 1 - \frac{e_i^\top e_j}{|e_i||e_j|} 
  • eie_i: 토큰 viv_i의 임베딩 벡터 (언어 모델 헤드 EEii번째 열)
  • eieje_i^\top e_j: 두 임베딩 벡터의 내적
  • ei,ej|e_i|, |e_j|: 각 벡터의 노름(norm)
  • eiejeiej\frac{e_i^\top e_j}{|e_i||e_j|}: 코사인 유사도

토큰 간 운송 비용은 MLE로 사전학습된 언어 모델 헤드의 임베딩 간 코사인 거리로 정의함. 학습 과정에서 eie_i는 다음 토큰이 viv_i인 모든 문맥의 표현과 가깝도록 최적화되었으므로, 코사인 거리는 토큰 간 의미적 거리의 효과적인 대리 지표가 됨. 교환 가능한 토큰(예: "glad"와 "happy")은 작은 거리를, 무관한 토큰(예: "cat"과 "galaxy")은 큰 거리를 가짐. 비용 함수 CC는 사전에 계산되어 학습 중 고정됨.


4. 효율적인 학습을 위한 미분 가능한 상한선 (DEMD)

4.1 계산 복잡도 문제

전통적인 EMD 솔버의 복잡도는 O(V3logV)O(|V|^3 \log |V|)임. 최신 LLM의 어휘 사전은 수만 개의 토큰을 포함하므로 매우 부담됨. 또한 외부 솔버 사용 시 계산 그래프가 분리되어 그래디언트 역전파가 불가능함.

4.2 대리 운송 계획(Surrogate Transport Plan) 수립

γ~(vi,vj)=Qθ(vi)P(vj)\tilde{\gamma}(v_i, v_j) = Q_{\theta}(v_i) P(v_j)
  • γ~\tilde{\gamma}: 대리(surrogate) 운송 계획
  • Qθ(vi)Q_\theta(v_i): 토큰 viv_i에 대한 모델의 예측 확률
  • P(vj)P(v_j): 토큰 vjv_j에 대한 데이터 분포의 확률

최적의 운송 계획 γ\gamma^*를 직접 계산하는 대신, 두 분포의 독립적인 곱으로 정의된 실행 가능한 운송 계획 γ~\tilde{\gamma}를 사용함. QθQ_\thetaPP 모두 합이 1이므로 γ~\tilde{\gamma}는 제약 조건을 만족하는 유효한 계획임. 최적 해는 아니지만 학습에 사용하기 충분한 상한선을 제공함.

4.3 상한선의 유도 및 행렬 연산 최적화

EMD(Q0,P)i=1Vj=1Vγ~(vi,vj)C(vi,vj)=i=1Vj=1VQ0(vi)P(vj)C(vi,vj)\begin{aligned}\text{EMD}(Q_0, P) &\leq \sum_{i=1}^{|V|} \sum_{j=1}^{|V|} \tilde{\gamma}(v_i, v_j) C(v_i, v_j) \\&= \sum_{i=1}^{|V|} \sum_{j=1}^{|V|} Q_0(v_i) P(v_j) C(v_i, v_j)\end{aligned}

코사인 거리 비용 함수를 대입하면:

=Q0TCP=Q0(11E^E^)P=1(E^Q0)TE^P= Q_0^{\mathrm{T}} CP\\ = Q_0^\top (\mathbf{1}\mathbf{1}^\top - \hat{\mathbf{E}}^\top \hat{\mathbf{E}})P\\ = 1 - (\hat{E} Q_0)^{\text{T}} \hat{E} P
  • CRV×VC \in \mathbb{R}^{|V| \times |V|}: 비용 함수의 행렬 표현
  • 1\mathbf{1}: 모든 원소가 1인 열벡터
  • E^\hat{E}: 행 방향으로 정규화된 임베딩 행렬
  • PP: 원-핫 인코딩된 다음 토큰 분포

대리 계획을 사용한 상한선은 행렬 연산으로 단순화됨. 이 수식을 DEMD(Differentiable EMD)라 명명하며, MLE와 결합하여 자기회귀 언어 모델링에 적용함.

4.4 일반화된 형태 (임의의 P에 대해)

DEMD~(Q0,P)=Q0PCPQ0CPPCP\widetilde{\text{DEMD}}(Q_0, P) = \left| Q_0^\top - P^\top \right| CP \geq \left| Q_0^\top CP - P^\top CP \right|

PP가 원-핫이 아닌 밀집(dense) 분포일 경우, 원래 DEMD의 최적해는 기대 운송 비용이 가장 작은 토큰에 모든 확률을 몰아주는 원-핫 분포가 됨. 이를 해결하기 위해 QθQ_\thetaPP의 대리 운송 비용 간 절대 차이를 최소화하는 일반화된 형태를 사용함.

4.5 최종 학습 그래디언트

θDEMD(Qθ,P)=i=1VθQθ(vi)(j=1VP(vj)C(vi,vj))=i=1VθQθ(vi)EvjP[C(vi,vj)]\nabla_\theta \mathrm{DEMD}(Q_\theta, P) = \sum_{i=1}^{|V|} \nabla_\theta Q_\theta (v_i) \left( \sum_{j=1}^{|V|} P(v_j) C(v_i, v_j) \right) = \sum_{i=1}^{|V|} \nabla_\theta Q_\theta (v_i) \mathbb{E}_{v_j \sim P}[C(v_i, v_j)]
  • θQθ(vi)\nabla_\theta Q_\theta(v_i): 토큰 viv_i의 확률에 대한 그래디언트
  • EvjP[C(vi,vj)]\mathbb{E}_{v_j \sim P}[C(v_i, v_j)]: 데이터 분포 하에서 viv_i의 기대 운송 비용

DEMD의 그래디언트는 모든 토큰에 대해 데이터 분포와의 기대 운송 비용으로 가중치를 부여함. MLE와 달리 정답 토큰만이 아닌 전체 어휘에 대해 그래디언트가 계산됨. 정답과 의미적으로 먼 토큰은 큰 페널티를, 유의어는 작은 페널티를 받아 정밀도가 향상됨.

4.6 동적 가중치 적용

L=0.5×(LMLE+(LMLELDEMD)detach×LDEMD)\mathcal{L} = 0.5 \times \left( \mathcal{L}_{\text{MLE}} + \left( \frac{\mathcal{L}_{\text{MLE}}}{\mathcal{L}_{\text{DEMD}}} \right)_{\text{detach}} \times \mathcal{L}_{\text{DEMD}} \right)
  • ()detach(\cdot)_{\text{detach}}: 그래디언트 계산에서 제외 (상수로 취급)

모델이 약할 때(perplexity가 높을 때) DEMD는 코사인 기반 비용의 제한된 그래디언트 스케일링으로 인해 수렴이 느릴 수 있음. 이를 해결하기 위해 MLE와 DEMD 손실의 비율로 동적 가중치를 적용함.


5. MLE 대비 EMO의 행동 차이

5.1 재현율과 정밀도의 조화 (Harmonizing Recall and Precision)

MLE는 정답 토큰에만 높은 확률을 부여하도록 유도하여 재현율에 편향됨. 결과적으로 저품질 영역에서 과신(over-confident)하는 모델이 학습됨. 반면 EMO는 각 타임스텝에서 QθQ_\theta의 정밀도도 고려함. 저품질 토큰(운송 비용이 큰 토큰)에 명시적으로 페널티를 부여하여 퇴화된 텍스트의 과대평가를 효과적으로 완화함.

5.2 부정적 다양성 인식 (Negative Diversity Awareness)

DEMD의 그래디언트(수식 참조)에서, 파라미터 업데이트는 전체 어휘에 걸친 토큰 확률의 그래디언트 합으로 구성되며, 각각 기대 운송 비용으로 가중됨. 데이터 분포에서 크게 벗어난 토큰(높은 운송 비용)은 문맥적으로 유사한 토큰보다 더 강하게 하향 조정됨. 따라서 모델 분포 QθQ_\theta는 더 정보가 풍부한 학습 신호 덕분에 MLE보다 정확하게 확률 질량을 배분함.

5.3 학습-평가 일관성 향상 (Better Train-Test Consistency)

MLE의 목표는 데이터 분포 PP에 대한 기댓값이지만, 평가 시에는 모델 분포 QθQ_\theta에서 샘플링함. DEMD를 EviQθ[j=1VP(vj)C(vi,vj)]\mathbb{E}{v_i \sim Q\theta}\left[\sum_{j=1}^{|V|} P(v_j) C(v_i, v_j)\right]로 다시 쓰면, 모델 분포 QθQ_\theta에 대한 기대 운송 비용 최적화가 명시적으로 포함됨을 알 수 있음. 따라서 DEMD는 MLE보다 학습-평가 일관성이 높음.


6. 실험 결과 및 분석

6.1 실험 설정

사전학습 모델: GPT-2, OPT-125M (디코더 전용 Transformer)

비교 대상:

  • MLE: 기본 최대 우도 추정법
  • TaiLr: 총 변이 거리(Total Variation Distance) 기반 방법
  • MixCE: 역방향 교차 엔트로피를 결합한 방법

데이터셋: WikiText-2, WikiText-103, WebText, Penn Tree Bank, WritingPrompts, AG News (6개 도메인)

평가 지표: Mauve (생성 텍스트와 인간 텍스트 간 분포 유사도 측정, 높을수록 좋음)

학습 세부사항: 3 에폭, AdamW 옵티마이저, 학습률 5e-5, 배치 크기 32, 최대 입력 길이 256

6.2 도메인별 생성 품질 비교 (Mauve 점수 ↑)

모델목적함수WikiText2WikiText103WebTextPTBWritingPromptsAG News
GPT-2MLE77.577.175.576.183.675.0
GPT-2TaiLr79.678.076.573.884.175.8
GPT-2MixCE78.377.676.376.982.776.6
GPT-2EMO87.582.180.579.687.484.9
OPT-125MMLE77.275.874.783.684.182.1
OPT-125MTaiLr78.475.274.282.283.481.8
OPT-125MMixCE78.675.475.381.583.583.2
OPT-125MEMO82.981.080.786.187.984.8

EMO로 미세조정된 모델은 모든 도메인에서 MLE 대비 평균 6.2 포인트 높은 Mauve 점수를 기록함. TaiLr과 MixCE는 이론적 장점에도 불구하고 정규화된 MLE 형태로 퇴화되어 제한적인 개선만 보임.

6.3 Oracle Generator 분석

Oracle GPT-2-Large 모델에서 생성한 데이터로 학습하여 더 세밀한 분포 특성을 분석함.

방법PPL_test ↓PPL_oracle ↓Mauve ↑ROUGE-1 ↑ROUGE-L ↑
MLE70.1114.4677.534.5929.85
TaiLr73.595.2277.434.9530.09
MixCE74.479.4678.435.3130.26
EMO74.955.8583.437.3731.17
  • PPLtest\text{PPL}_{\text{test}}: 테스트 셋에서의 perplexity (재현율 지표)
  • PPLoracle\text{PPL}_{\text{oracle}}: Oracle 모델로 측정한 생성 텍스트의 perplexity (정밀도 지표)

EMO의 PPLoracle\text{PPL}{\text{oracle}}이 MLE 대비 절반 수준(114.46 → 55.85)으로 감소함. 모델이 저품질 토큰을 선택하는 빈도가 크게 줄어들었음을 의미함. 약간 높은 PPLtest\text{PPL}{\text{test}}는 정답 외에 다양한 적절한 토큰에도 확률을 배분하기 때문임. 가장 높은 Mauve 점수는 EMO가 재현율과 정밀도 사이에서 최적의 균형을 달성했음을 보여줌.

6.4 LLM 다운스트림 태스크 성능

WikiText-103에서 경량 미세조정(0.1B 토큰) 후 8개 NLU 태스크에서 in-context learning으로 평가함.

모델방법TESST-2TRECSubjCRRTAGMMLU
LLaMa-7BPre-trained54.194.777.874.791.490.085.631.4
LLaMa-7BMLE53.594.879.074.592.091.885.531.9
LLaMa-7BTaiLr56.294.979.676.892.091.986.333.2
LLaMa-7BMixCE60.095.081.278.592.091.887.533.9
LLaMa-7BEMO65.695.283.479.292.092.189.434.8
LLaMa-13BPre-trained58.595.681.277.491.291.084.544.5
LLaMa-13BMLE58.695.579.876.992.091.384.344.9
LLaMa-13BTaiLr61.995.581.078.592.391.485.645.9
LLaMa-13BMixCE65.795.682.880.692.091.385.946.7
LLaMa-13BEMO70.495.985.281.192.692.288.447.5

MLE 미세조정은 사전학습 모델 대비 미미한 개선만 보이거나 오히려 성능이 하락함. EMO는 별도의 하이퍼파라미터 튜닝 없이 모든 태스크에서 가장 큰 성능 향상을 달성함. 특히 AG News에서 4.1%p, Tweet Emotion에서 11.5%p(7B), 11.9%p(13B) 향상됨.

6.5 EMO의 스케일링 법칙

모델 스케일링: OPT-1.3B/2.7B, LLaMa-7B/13B에서 실험 결과, MLE는 사전학습 모델 대비 일관된 개선을 보이지 못함. TaiLr과 MixCE는 하이퍼파라미터 튜닝 시 긍정적 효과를 보임. EMO는 모든 모델 규모에서 안정적으로 다른 방법들을 능가함.

데이터 스케일링: LLaMa-13B로 미세조정 데이터 양을 변화시키며 실험함. MLE 모델은 미세조정이 진행될수록 정확도가 오히려 하락하는 경향을 보임 (Section 2.2의 이론적 결함 때문). EMO는 가장 큰 성능 향상을 보이며, 단 4M 토큰으로 100M 토큰 학습한 MixCE와 동등한 성능을 달성함.


8. 결론 및 향후 전망

MLE의 고질적 결함 극복

재현율 편향, 부정적 다양성 무시, 학습-평가 불일치 문제를 최적 수송 이론 기반의 EMD로 해결함. 정밀도와 재현율의 균형을 통해 더 인간다운 텍스트를 생성하는 모델 학습이 가능해짐.

압도적인 데이터 효율성

단 4M 토큰만으로 기존 방식이 100M 토큰을 사용했을 때 이상의 성능을 달성함. 사전학습된 LLM의 경량 보정(calibration) 방법으로서 높은 잠재력을 보여줌.

강력한 확장성

모델 규모(1.3B → 13B)와 데이터 양이 증가할수록 더 일관되고 뚜렷한 성능 향상을 보임. 범용 목적의 지속적 미세조정에 유리한 스케일링 특성을 제시함.

profile
그냥 AI 관련 유익해보이는거 이것저것 적어놓음

0개의 댓글