LoRAMoE:Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin 논문 리뷰

김진겸·2024년 5월 12일

MOE NLP 논문리뷰

논문리뷰-NLP

목록 보기

10/12

Overview

https://github.com/Ablustrund/LoRAMoE
MoE 방식을 Lora로 진행
SFT을 하게 되면 Downstream task의 성능은 증가 시키는 반면, global knowledge는 떨어지는데 이를 해결함

Introduction

SFT(Supervised Fine-tuning)는 LLM이 인간의 지시를 따르고 (alignment), 다양한 downstream task의 성능을 높이는 방법 중 하나
SFT을 할 때 training dataset이 많으면 많을 수록 대부분 downstream-task에 대한 성능을 증가 시킴, 그러나 이는 이미 LLM이 가지고 있는 world knowledge를 잊게 함
- 이는 instruction set 사용할 때 더 큼
- world knowledge -> closed QA 등 이미 LLM이 가지고 있는 사전지식 느낌
따라서 이 논문에서는 LoRAMoE라는 프레임워크 제안
- 모델이 world knowledge를 유지하면서도 donwstream task에서 높은 성능을 할 수 있도록
- Lora를 Expert로 두고, 이를 Router로 통합하는 식(MOE + Lora)

Method

Architecture

MoE방식인데 MoE block(FFN 중에 linear)가 LoRA로 나머지 기존 모델 weight는 freeze

Localized Balancing Constraint

아직 정확히 이해가 가지 않음...
Expert을 balance있게 사용하기 위한 기술로, 두가지로 Expert를 나눠서 유형의 작업에 집중할 수 있도록
- world knowledge관련된 task에 집중
- 다른 downstream-task 에 집중
중요도 행렬의 평균과 분산을 활용해서 loss 계산
- 중요도 행렬: 각 Expert가 처리 과정에서 얼마정도 기여하는지 (활성화 정도 결정)
행렬을 통해서 training sample과 expert 사이의 상호 작용을 정량화해서 진행됨.

Experiment

SFT나 LoRA 튜닝 적용한 모델과 비교해 뛰어나거나 비슷한 성능
World knowledge를 평가하는 benchmark에서는 LoraMoE을 사용한게 더 뛰어난 것을 알 수 있음

Discussion

MoE를 Lora로 대체해 훈련하면 resource관점과 학습 난이도에서 더 좋을듯
논문에서도 언급하고 있지만 작은 모델로만 실험한게 아쉬움
- 그러나 오히려 작은 모델이기때문에 실험해보긴 편할듯
Localized Balancing Constraint를 이해하기 위해 MoE와 matrix부분에 대해 공부가 더 필요할 듯 ㅜㅜ

이전 포스트

ART: Automatic multi-step reasoning and tool-use for large language models 논문 리뷰

다음 포스트

SAIL: Search-Augmented Instruction Learning 논문 리뷰

0개의 댓글