MoRAL: MoE Augmented LoRA for LLMs’ Lifelong Learning

하임·2024년 11월 27일

MoE

목록 보기
3/9

https://arxiv.org/pdf/2402.11260


  • 간단 요약

    이 논문에서는 대형 언어 모델(LLM)의 지속적인 학습을 효율적으로 지원하기 위해 MoRAL (Mixture-of-Experts augmented Low Rank Adaptation for Lifelong learning)이라는 새로운 방법을 제안하고 있습니다. 이 방법은 두 가지 핵심 기술인 MoE(전문가 혼합 구조)와 LoRA(저차원 적응)을 결합하여 LLM이 새로운 정보와 기술을 효과적으로 학습하고 기존 지식을 잊지 않도록 합니다. 기존의 방법들이 구조화된 데이터(예: 사실 삼중항)에 의존하는 반면, MoRAL은 더 실용적인 접근 방식으로 질문-답변 형식을 사용합니다.

    주요 기여

    1. MoRAL 기법 개발: MoE의 다중 작업 모델링 기능과 LoRA의 효율성을 결합해 LLM의 지속적인 학습을 가능하게 합니다.

    2. 5L-bench 평가 벤치마크 제안: 새로운 질문-답변 데이터셋을 포함하여 모델의 지속 학습 능력을 평가할 수 있는 지표와 함께 테스트를 위한 벤치마크를 마련했습니다.

    3. 다양한 설정에서의 실험: "open-book" (외부 데이터를 참고)과 "closed-book" (내부 지식만 활용) 두 가지 설정에서 MoRAL의 성능을 평가하고 비교하였습니다.

      MoRAL의 장점

    • MoRAL은 외부 정보의 의존성을 줄이고, 지속적 학습 시 지식 손실(망각)을 최소화합니다.

    • Catastrophic forgetting을 방지하며, 모델이 새로운 지식을 습득하면서도 기존의 지식을 유지할 수 있도록 합니다.

    • 실험 결과, MoRAL은 특히 매개변수가 많은 모델에서 더 높은 성능 개선을 보였습니다.

      실험 결과

      MoRAL은 open-book 설정에서 기본적인 LLM보다 30% 이상 성능을 개선하였고, closed-book 설정에서도 높은 정확도를 유지했습니다.

      방법론(MoRAL)은 크게 세 가지 핵심 아이디어로 이루어져 있습니다. 이를 통해 MoRAL이 어떻게 작동하고, LLM의 평생 학습을 돕는지 쉽게 설명드리겠습니다.


      1. Mixture of Experts (MoE) 구조 활용

      MoE 구조는 여러 개의 전문가 모델을 활용하여 각각 특정한 정보를 처리하는 방식입니다. 즉, 모델 안에 여러 "전문가"가 존재하고, 각각 다른 정보를 학습합니다. 예를 들어, 수학 관련 지식을 잘 다루는 전문가와 역사 지식을 잘 다루는 전문가가 따로 존재한다고 생각하면 됩니다.

      MoRAL에서는 질문이나 요청이 들어오면 "라우터 네트워크"라는 게이트 기능을 통해 어떤 전문가들이 이 질문에 적합한지 선택합니다. 이를 통해 필요한 전문가들만 활성화시키고, 여러 전문가가 정보를 효율적으로 나누어 처리합니다.

      예시:

    • 사용자가 "현대 수학 이론에 대해 설명해줘"라고 요청하면, MoE 구조에서 수학 관련 전문가가 주로 활성화되고, 불필요한 다른 전문가들은 참여하지 않아 효율성을 높입니다.

      2. Low Rank Adaptation (LoRA) 기반의 파라미터 효율적 미세 조정

      LoRA는 모델의 일부 파라미터만을 효율적으로 조정하여 모델을 미세 조정하는 기법입니다. 대형 언어 모델에서는 전체 파라미터를 모두 조정하는 것이 비효율적이고 비용이 많이 듭니다. 따라서, LoRA는 특정한 저차원 행렬을 추가해 필요한 부분만 조정합니다.

      MoRAL에서는 이 LoRA 방식을 통해 기존 LLM의 파라미터 일부만을 조정하여 새로운 지식에 적응하도록 돕습니다. 이렇게 하면 모델이 새로운 정보를 더 잘 기억하면서도 기존 지식을 잃지 않게 됩니다.

      예시:

    • 새로운 기술 트렌드에 대한 지식을 추가할 때, 전체 모델을 다시 훈련시키는 것이 아니라 관련된 부분만 조정해 새로운 지식을 반영하는 방식입니다. 이렇게 하면 기존에 학습한 정보(예: 고전 문학 관련 지식)는 그대로 유지됩니다.

      3. Question-Answer (QA) 쌍 기반 학습

      MoRAL은 기존의 LLM 학습 방식과 달리, 정보를 사실(triplet) 형태로 구조화하지 않고, 자연스러운 질문-응답 쌍을 사용합니다. 기존 방식에서는 "대통령, 조 바이든, 미국"과 같은 사실 트리플렛을 만들어 모델에 넣어주지만, MoRAL은 이러한 구조화 작업 대신 "미국 대통령은 누구인가?"와 같은 질문과 그에 대한 응답("조 바이든")을 학습시킵니다.

      이 방식은 현실적으로 더 많은 데이터를 쉽게 다룰 수 있게 하고, 새로운 정보를 추가하는 데 유연합니다. 질문-응답 쌍은 모델이 새로운 지식을 자연스럽게 학습하고 기억하게 합니다.

      예시:

    • "미국 대통령은 누구인가?"라는 질문과 "조 바이든"이라는 답변을 학습하게 하면, 모델이 이 정보를 실제 사용자가 묻는 다양한 형태의 질문에도 대응할 수 있도록 훈련됩니다.


      MoRAL의 전체 동작 방식 요약

    1. 입력 처리: 질문이나 요청이 들어오면, MoE 구조를 통해 관련 전문가들을 선택합니다.

    2. 학습 방법: LoRA를 통해 필요한 부분만 미세 조정하여 새로운 정보를 효율적으로 학습합니다.

    3. 질문-응답 학습: 사실 관계를 구조화하지 않고, 질문-응답 형태로 정보를 추가하여 모델이 새로운 지식을 더 자연스럽게 학습합니다.

      이 방식은 MoRAL이 새로운 지식을 빠르게 학습하면서도 기존 지식을 잊지 않게 하며, 다양한 응답 상황에서도 유연하게 대응할 수 있도록 돕습니다.


요약

대형 언어 모델(LLM)을 새로운 도메인 및 작업에 적응시키고 이를 효율적인 평생 학습자로 만드는 것은 중요한 과제입니다. 본 논문에서는 MoRAL (Mixture-of-Experts와 Low Rank Adaptation 결합 방식의 평생 학습 모델)을 제안합니다. MoRAL은 MoE의 멀티태스킹 능력과 LoRA의 미세 조정 기능을 결합하여 LLM의 효과적인 평생 학습을 실현합니다. 기존의 사실 관계로 구성된 삼중 항목(triplet) 입력을 사용하는 방식과 달리, MoRAL은 보다 실제적이고 효율적인 학습 전략으로 질문-응답 쌍을 사용합니다. 새로운 데이터 설정을 기반으로, 오픈북 및 클로즈북 환경에서 MoRAL을 엄격히 평가하기 위한 새로운 평가 벤치마크인 5L-bench를 도입하였습니다. 실험 결과는 다음과 같습니다: (i) 오픈북 설정에서 LLM이 빠르게 학습하며, MoRAL로 미세 조정된 Phi-2-2.7B 모델의 경우 클로즈북 대비 "RA" 성능이 최대 30.15% 향상됨; (ii) 파라미터 수가 많은 모델일수록 MoRAL의 성능 향상이 큼; (iii) MoRAL은 기존의 방법보다 망각에 강하며 지식을 더 잘 유지함을 보여줍니다.

1. 서론

대형 언어 모델(LLM)은 방대한 데이터와 컴퓨팅 자원을 사용해 훈련되어, 기계 번역, 문법 오류 수정과 같은 다양한 자연어 처리 작업에서 우수한 성능을 보여줍니다. 그러나 최신 데이터에 대한 적응력 부족은 최근 정보 생성의 제약을 초래하여 정보 격차를 발생시킵니다. 예를 들어, ChatGPT-4가 최신 모델인 Mistral 8x7B에 대한 질문에 제대로 답하지 못하는 경우가 대표적입니다. 이러한 한계는 모델 붕괴와 치명적 망각 등과 같은 리스크를 초래할 수 있습니다. 기존 연구들은 주로 사실 관계로 구성된 문장을 모델 입력으로 사용하지만, 이는 모든 정보를 구조화된 단위로 정리하기 어려워 실용적이지 않습니다. 또한, 기존 접근 방식은 오픈북 또는 클로즈북 설정에 집중하여 두 가지 방법론을 동시에 심층 분석하지 못하였습니다. 이에 따라 실제 적용이 가능한 데이터 큐레이션 방법과 평생 학습을 위한 개선된 모델링 전략이 필요합니다.

MoRAL의 제안
MoRAL은 질문-응답 쌍을 기반으로 하는 평생 학습 아키텍처입니다. MoRAL의 핵심 아이디어는 MoE 구조의 멀티태스킹 모델링 기능과 LoRA의 효율적인 파라미터 특성을 활용하는 것입니다. MoRAL의 효과를 평가하기 위해, 사실 삼중 항목이 아닌 비구조화된 텍스트에서 직접 캡처한 질문-응답 쌍을 포함하는 새로운 데이터셋과 평가 지표로 구성된 5L-bench 평가 벤치마크를 도입했습니다.

2. 관련 연구

  • 연속 학습(Continual Learning): 연속 학습은 과거 지식을 잃지 않고 새로운 기술과 지식을 학습하는 것을 목표로 합니다. Maltoni와 Lomonaco는 연속 학습 전략을 아키텍처, 정규화, 리허설 세 가지로 나눴습니다. 우리의 실험에서는 모델이 새로운 도메인 지식을 학습할 수 있는 능력뿐만 아니라 망각을 피하는 것도 중점적으로 평가했습니다.
  • LLM의 평생 학습: 연속 학습은 새로운 데이터 분포에 적응할 수 있는 실용적인 솔루션을 제공합니다. 기존 접근법은 오버피팅의 위험이 있으며, 이를 완화하기 위해 Lifelong-MoE 등의 확장 가능한 아키텍처가 제안되었습니다. LoRA와 같은 파라미터 효율적 방법들은 작은 파라미터 집합만을 미세 조정하여 작업별 목표를 최적화합니다. 본 논문에서는 MoE와 LoRA의 결합을 통해 효율적인 평생 학습을 위한 방법론을 제안합니다.
  • 모델 편집: 모델 편집 기법은 LLM에 포함된 지식을 효율적으로 수정하는 데 사용됩니다. MoRAL은 사실 삼중 항목 데이터에 의존하지 않기 때문에 데이터 준비와 모델 성능 평가에 있어 효율적입니다.

3. 기초 개념표기법

이 논문에서는 MoRAL 아키텍처의 입력을 ( x ), 출력을 ( y )로 나타냅니다. 5L 평가 벤치마크에서는 쿼리를 ( q ), 문맥을 ( C )로 나타냅니다. ( CrC_r )는 쿼리 ( q )와 관련된 문맥 조각을 나타내며, ( RoR_o )는 오픈북 응답, ( RcR_c )는 클로즈북 응답, ( GtG_t )는 정답입니다.

3.1 오픈북/클로즈북 및 크로스 설정
"오픈북"과 "클로즈북"은 LLM 쿼리에 대한 두 가지 전략입니다. 주요 차이점은 다음과 같습니다.

  • 오픈북: 이 전략에서는 LLM이 추론을 위해 외부 데이터 소스를 참조할 수 있습니다. 외부 데이터 소스에는 데이터베이스, 지식 그래프, 비구조화된 텍스트, 예제 등이 포함될 수 있습니다.
  • 클로즈북: 이 전략에서는 LLM을 모델 훈련 중 얻은 지식만을 기반으로 답변하는 데이터 저장소로 취급합니다.
  • 크로스 설정: 이 두 설정("오픈북"과 "클로즈북")은 서로 연관이 있습니다. 이를 위해 클로즈북 성능 향상이 오픈북 성능에 미치는 영향을 조사하는 기준을 설정했습니다. 또한, 응답의 유창성과 같은 양쪽 시나리오에서 중요한 지표도 있습니다. 이를 평가하기 위해 "크로스 설정"을 사용하여 각 설정의 응답을 동일하게 평가하고 평균 점수를 계산합니다.

3.2 사실 삼중 항목 대 질문-응답 쌍
그림 2에서 기존 접근법과 MoRAL이 사용하는 입력 데이터 형식의 주요 차이점을 설명합니다. 예를 들어 모델의 지식을 {"미국 대통령은 도널드 트럼프입니다"}에서 "조 바이든"으로 업데이트하려고 할 때, 기존 방법은 원본 문서에서 관련 정보 삼중 항목(대통령, 조 바이든, 미국)을 추출하여 문장을 구성합니다. 반면 5L-bench는 이 정보를 질문-응답 쌍으로 재구성합니다. 모든 정보를 삼중 항목 집합으로 변환하는 것이 불가능하므로 후자가 정보 손실을 줄이는 데 더 실용적이고 현실적인 해결책입니다.

4. 평생 학습을 위한 MoRAL

우리는 최신 지식으로 LLM을 지속적으로 업데이트할 수 있는 평생 학습 방법을 개발하는 것을 목표로 합니다. 기존 연구들이 사실 삼중 항목을 사용해 생성한 문장에 의존하는 반면, 우리는 비구조화된 텍스트에서 직접 캡처한 질문-응답 쌍을 입력으로 사용합니다(3.2절 참조). 평생 학습 전략으로 MoE의 멀티태스킹 능력과 LoRA의 미세 조정 기능을 결합한 MoRAL (Mixture-of-Experts augmented Low Rank Adaptation for Lifelong learning)을 제안합니다. MoRAL은 divide-and-conquer(분할 및 정복) 전략을 사용하여 여러 전문가와 다양한 저차원 내재 지식 차원을 활용하여 성능을 강화합니다.

MoRAL의 작업 흐름은 다음과 같습니다:

  • 사전 훈련된 LLM의 가중치 행렬을 분해하기 위해 저차원 행렬을 도입합니다.
  • 이 저차원 행렬을 사전 훈련 모델 위에서 전문가로 사용합니다.
  • 라우터 네트워크로 알려진 게이팅 메커니즘을 사용하여 여러 전문가에 대해 조건부 계산을 허용합니다.

MoRAL의 구조는 그림 3에서 설명됩니다. MoRAL은 여덟 개의 LoRA 전문가 모듈을 사용하며, Jiang et al. (2024)과 유사하게 top-k 라우팅 전략을 채택합니다. 계산 단계는 다음과 같습니다:

  • 라우터 네트워크: ( n )개의 전문가가 있을 때, 라우터 네트워크는 각 전문가의 비율 기여 점수를 계산합니다. 라우터 네트워크는 다음과 같이 정의됩니다. [
    G(x)i=softmax(WgTx)G(x)_i = \text{softmax}(W_g^T x)
    ] 여기서 ( W_g \in \mathbb{R}^{d_m \times n} )은 라우터 네트워크의 가중치이며, ( d_m )은 입력 차원, ( n )은 전문가 수입니다.
  • MoRAL 출력: MoRAL 아키텍처의 최종 출력은 다음과 같이 계산됩니다. [
    y=i=1nsiEi(x)y = \sum_{i=1}^n s_i \cdot E_i(x)
    ] 여기서 ( si=G(x)is_i = G(x)_i )는 ( i )번째 전문가의 게이팅 점수이고, ( Ei(x)E_i(x) )는 입력 ( x )에 대한 전문가의 출력입니다.

5. 5L-Bench (평가 벤치마크)

MoRAL의 성능 평가를 위해 5L-bench라는 새로운 벤치마크를 제안합니다. 이 벤치마크에는 다음이 포함됩니다:

  1. MoRAL의 새로운 데이터 도메인 적응 능력을 테스트하기 위한 새롭게 제작된 데이터셋(Arxiv).
  2. MoRAL이 오래된 지식을 잊지 않고 유지하는 능력을 테스트하기 위해 기존 데이터셋(HotpotQA).
  3. 오픈북, 클로즈북 및 크로스 설정에서 MoRAL의 성능을 엄격히 평가하기 위한 새로운 평가 지표.

5.1 Arxiv 데이터 큐레이션
데이터 큐레이션 파이프라인은 그림 4 상단에 표시됩니다. 이 과정은 비구조화된 텍스트에서 질문-응답 쌍을 생성하는 과정을 설명합니다. 우선 Arxiv에서 라벨이 없는 원본 문서를 가져와 정보 조각 ( C )로 나눕니다. 그 후 GPT-3.5-turbo-16k를 사용하여 각 조각에 대한 질문 ( q )를 생성하고, GPT-4를 사용하여 질문과 관련된 정보를 기반으로 정답 ( G_t )를 생성합니다.

데이터 유출을 방지하기 위해, 우리는 최신 논문(2023년 12월 Arxiv)을 데이터 소스로 사용합니다. 이 과정에서 각 쿼리 ( q )는 고유한 문맥 조각 ( c )와 연결되며, 이 조각과 관련된 문맥 조각 집합 ( C_r )은 쿼리와 문맥 사이의 코사인 유사도를 기반으로 정의된 임계값 ( \theta ) 이상을 초과하는 조각들로 구성됩니다.

[
Cr={cCcos(EMB(q),EMB(c))>θ}C_r = \{ c \in C | \cos(\text{EMB}(q), \text{EMB}(c)) > \theta \}
]

5.2 평가 지표
5L-bench는 오픈북, 클로즈북 및 크로스 설정에서 MoRAL을 테스트하기 위해 다양한 평가 지표를 사용합니다.

  • 오픈북 설정: 모델이 외부 정보 창을 활용할 수 있는 능력을 탐구합니다. 모델이 외부 지식을 단순히 복사하지 않고 실제로 활용하는지 평가합니다.
    • 문맥 일관성(Faith): "골든 문맥"이 주어졌을 때 LLM의 최종 답변이 문맥과 일치하는지를 평가합니다.
    • 비관련 문맥 필터링(Filter): 비관련 문맥과 함께 정보가 주어졌을 때 LLM이 불필요한 답변을 회피하는지를 평가합니다.
    • 거부율(RR): 질문과 관련 없는 데이터가 주어졌을 때 LLM이 질문에 답변하지 않을 수 있는 능력을 평가합니다.
  • 클로즈북 설정: 학습 목표에 중점을 두며 새로운 지식 또는 능력을 테스트합니다. 이 경우, Recall Accuracy (RA)를 평가 지표로 사용합니다.
  • 크로스 설정: 모델의 질문 준수(Query Relevance, QR)와 응답의 유창성(Fluency, FL)을 평가합니다.

각 평가 지표에 대한 세부 사항은 부록에 설명되어 있습니다.


6. 실험

6.1 실험 설정

  • 데이터셋: 성능 평가를 위해 새롭게 큐레이션한 Arxiv 데이터와 오픈 소스 데이터인 HotpotQA(Yang et al., 2018)를 사용했습니다. Arxiv 데이터셋은 수학부터 인공지능까지 다양한 주제를 포함하는 7개의 도메인으로 구성되어 있으며, 새로운 지식을 학습하기 위한 목표 데이터로 사용됩니다. 이 데이터는 학습 세트 80%와 테스트 세트 20%로 나누어 사용했습니다. HotpotQA 데이터셋은 1,500개의 행으로 이루어져 있으며, 지식 유지 능력을 테스트하기 위한 홀드아웃 데이터로 사용됩니다. 데이터 통계는 부록 B.4 (표 5)에 제시되어 있습니다.
  • 실험 설정: MoRAL을 훈련하기 위해 학습률 0.0001의 Adam 옵티마이저(Kingma와 Ba, 2014)를 사용했으며, 배치 크기는 16, 에포크 수는 2로 설정했습니다. 그림 3에서 보여준 바와 같이, MoRAL은 고정된 FFN 레이어에 적용됩니다. 전문가 수는 ( n = 8 ), top ( k = 2 )로 설정했습니다. 식 (3)에서의 임계값 ( \theta )는 0.87로 설정했습니다. 모든 실험은 Pytorch와 Nvidia A100 80G GPU를 사용하여 수행되었습니다.
  • 대형 언어 모델: 실험 평가를 위해 여러 오픈 소스와 클로즈드 소스 LLM을 사용했습니다. 구체적으로 TinyLlama-1.1B (Zhang et al., 2024b), Phi-2-2.7B, Llama2-7B (Touvron et al., 2023) 등의 기본 LLM과 GPT-3.5-turbo16k, Gemini-pro (Google, 2023), Claude2.1 (Anthropic, 2023) 등의 최신 클로즈드 소스 LLM을 사용했습니다. 모델에 대한 세부 정보는 부록 B.2에 있습니다.
  • 기준 모델: 여러 파라미터 효율적 미세 조정 방법을 기준 모델로 사용했습니다. 여기에는 (a) LoRA (Hu et al., 2021), (b) IA3 (Liu et al., 2022), (c) LLaMA-Adapter (Zhang et al., 2023a)가 포함됩니다. 본 모델은 기존 지식 편집 및 평생 학습 기준 모델과 직접 비교할 수 없습니다. 예를 들어 MELO (Yu et al., 2023), MEND (Mitchell et al., 2022)와 같은 모델은 입력으로 사실 삼중 항목을 사용하여 본 연구와 차이가 있습니다. 기준 접근법에 대한 세부 사항은 부록 B.3에 있습니다.
  • 평가 워크플로우: 평가는 오픈북, 클로즈북, 크로스 설정을 중심으로 구성됩니다(3.1절 참조). 클로즈북 설정에서는 모델이 내부 지식만으로 응답을 생성합니다. 오픈북 설정에서는 임베딩 생성에 bge-large-env1.5 모델(Xiao et al., 2023)을 사용하고, 텍스트 블록의 임베딩을 저장하는 벡터 데이터베이스로 chroma를 사용합니다. 쿼리와 유사도가 특정 임계값 ( \theta )를 초과하는 텍스트 블록을 식별하고, 이를 문맥 창에 삽입하여 질문과 응답 간의 관련성을 평가합니다. 최종 평가에서는 GPT-4-1106-preview와 GLM-4를 평가자로 사용하여 편향 위험을 줄였으며, 이들 평가자의 평균 점수를 최종 평가 지표로 사용했습니다.

6.2 실험 결과

  • LLMs는 "오픈북"에서 빠르게 학습함: 표 1은 Arxiv 데이터셋에서 MoRAL의 결과를 기준 모델들과 비교한 것입니다. 오픈 소스 LLM에서 관련 문맥에 노출될 때, 컨텍스트 창에서의 성능이 크게 향상됨을 확인할 수 있습니다. 예를 들어, TinyLlama-1.1B는 클로즈북 설정에서 0.6이던 Recall Accuracy (RA) 점수가 오픈북 설정에서 0.86으로 증가했습니다. 비슷하게, Phi-2-2.7B와 Llama-2-7B의 성능도 오픈북 설정에서 각각 0.73과 0.82로 클로즈북 설정의 0.41과 0.47보다 크게 향상되었습니다. 클로즈드 소스 LLM에서도 GPT-3.5-turbo, Gemini-pro, Claude-2가 오픈북 설정에서 각각 26.0%, 3.7%, 24.6% "RA"가 증가하는 유사한 성과를 보여주었습니다. 이러한 결과는 대형 모델의 맥락 이해와 명령 준수 능력이 더 우수할 수 있음을 시사하며, 소형 오픈 소스 모델과 대형 상용 모델 간의 차이가 언어 및 작업 이해 능력에 기인할 가능성이 큽니다.
  • MoRAL 대 기준 모델: MoRAL이 기준 모델에 비해 오픈북 설정에서 "RA" 지표에서 일관되게 더 우수한 성능을 보였습니다. 예를 들어, MoRAL은 TinyLlama-1.1B, Phi-2-2.7B, Llama-2-7B의 "RA" 점수를 오픈북 설정에서 각각 5.81%, 12.32%, 9.75% 향상시켰습니다. 클로즈북 설정에서는 TinyLlama-1.1B와 Phi-2-2.7B 모델이 LoRA로 미세 조정될 때 MoRAL과 비슷한 "RA" 점수를 보였으나, Llama-2-7B는 MoRAL로 미세 조정될 때 가장 좋은 성능을 보였습니다. 오픈북 메트릭 "Faith", "Filter", "RR"에 대해 MoRAL은 대부분의 기준 모델을 능가했으며, 특히 "Filter" 메트릭에서 큰 성능 차이를 보였습니다. 크로스 설정에서는 MoRAL이 "QR"에서 더 높은 점수를 보이며, 유창성(FL)에서는 기준 모델에 비해 감소 폭이 작았습니다. MoRAL을 사용할 때 유창성 감소가 적다는 점도 주목할 만합니다.

6.3 추가 논의

  • 데이터가 더 필요할까, 파라미터가 더 필요할까? 먼저, "데이터와 모델 파라미터 중 어느 것이 모델을 더 나은 평생 학습자로 만드는 데 필요한가?"라는 질문에 대해 논의했습니다. 사전 훈련된 LLM 중 미세 조정 없이 TinyLlama-1.1B는 1.1B 파라미터만으로도 다른 기준 모델보다 높은 "RA" 성능을 보였습니다. 이는 방대한 데이터셋으로 훈련된 "작은" 언어 모델의 가능성을 시사하며, 최근 연구에서도 2B 파라미터만으로 13B 모델을 능가한 사례와 일치합니다.
  • 파라미터가 적은 모델의 한계: TinyLlama-1.1B처럼 파라미터 수가 적은 모델은 "Faith", "Filter", "RR" 등 오픈북 메트릭에서 더 큰 모델에 비해 성능이 떨어집니다. 특히 "RR"에서 가장 큰 차이를 보이며, TinyLlama-1.1B의 기본 점수는 0.24로, Llama-2-7B의 0.4와 비교됩니다. 이는 더 큰 모델이 이해 범위를 벗어나는 질문을 거절하는 능력이 더 뛰어나다는 것을 보여줍니다. 또한 더 큰 모델의 향상된 맥락 학습 능력은 정보 필터링 및 요약에서도 우수함을 시사합니다(Wei et al., 2023).
  • 새로운 지식을 학습하면서 기존 지식 유지: 대형 모델의 파라미터를 조정하면 기존 지식을 잃어버리는 치명적 망각이 발생할 수 있습니다. 이는 새로운 도메인/작업에 적응하면서 기존 지식을 유지해야 하는 평생 학습에서 중요한 문제입니다. MoRAL의 지식 유지 능력을 평가하기 위해 HotpotQA 데이터셋을 홀드아웃 테스트 세트로 사용해 Arxiv 데이터셋으로 미세 조정된 모델을 재평가했습니다. 표 2의 결과에 따르면, 기준 모델들은 "Faith", "Filter", "RR" 등 메트릭에서 낮은 점수를 보인 반면, MoRAL은 이러한 메트릭에서 최소한의 손실만 발생하면서 명령 준수와 언어 유창성(FL)에서 우수한 성능을 보였습니다. 표 1과 표 2의 결과를 비교하면, 기준 모델들은 새로운 타겟 도메인에서 "RA" 점수를 크게 향상시키지만, 홀드아웃 테스트에서는 "RA" 점수가 감소함을 알 수 있습니다. 반면, MoRAL은 상대적으로 안정적인 성능을 유지하며 치명적 망각에 더 잘 저항하는 모습을 보입니다. 그림 6의 왼쪽 절반은 MoRAL이 새로운 지식을 학습하면서도 지식 유지 능력을 개선한 모습을 보여줍니다. 오른쪽 절반은 HotpotQA 데이터에서 LoRA 기준 모델이 낮은 "RA" 점수를 보이는 반면, MoRAL은 "RA" 점수를 상승시키는 모습을 보여줍니다. MoRAL의 전반적인 지식 유지 능력은 오픈북 시나리오에서 더 두드러집니다. 참고로, 이 실험에서는 사전 훈련된 모델들이 HotpotQA 데이터셋에 대해 더 높은 초기 점수를 보였는데, 이는 (i) HotpotQA와 그 출처인 Wikipedia가 LLM 훈련 데이터의 일부였거나, (ii) 모델이 2018년 이전의 지식을 포함하는 데이터셋을 사용했기 때문일 가능성이 있습니다. 따라서 이러한 초기 편향은 모델이 해당 기간의 정보를 더 잘 이해하도록 유도했을 수 있습니다(Nylund et al., 2023).

7. 결론

본 논문에서 우리는 다음과 같은 기여를 했습니다: (i) LLM의 효율적이고 효과적인 평생 학습을 위한 MoRAL을 제안하였으며, (ii) MoRAL의 성능을 기준 모델들과 비교 평가하기 위한 5L-bench 평가 벤치마크를 제안했습니다. 향후에는 더욱 대규모의 모델과 Mixture of Vectors (MoV)와 같은 효율적인 하이브리드 구조를 탐구할 계획입니다(Zadouri et al., 2023).

8. 한계

  • 표면적 학습 대 심층적 이해: 이 논문은 미세 조정된 모델이 오픈북과 클로즈북 설정에서 상당한 성능 향상을 이루는 것을 보여주었지만, 모델이 표준 응답에 더 가깝게 답변을 생성하는 표면적 학습만 이루고 있는지, 아니면 훈련 데이터 내의 지식과 개념을 진정으로 이해하고 있는지는 평가하지 않았습니다.
  • 평가자로서 LLM의 신뢰성: 본 연구에서는 평가의 편향을 줄이기 위해 GPT-4와 GLM-4를 평가자로 사용했습니다(Hada et al., 2023). 대형 언어 모델들은 인간 평가자에 비해 일관성이 높은 것으로 알려져 있지만, 더 높은 성능의 모델을 사용해 낮은 성능의 모델을 평가하면 평가자 모델의 특성에 맞춰 정렬될 가능성이 있습니다(Lin and Chen, 2023). 이러한 정렬은 모델이 인간의 이해에 맞춰 조정될 수 있는 능력을 제한하여 성능의 상한선을 제약할 수 있습니다.

profile
NLP 공부합니당

0개의 댓글