Yuan 2.0-M32: Mixture of Experts with Attention Router

하임·2024년 11월 28일

MoE

목록 보기

5/14

간단 요약

Yuan 2.0-M32는 Attention Router를 사용하여 MoE(Mixture-of-Experts) 구조에서 전문가들 간의 상관관계를 반영하여 라우팅 성능을 향상시켰습니다. Attention Router는 각 전문가의 상관관계를 계산하는 계수 행렬을 적용하여 입력 토큰이 특정 전문가들에게 할당될 확률을 계산합니다. 구체적으로, 각 전문가에 대해 Q, K, V 행렬을 통해 어텐션을 수행하고, 최종 확률 값을 Softmax를 통해 산출하여 가장 높은 확률을 가진 상위 전문가 2명을 활성화합니다.

이 접근 방식의 결과로 Yuan 2.0-M32는 클래식 라우터를 사용할 때보다 정확도가 향상되었습니다. 예를 들어, MATH 및 ARC-Challenge 벤치마크에서 Llama 3-70B와 같은 고성능 모델을 능가하는 성과를 보였으며, 특히 MATH 벤치마크에서 55.9%의 정확도를 기록해 Llama 3-70B보다 약 10% 높은 성능을 달성했습니다. 이는 모델의 활성 파라미터 수가 3.7B에 불과하여 70B 규모 모델의 약 5%의 계산량으로도 높은 정확도를 유지할 수 있는 효율성을 보여줍니다.

Yuan 2.0-M32의 Attention Router는 단순히 어텐션을 활용한 것이 아니라, 전문가 간의 상관관계를 반영하여 라우팅을 최적화하기 위해 특별히 설계된 메커니즘입니다. 일반적인 MoE 라우터에서는 각 전문가의 피처 벡터와 입력 토큰 간의 내적(dot product)을 계산하여 가장 높은 값을 가진 상위 전문가를 선택하는 방식으로 작동합니다. 반면, Yuan 2.0-M32의 Attention Router는 아래와 같은 과정으로 작동하여 전문가들 간의 상관관계를 반영합니다.

Attention Router의 작동 원리

Query, Key, Value 계산:
- 각 전문가에 대해 Query Q , Key K , Value V 벡터를 계산합니다. 이때 입력 토큰 I 를 이용하여 다음과 같이 세 가지 벡터를 계산합니다.
$Q = W \cdot I, \quad K = W' \cdot I, \quad V = W'' \cdot I$
- 여기서 $W$ , $W'$ , $W''$ 는 각 벡터를 계산하기 위한 가중치 행렬입니다. 이 과정을 통해 각 전문가의 Query, Key, Value를 얻습니다.
전문가 간 상관 관계 반영:
- 계산된 Q 와 K 를 이용하여 전문가 간 상관관계를 어텐션 방식으로 반영합니다. 구체적으로, Softmax와 내적을 통해 P 확률 벡터를 계산합니다.
$P = \text{Softmax}(Q \cdot K^T) \cdot V$
- 여기서 $Q \cdot K^T$ 는 각 전문가 간의 상관 관계를 나타내는 행렬이며, Softmax 함수로 정규화하여 최종 확률 값을 얻습니다.
상위 전문가 선택:
- P 벡터에서 가장 높은 값을 가진 상위 M 개의 전문가를 선택합니다. Yuan 2.0-M32에서는 $M = 2$ 로 설정되어 있으며, 총 32개의 전문가 중에서 두 개의 전문가가 활성화됩니다.
활성 전문가의 결합:
- 선택된 전문가의 출력을 가중합하여 최종 출력을 생성합니다. 각 전문가의 출력은 활성화 확률에 따라 가중합되며, 이를 통해 최종 모델 출력을 만듭니다.

주요 성능 개선 요소

상관관계 반영: Attention Router는 단순히 입력과 전문가 간의 내적만으로 라우팅하는 기존 방식과 달리, 전문가 간의 관계를 고려하여 전문가를 선택합니다. 이로 인해 라우팅의 효율성이 증가하며, 모델의 정확도도 기존 라우터 대비 개선되었습니다.
효율적 라우팅: Yuan 2.0-M32의 Attention Router는 더 적은 활성 파라미터(3.7B)로 높은 성능을 유지하며, 계산 효율성도 높습니다.

초록

Yuan 2.0-M32는 Yuan-2.0 2B와 유사한 기본 아키텍처를 가지며, 32개의 전문가 중 2개가 활성화되는 mixture-of-experts(MoE) 아키텍처를 사용합니다. 새로운 라우터 네트워크인 Attention Router가 제안되어 전문가 선택의 효율성을 높여 기존의 클래식 라우터 네트워크를 사용하는 모델에 비해 정확도가 향상되었습니다. Yuan 2.0-M32는 2000B 토큰으로 처음부터 학습되었으며, 학습에 소요된 계산량은 같은 규모의 밀집 모델 대비 단 9.25%에 불과합니다. Yuan 2.0-M32는 총 40억 개의 파라미터 중 3.7억 개의 활성화된 파라미터와 토큰당 7.4 GFlops의 전방 계산으로 코딩, 수학 및 다양한 전문 도메인에서 경쟁력 있는 성능을 보여주며, 이는 Llama3-70B의 1/19에 불과합니다. Yuan 2.0-M32는 MATH와 ARC-Challenge 벤치마크에서 각각 55.89와 95.8의 정확도로 Llama3-70B를 능가합니다. Yuan 2.0-M32의 모델과 소스 코드는 GitHub에서 제공됩니다.

1. 서론

토큰당 고정된 계산량이 주어진 경우, Mixture of Experts(MoE) 구조를 활용하여 전문가의 수를 늘림으로써 밀집 모델보다 훨씬 큰 규모로 모델을 구축할 수 있으며, 더 높은 정확도를 달성할 수 있습니다. 실제로는 제한된 컴퓨팅 자원으로 모델을 학습하는 것이 일반적이며, MoE는 모델의 대규모화와 데이터셋 규모, 제한된 컴퓨팅 능력에 수반되는 막대한 비용을 줄이기 위한 좋은 대안으로 간주됩니다.

MoE 개념은 1991년으로 거슬러 올라가며(Jacobs et al., 1991), 총 손실은 각 전문가의 독립적인 판단 능력에 따른 가중 손실의 조합으로 구성됩니다. 2017년에 Shazeer et al.에 의해 처음으로 sparsely-gated MoE가 번역 모델에 도입되었습니다. 이 라우팅 전략을 통해 매우 적은 수의 전문가만 활성화되어 추론에 사용되며, 이는 모든 전문가를 동시에 호출하지 않고도 계산 효율성을 매우 높입니다. Noisy Top-K Gating 라우팅 네트워크는 소프트맥스 함수에 조정 가능한 노이즈를 추가하고 상위 K 값을 유지하여 전문가의 활용 균형을 맞추기 위해 사용됩니다. 최근 모델의 규모가 증가함에 따라, 효율적인 계산 자원 할당을 위해 라우팅 전략의 역할이 점점 더 주목받고 있습니다.

MoE 구조에서 전문가 라우팅 네트워크는 핵심적인 요소로, 각 토큰을 할당할 전문가를 선택하기 위해 확률을 계산합니다. 현재 가장 일반적인 MoE 구조에서는 각 전문가를 나타내는 피처 벡터와 토큰 간의 내적(dot product)을 수행하고, 가장 큰 값을 가진 전문가를 선택하는 클래식 라우팅 알고리즘을 사용합니다(Shazeer et al., 2017; Fedus, Zoph 및 Shazeer, 2022; Zhou et al., 2022). 이 변환에서 전문가의 피처 벡터는 독립적이며, 전문가 간의 상관관계를 무시합니다. 그러나 MoE 구조에서는 보통 한 번에 두 명 이상의 전문가가 선택되며, 다수의 전문가가 계산에 협력하는 경우가 많습니다. 따라서 전문가 간의 관계를 고려하면 모델의 정확도가 향상될 가능성이 큽니다.

주요 기여

본 연구의 주요 기여는 다음과 같이 요약됩니다:

전문가 간의 상관관계를 고려하는 Attention Router를 제안하여 기존 클래식 라우터 구조와 비교해 더 높은 정확도를 달성했습니다.
총 40억 개의 파라미터와 3.7억 개의 활성화된 파라미터로 구성된 Yuan 2.0-M32 모델을 공개합니다. 총 32명의 전문가가 존재하며 각 토큰에 대해 2명의 전문가가 활성화됩니다. 학습 계산 소모량은 유사한 파라미터 규모의 밀집 모델의 1/16에 불과하며, 추론 비용은 3.7억 파라미터를 가진 밀집 모델과 유사합니다.

2. 관련 연구

Gshard (Lepikhin et al., 2020)는 6천억 개 이상의 파라미터를 가진 거대 모델로, Transformer 인코더에 처음으로 MoE 방법을 도입했으며, 가속기 간 라우팅을 통해 효율적인 분산 병렬 컴퓨팅 아키텍처를 제공합니다. Switch Transformer (Fedus, Zoph 및 Shazeer, 2022)는 희소 라우팅(sparse routing)을 통해 MoE 라우팅 알고리즘을 단순화했습니다. Zhou 등(2022)은 MoE 시스템에서 최적의 부하 분산을 달성하기 위한 새로운 MoE 라우팅 알고리즘인 Expert Choice (EC) 라우팅 알고리즘을 제안했습니다. Mistral 8x7B 모델은 여러 인간 벤치마크에서 클래식 라우팅 네트워크를 통해 10배 더 큰 파라미터를 가진 모델을 능가했습니다(Jiang 등, 2024). DBRX는 미세하게 나눈 MoE 아키텍처를 사용해 16개 중 4개의 전문가를 선택합니다(Mosaic AI 연구, 2024). DeepSeekMoE는 미세한 전문가 분할과 공유 전문가 격리를 통해 전문가 전문성을 개선했습니다(Dai 등, 2024). 공유된 전문가들은 모든 입력 토큰에 대해 활성화되며 라우팅 모듈의 영향을 받지 않는데, 이는 다른 전문가들이 특정 지식 도메인에 집중하는 데 도움이 될 수 있습니다.

위의 연구들은 전문가 라우팅 전략 최적화에 집중하고 있으나, 전문가 간의 상관관계를 무시하는 클래식 라우터 네트워크를 그대로 사용합니다. 본 연구는 전문가 간 내재된 상관관계를 포함하는 라우터 네트워크 설계에 중점을 둡니다. 본 논문에서 제안한 라우팅 네트워크는 기존 연구를 보완하는 역할을 합니다.

3. 모델 아키텍처

Yuan 2.0-M32는 Yuan 2.0-2B(Wu 등, 2023)의 모델 구조를 기반으로 합니다. Yuan 2.0은 Localized Filtering-based Attention (LFA)을 도입하여 입력 토큰의 지역적 의존성을 반영함으로써 모델의 정확도를 향상시켰습니다. Yuan 2.0-M32에서는 각 계층의 밀집 피드포워드 네트워크(FFN)를 MoE 구성 요소로 대체하였습니다.

그림 1은 모델에 적용된 MoE 레이어의 아키텍처를 보여줍니다. 4개의 FFN(실제로는 32명의 전문가) 예시로 각 MoE 레이어는 전문가 그룹으로 구성됩니다. 전문가 앞에 위치한 라우터 네트워크가 입력 토큰을 관련 전문가로 배분합니다. 클래식 라우터 네트워크는 본질적으로 각 전문가에 대한 피처 벡터를 설정하고, 입력 토큰과 각 전문가의 피처 벡터 간의 내적(dot product)을 계산하여 토큰과 전문가 간의 특정 가능성을 구합니다. 가장 가능성이 높은 전문가들이 활성화되어 후속 계산에 참여합니다.

(그림 1: Yuan 2.0-M32 아키텍처의 설명. 왼쪽 그림은 MoE 레이어가 추가된 Yuan 2.0 아키텍처의 확장 예시입니다. MoE 레이어는 Yuan 2.0의 피드포워드 레이어를 대체합니다. 오른쪽 그림은 MoE 레이어 구조를 나타내며, 각 입력 토큰이 32명의 전문가 중 2명에게 할당됩니다. MoE의 출력은 선택된 전문가들의 가중 합산입니다.)

(그림 2: 어텐션 라우터 구조 개요. (a) 클래식 라우터, (b) 어텐션 라우터)

그림 2(a)는 클래식 라우터 네트워크의 구조를 보여줍니다. 각 전문가의 피처 벡터는 서로 독립적이며, 확률 계산 시 전문가 간의 상관관계를 고려하지 않습니다. 대부분의 MoE 모델(Lepikhin 등, 2020; Fedus, Zoph 및 Shazeer, 2022; Zhou 등, 2022)에서 두 명 이상의 전문가가 계산에 참여하도록 선택되는 경우가 일반적이며, 이는 자연스럽게 강한 상관관계를 유발합니다. 전문가 간의 상관관계를 고려하면 정확도 향상에 기여할 수 있습니다.

그림 2(b)는 본 연구에서 제안한 새로운 라우터 네트워크인 어텐션 라우터의 아키텍처를 보여줍니다. 이 구조는 전문가 간의 상관관계를 반영하는 상관 행렬을 생성하여 최종 확률 값 계산에 적용합니다. 구체적으로, 토큰 벡터 I \in R^d에 대해 N명의 전문가가 주어졌을 때, 전문가 라우팅 과정은 다음과 같이 진행됩니다:

$Q = WI, W \in R^{N \times d}$
$K = W'I, W' \in R^{N \times d}$
$V = W''I, W'' \in R^{N \times d}$
$P = Softmax(QK^T)V, P \in R^N$

이후, P 값의 상위 M값을 선택하여 M명의 전문가를 결정합니다. 본 논문에서는 M=2 , N=32 , d=2048 로 설정했습니다.

모델	파라미터 수 (M)	테스트 손실
어텐션 라우터	826.0	2.109
클래식 라우터	825.8	2.117
공유 전문가 라우터	825.8	2.117

(표 1: 다양한 라우터 구조 간의 비교)

표 1은 서로 다른 라우터의 정확도 결과를 보여줍니다. 본 모델은 어텐션 라우터를 사용해 학습 가능한 8명의 전문가를 포함하며, 클래식 라우터 모델도 유사한 파라미터 규모를 위해 8명의 학습 가능한 전문가를 사용합니다. 클래식 라우터 구조는 Mixtral 8*7B(Jiang 등, 2024)에서 사용된 것과 동일한 구조를 적용했으며, 이는 선형 계층 위에 소프트맥스를 사용합니다. 공유 전문가 라우터는 클래식 라우터 아키텍처와 공유 전문가 격리 전략(Dai 등, 2014)을 채택하여, 공통 지식을 포착하기 위한 고정 전문가 2명과, 라우터가 선택한 14명의 전문화된 전문가 중 상위 2명을 결합합니다. 세 모델 모두 300억 개의 토큰으로 학습하고 추가로 100억 개의 토큰을 테스트에 사용했습니다. 클래식 라우터와 공유 전문가 라우터 간의 결과를 보면, 후자는 7.35%의 추가 학습 시간을 필요로 하며 동일한 테스트 손실을 얻습니다. 공유 전문가의 계산 효율은 상대적으로 낮고, 클래식 MoE 전략에 비해 더 나은 학습 정확도를 제공하지 않습니다. 따라서 본 모델에서는 공유 전문가 없이 클래식 라우팅 전략을 채택했습니다.

모델의 확장성을 테스트하기 위해 전문가 수를 늘리고, 전문가당 파라미터 크기는 고정했습니다. 학습 가능한 전문가 수가 증가하면 모델 용량만 변경되고 실제 활성화된 모델 파라미터는 변하지 않습니다. 모든 모델은 500억 개의 토큰으로 학습되고, 추가로 100억 개의 토큰을 테스트에 사용했습니다. 활성화되는 전문가 수는 2개로 설정하고, 세 모델의 학습 하이퍼파라미터는 동일하게 유지했습니다. 전문가 확장 효과는 500억 개의 토큰 학습 후 테스트 손실로 측정됩니다(표 2 참조). 학습 가능한 전문가 8명을 가진 모델에 비해 16명인 모델은 손실이 2% 낮아졌고, 32명인 모델은 3.6% 낮아졌습니다. Yuan 2.0-M32의 정확도를 고려하여 32명의 전문가를 선택했습니다.

모델	테스트 손실
8명의 전문가	1.820
16명의 전문가	1.787
32명의 전문가	1.754

(표 2: 확장 실험 결과)

4. 학습

4.1 모델 학습

Yuan 2.0과 유사하게, Yuan 2.0-M32는 데이터 병렬성과 파이프라인 병렬성을 결합하여 학습되었으며, 텐서 병렬성이나 옵티마이저 병렬성은 사용하지 않았습니다. 학습 하이퍼파라미터는 부록 A에 나와 있으며, 그림 3은 손실 곡선을 보여줍니다. 최종 학습 손실은 1.22입니다.

(그림 3: 2000B 토큰에 대한 Yuan 2.0-M32의 사전 학습 손실)

4.2 파인 튜닝

파인 튜닝 중에는 시퀀스 길이를 16384로 확장했습니다. CodeLlama 연구(Rozière et al., 2023)를 참고하여, 시퀀스 길이가 길어짐에 따라 주의(attention) 점수가 감소하는 문제를 방지하기 위해 Rotary Position Embedding(RoPE) 주파수의 기본 값을 재설정했습니다. 기존의 기본 값을 단순히 큰 값으로 증가시키기보다, NTK-aware 방식(bloc97, 2023)을 사용하여 새로운 기본 값을 계산했습니다.

$b' = b \cdot s^{\frac{|D|}{|D|-2}}$

여기서 b 는 원래의 기본 값(10000), s 는 원래 문맥 길이에서 확장된 문맥 길이로의 확장 비율(4096에서 16384로 확장하여 s = 4 )을 나타냅니다. |D| 는 본 설정에서 128입니다. 따라서 새로운 기본 값 b' 는 40890으로 계산되었습니다.

또한, 16K 길이의 시퀀스에서 Needle-retrieval 작업을 수행하면서 사전 학습된 Yuan 2.0-M32 모델의 NTK-aware 기본 값과 다른 기본 값(40000, 80000, 160000, 320000, 640000, 1280000, 2560000, 5120000, 10240000)을 비교했습니다(gkamradt, 2023). NTK-aware 기본 값 40890이 가장 우수한 성능을 보여, 파인 튜닝 시에 40890을 적용했습니다.

4.3 사전 학습 데이터셋

Yuan 2.0-M32는 2000B 토큰의 이중 언어 데이터셋을 사용해 처음부터 학습되었습니다. 사전 학습을 위한 원본 데이터는 3400B 토큰 이상을 포함하며, 데이터 품질과 양에 따라 각 카테고리의 가중치를 조정했습니다.

사전 학습 말뭉치는 다음과 같이 구성되었습니다:

웹 크롤링 데이터, 위키, 학술 논문, 서적, 코드, 수학 및 수식, 특정 분야의 전문 지식을 다루는 44개의 하위 데이터셋. 일부는 오픈 소스 데이터셋이며, 나머지는 Yuan 2.0에서 생성됨.
Yuan 1.0에서 상속된 일부 공통 크롤링 데이터, 중국어 서적, 대화, 중국 뉴스 데이터도 포함됨(Wu et al., 2021).

자세한 데이터셋 구성과 출처 정보는 다음과 같습니다:

웹(25.2%): 웹사이트 크롤링 데이터는 오픈 소스 데이터셋과 Yuan 1.0에서 사용한 공통 크롤링 데이터를 포함합니다. 고품질 콘텐츠를 추출하기 위한 Massive Data Filtering System(MDFS)에 관한 자세한 내용은 Yuan 1.0을 참조하세요.
백과사전(1.2%), 논문(0.84%), 서적(6.4%), 번역(1.1%) 데이터는 Yuan 1.0과 Yuan 2.0 데이터셋에서 상속됨.
코드(47.5%): 코드 데이터셋은 Yuan 2.0과 비교하여 크게 확장되었습니다. Stack v2(Lozhkov et al., 2024)에서 코드를 채택하였으며, Stack v2의 주석을 중국어로 번역했습니다.
수학(6.36%): Yuan 2.0의 수학 데이터를 재사용했으며, 주요 데이터 출처는 오픈 소스 데이터셋인 proof-pile v1, v2, AMPS, MathPile, StackMathQA 등입니다.
특정 분야(1.93%): 다양한 배경 지식을 가진 데이터셋.

4.4 파인 튜닝 데이터셋

파인 튜닝 데이터셋은 Yuan 2.0에서 사용된 데이터셋을 확장하여 구성되었습니다.

코드 지시 데이터셋: LLMs를 사용하여 생성된 중국어 지시 코드 데이터와 일부 영어 주석이 포함된 코드 데이터가 포함됩니다. 데이터의 약 30%는 영어로, 나머지는 중국어로 작성되었습니다.
파이썬 코드와 영어 주석은 Magicoder-Evol-Instruct-110K 및 CodeFeedback-Filtered-Instruction에서 수집되었으며, “python” 태그가 있는 지시 데이터가 포함됩니다.
수학 지시 데이터셋: 모든 수학 지시 데이터는 Yuan 2.0의 파인 튜닝 데이터셋에서 상속되었습니다.
안전 지시 데이터셋: Yuan 2.0의 채팅 데이터셋에 추가하여, 공개된 안전 정렬 데이터셋(Ji et al., 2024)을 기반으로 양언어 안전 정렬 데이터셋을 구축했습니다.

4.5 토크나이저

Yuan 2.0-M32의 영어 및 중국어 토크나이저는 Yuan 2.0에서 사용된 것을 그대로 사용합니다.

5. 결과

Yuan 2.0-M32는 코드 생성 평가를 위한 HumanEval, 수학 문제 해결을 위한 GSM8K 및 MATH, 과학 지식과 추론을 위한 ARC, 통합 벤치마크로 MMLU를 사용하여 평가되었습니다.

5.1 코드 생성

코드 생성 능력은 HumanEval 벤치마크로 평가되었으며, Yuan 2.0에서 언급된 평가 방법과 프롬프트를 유사하게 사용했습니다. Yuan 2.0-M32의 zero-shot 결과와 다른 모델들과의 비교 결과는 표 3에 나와 있습니다. Yuan 2.0-M32의 성능은 DeepseekV2와 Llama3-70B에 이어 두 번째로 높으며, 활성 파라미터와 계산 비용이 훨씬 낮음에도 불구하고 대부분의 다른 모델을 초과합니다.

모델	파라미터 (B)	활성 파라미터 (B)	HumanEval (zero-shot)
Llama 3-70B	70	70	81.7
Yuan 2.0-M32	40	3.7	74.4 (78.1, 14 shots)

Yuan 2.0-M32는 zero-shot에서 HumanEval 정확도에서 74.4%를 기록하며, 14-shot 학습을 통해 정확도가 78.0%로 개선되었습니다.

5.2 수학

Yuan 2.0-M32의 수학적 능력은 GSM8K와 MATH 벤치마크로 평가되었습니다. GSM8K에 대한 프롬프트 및 테스트 전략은 Yuan 2.0과 유사하며, 차이점은 8-shot으로 실행했다는 것입니다(표 4 참조).

모델	파라미터 (B)	활성 파라미터 (B)	GSM8K	MATH
Llama 3-70B	70	70	93.0	50.4
Yuan 2.0-M32	40	3.7	92.7	55.9

MATH 데이터셋은 도전적인 12,500개의 수학 문제를 포함하며, Yuan 2.0-M32는 체인 오브 사고(Chain of Thought, CoT) 방식을 사용해 최종 답을 생성하여 55.9의 최고 점수를 기록했습니다.

5.3 MMLU

Massive Multitask Language Understanding (MMLU)은 STEM, 인문학, 사회과학 등에서 57개의 과목을 다루며, 초등 수준의 언어 과제부터 고급 논리 추론 과제까지 포함합니다. MMLU의 모든 질문은 영어로 된 객관식 QA 문제입니다. 모델은 올바른 선택지나 관련 분석을 생성해야 합니다.

Yuan 2.0-M32의 입력 데이터는 부록 B와 같이 구성됩니다. <sep> 이전의 텍스트가 모델에 전달되며, 정답 또는 선택지 레이블과 관련된 모든 답변이 참으로 간주됩니다.

최종 정확도는 MC1로 측정됩니다(표 5). MMLU에 대한 결과는 우리 모델이 다양한 분야에서 갖는 능력을 보여줍니다. Yuan 2.0-M32는 성능 면에서 Mixtral-8×7B, Phi-3-mini, Llama 3-8B를 능가합니다.

모델	파라미터(B)	활성 파라미터(B)	MMLU
Llama 3-70B	70	70	80.3
Llama 3-8B	8	8	68.4
Phi-3-medium	14	14	78.0
Phi-3-small	7	7	75.7
Phi-3-mini	3.8	3.8	68.8
Qwen1.5-72B	72	72	76.2
DeepseekV2	236	21	77.8
Mixtral-8×22B	141	39	77.8
Mixtral-8×7B	47	12.9	70.6
Yuan 2.0-M32	40	3.7	72.2

표 5: Yuan 2.0-M32와 다른 모델의 MMLU 비교

5.4 ARC

AI2 Reasoning Challenge (ARC) 벤치마크는 3학년부터 9학년까지의 과학 시험에서 나온 객관식 QA 데이터셋으로, Easy와 Challenge 부분으로 나뉩니다. Challenge 부분은 추가적인 추론이 필요한 더 복잡한 문제들을 포함합니다. 우리는 모델을 Challenge 부분에서 테스트했습니다.

모델	파라미터(B)	활성 파라미터(B)	ARC-C
Llama 3-70B	70	70	93.3
Llama 3-8B	8	8	78.6
Phi-3-medium	14	14	91.6
Phi-3-small	7	7	90.7
Phi-3-mini	3.8	3.8	84.9
Qwen1.5-72B	72	72	91.7
DeepseekV2	236	21	92.3
Mixtral-8×22B	141	39	91.3
Mixtral-8×7B	47	12.9	85.9
Yuan 2.0-M32	40	3.7	95.8

표 6: Yuan 2.0-M32와 다른 모델의 ARC-Challenge 비교

질문과 선택지는 직접 연결되고 <n>으로 구분되어 부록 B에 제시된 대로 프롬프트됩니다(MMLU의 패턴과 유사). <sep> 이전의 텍스트가 모델에 전달되며, 모델은 레이블 또는 해당하는 답변을 생성해야 합니다. 생성된 답변은 정답과 비교되며, 결과는 MC1 기준으로 계산됩니다.

ARC-C의 결과는 표 6에 표시되며, Yuan 2.0-M32가 복잡한 과학 문제 해결에 뛰어남을 보여줍니다—이 벤치마크에서 Llama3-70B를 능가합니다.

표 7: Yuan 2.0-M32와 다른 모델의 품질 대 크기 비교

모델	파라미터(B)	활성 파라미터(B)	추론 시 GFlops/토큰	파인튜닝 시 GFlops/토큰	평균 정확도	평균 정확도/GFlops (추론)
Llama 3-70B	70	70	140	420	79.25	0.57
Llama 3-8B	8	8	16	48	64.15	4.00
Qwen1.5-72B	72	72	144	432	72.6	0.50
DeepseekV2	236	21	42	126	79.05	1.88
Mixtral8×22B	141	39	78	234	72.38	0.93
Mixtral-8×7B	47	12.9	25.8	77.4	60.83	2.36
Yuan 2.0-M32	40	3.7	7.4	22.2	79.15	10.69

표 7: Yuan 2.0-M32와 다른 모델의 정확도 대 계산량 비교. 평균 정확도는 GSM-8K, MATH, HumanEval, MMLU, ARC-C의 점수를 평균한 값입니다.

5.1절부터 5.4절까지, 우리는 Yuan 2.0-M32의 성능을 다양한 도메인에서 평가하기 위해 세 가지 MoE 모델(Mixtral 계열, Deepseek)과 여섯 가지 밀집 모델(Qwen [Bai 등, 2023], Llama 계열 및 Phi-3 계열 [Abdin 등, 2024])과 비교했습니다. 표 7은 Yuan 2.0-M32와 다른 모델의 정확도 대비 계산량을 비교한 것입니다. Yuan 2.0-M32는 활성 파라미터가 단 3.7B이고, 파인튜닝 시 토큰당 22.2 GFlops를 사용하여, 비슷하거나 더 나은 결과를 얻기 위해 가장 경제적입니다. 표 7은 우리의 모델이 추론 중에 뛰어난 계산 효율성과 성능을 보여줌을 암시합니다. Yuan 2.0-M32의 평균 정확도는 79.15로 Llama3-70B와 경쟁할 만합니다. 그리고 평균 정확도/토큰당 GFlops 값은 10.69로, Llama3-70B보다 18.9배 더 큽니다.

6. 결론

본 연구에서는 Yuan 2.0을 기반으로 한 이중 언어 MoE 언어 모델인 Yuan 2.0-M32를 소개합니다. 이 모델에 적용된 Attention Router는 클래식 라우터 네트워크보다 높은 정확도를 달성합니다. Yuan 2.0-M32는 활성 파라미터가 단 3.7B이고, 추론 시 토큰당 7.4 GFlops를 사용하며, 이는 모두 Llama3-70B의 약 1/19 수준입니다. ARC-C 벤치마크에서, 우리 모델은 활성 파라미터가 단 5%임에도 불구하고 Llama 3-70B를 2.5점 차이로 능가합니다. MATH 벤치마크에서도 Yuan 2.0-M32는 55.9의 최고 점수를 기록하여 Llama 3-70B를 약 10% 능가하며, 계산 비용은 약 5%에 불과합니다. 이러한 결과는 우리의 모델이 추론 중에 뛰어난 계산 효율성과 성능을 가지고 있음을 시사합니다. 우리는 Yuan 2.0-M32 모델을 GitHub에서 공개하여 접근성을 높였으며, Yuan 2.0과 마찬가지로 오픈 소스 모델이 LLM과 AI 산업 생태계의 발전에 기여하기를 희망합니다.

하임

NLP 공부합니당

이전 포스트

Mixture-of-Experts with Expert Choice Routing

다음 포스트