MONET: Transformer 모델을 위한 Monosemantic Experts의 혼합
저자
Jungwoo Park¹,²
Young Jin Ahn²
Kee-Eung Kim²
Jaewoo Kang¹,³
¹ Korea University, ² KAIST, ³ AIGEN Sciences
{jungwoo-park, kangj}@korea.ac.kr
{snoop2head, kekim}@kaist.ac.kr
요약
대규모 언어 모델(LLM)의 내부 연산을 이해하는 것은 모델을 인간의 가치와 정렬시키고 독성 콘텐츠 생성과 같은 바람직하지 않은 행동을 방지하기 위해 매우 중요합니다. 그러나 메커니즘적 해석 가능성(mechanistic interpretability)은 다의성(polyspecificity)에 의해 방해받고 있습니다. 이는 개별 뉴런이 여러 개의 관련 없는 개념에 응답하는 현상을 말합니다.
희소 자동 인코더(SAE, Sparse Autoencoders)는 특징적 사전 학습 방법을 통해 이 문제를 해결하려 시도했지만, 높은 재구성 손실로 인해 모델의 일반화 성능을 저하시키는 문제가 있었습니다.
이를 해결하기 위해 MONET(Mixture of Monosemantic Experts)를 제안합니다. 이는 end-to-end 학습이 가능한 Mixture-of-Experts 구조를 통해 다의성을 해결하고, 각 레이어에서 파라미터를 사전적으로 지식에 따라 전담하는 전문가로 구성된 새로운 메커니즘을 도입합니다.
MONET는 다음과 같은 특징을 가지고 있습니다:
다양한 도메인 및 언어에서의 조작 가능성을 향상합니다.
독성 완화를 지원합니다.
일반적인 성능 향상을 제공합니다.
MONET는 확장 가능한 전문가 네트워크를 통해 효율적으로 매커니즘적 해석 가능성을 제공합니다. 학습된 모델의 코드와 체크포인트는 아래에서 확인할 수 있습니다:
대규모 언어 모델(LLM)은 지속적으로 확장되고 일반화되고 있습니다 (Radford et al., 2019; Brown et al., 2020). 그러나 모델 내부 연산의 메커니즘적 해석 가능성은 LLM을 인간과 정렬시키기 위해 매우 중요합니다 (Bereska & Gurevets, 2024).
메커니즘적 해석 가능성이란 뉴럴 네트워크 내부의 신경 구조를 인간이 이해할 수 있는 구성 요소로 분해함으로써 이를 분석하려는 시도를 의미합니다. 예를 들어, LLM이 독성 콘텐츠를 생성하거나 바람직하지 않은 행동을 유도하는 방식의 이해는 이러한 해석 가능성을 통해 가능해집니다 (Koch et al., 2023).
현재 LLM의 과제
LLM의 가장 주요한 한계 중 하나는 다의성(polyspecificity)입니다. 이는 개별 뉴런이 여러 가지 관련 없는 개념에 응답하는 현상으로, 다의성은 다음과 같은 문제를 유발합니다:
비효율적인 모델 설계
현재 구조에서는 특정 전문가(Experts)가 특정 개념에만 전담되지 않고, 여러 개념을 섞어 처리해야 합니다.
희소 전문가 구조의 한계
기존의 희소 LLM은 한정된 수의 전문가를 사용하며, 이로 인해 각 전문가가 다양한 개념을 처리해야 합니다.
예를 들어, sparse LLM들은 약 2,048개의 전문가만 활용하며, 전문가당 한 가지 이상의 개념을 처리하게 됩니다.
구조적 제약 및 확장성 문제
전문가의 수를 늘리고 확장하려는 기존 시도들은 비용과 복잡성 문제로 실패했습니다.
MONET의 필요성
이를 해결하기 위해 MONET은 다음과 같은 문제를 다룹니다:
전문가를 세분화하여 다의성을 제거하고, 모델의 해석 가능성을 높임.
효율성을 유지하며 성능 저하 없이 다양한 전문가를 동시에 관리.
지식 기반의 제어를 통해 오픈 도메인 및 독성 완화를 지원.
MONET의 주요 기여
MONET는 다음을 목표로 합니다:
전문가의 확장 가능성: 기존 구조 대비 파라미터 크기의 제약 없이 최대 26만 개 이상의 전문가를 활용 가능.
고유 전문가 설계: 각 전문가가 오로지 하나의 개념에만 초점을 맞추어 설계.
성능과 해석 가능성의 동시 강화: 메커니즘적 해석 가능성과 모델 성능 사이의 균형을 최적화.
2. 기초 개념 (Preliminaries)
희소 전문가 혼합(Sparse Mixture-of-Experts, SMoE)
SMoE 모델은 일부 전문가만 활성화하여 효율적으로 용량을 확장합니다. 이는 계산 비용을 줄이는 데 기여하며, 전문가 임베딩을 활용하여 활성화할 전문가를 결정합니다.
숨겨진 표현 벡터 x∈Rd와 NN개의 전문가 네트워크 {Ei}i=1N가 주어졌을 때, 각 전문가는 다음과 같이 정의됩니다:
PEER는 계산 복잡도를 크게 줄이지만, 병목 현상(bottleneck) 문제가 발생할 수 있습니다.
예를 들어, 전문가 수가 2048이고 주어진 LLM에 1.3 billion 파라미터가 있는 경우, PEER는 추가적인 103 billion 파라미터를 요구할 수 있습니다.
아래는 제공된 이미지를 기반으로 논문의 세부 내용을 빠짐없이 번역 및 설명한 결과입니다.
3. MONET: Transformer 모델을 위한 Monosemantic Experts의 혼합
목표
LLM의 혼합된(superposed) 특징을 분리하기 위해, MONET은 기존 SMoE 사전 학습 방식을 확장하여 전문가의 수를 극대화하는 것을 목표로 합니다. 독립된 전문가 집합 대신, MONET은 전문가의 제품 키 조합(Product Key Composition) 방식을 도입하여 PEER의 메모리 제한 문제를 해결하고 전문가 네트워크를 효율적으로 구성합니다.
MONET은 두 가지 주요 레이어 분할 방법을 활용합니다:
수평적 전문가 분해(Horizontal Expert Decomposition, HD)
수직적 전문가 분해(Vertical Expert Decomposition, VD)
이 방식은 전문가 수를 확장하면서 메모리 병목 현상을 해결하며, 전문가 수의 제곱근 수준에서 파라미터 성장을 유지합니다.
수평적 전문가 분해 (Horizontal Expert Decomposition, HD)
HD는 기존의 독립적인 전문가를 유지하는 대신, 전문가를 상단(top)과 하단(bottom) 레이어로 분리하여 동적으로 상호 작용하도록 설계됩니다. 이를 통해 다음과 같은 방식으로 전문가를 구성합니다:
Table 2에서 제시된 결과는 MONET이 다양한 모델 크기(850M, 1.4B, 4.1B)에서 경쟁력 있는 성능을 유지하고 있음을 보여줍니다. 특히 다음과 같은 점을 강조합니다:
모든 파라미터 규모에서 일관된 성능 상승: MONET은 0-shot과 5-shot 설정 모두에서 일관된 성능을 보여줍니다. 이는 MONET의 설계가 LLM의 확장성을 효과적으로 활용하고 있음을 나타냅니다.
기존 SAE 구조와의 비교: 특히, SAE 기반의 전문가들은 성능 저하를 겪었지만, MONET은 더 나은 성능을 기록하며 LLM의 신뢰성을 유지했습니다.
세부적인 실험
Gemma Scope 모델:
Gemma 2 2B (Fedus et al., 2023)의 SAE 기반 구조를 사용했습니다.
MONET의 성능은 SAE와 비교해 구조적 우위를 보여주었으며, 이는 수평적 분해(HD)보다 수직적 분해(VD)가 더 높은 성능을 제공했음을 보여줍니다.
4.3 질적 분석 (Qualitative Results)
Figure 2:
MONET이 활성화한 전문가의 라우팅 점수(Equation 7에 정의됨)를 시각화한 결과를 보여줍니다. 이는 전문가가 특정 개념에 모노세만틱(monosemantic)하게 작동함을 나타냅니다.
파라미터 지식 (Parametric Knowledge): MONET은 LLM의 디코더 블록 내 MLP를 262,144개의 전문가로 분해하여 더욱 세밀하게 학습합니다. 예: 특정 전문가가 화학 화합물이나 물리학 개념에 특화된 모습을 보입니다.
전문가의 모노세만틱 특성 (Expert Monosemanticity): MONET의 전문가들은 동일한 개념을 다양한 맥락에서 안정적으로 인식합니다. 예:
전문가 48,936과 54,136은 "Bay"라는 단어에 반응합니다.
하나는 "지리적 지역(Bay Area)"과 연결되고, 다른 하나는 "추상적 개념"과 연결됩니다.
Self-Explained Experts: MONET은 전문가의 해석 가능성을 높이기 위해 자동 해석 기법을 도입했습니다. 예:
전문가 232,717은 "Cartilage(연골)"로, 전문가 51은 "Expertise(전문성)"으로 해석됩니다.
5. 분석 (Analyses)
5.1 도메인 마스킹 (Domain Masking)
MMLU Pro 벤치마크
MMLU Pro (Wang et al., 2024)를 사용하여 질문-답변 작업을 14개의 도메인으로 분류하고, 도메인 특정 지식 제거(unlearning)를 실험했습니다.
전문가 제거 방식: 특정 도메인에서 라우팅 확률이 두 번째로 높은 도메인보다 두 배 이상 높은 경우, 해당 전문가를 해당 도메인에 특화된 것으로 간주합니다.
이 전문가들을 제거하여 14개 도메인에서의 성능 저하를 분석했습니다.
결과 분석: 전문가를 제거한 후 MONET의 성능 감소는 다른 모델(예: SAE, LLaMA)에 비해 최소화되었습니다. 이는 MONET의 전문가가 도메인 간 지식을 독립적으로 캡슐화하고 있음을 보여줍니다.
6. 결론 (Conclusion)
MONET의 기여
MONET은 262,144개의 전문가를 갖춘 SMoE(Sparse Mixture-of-Experts) 아키텍처로, LLM에서 발생하는 다의성(polyspecificity) 문제를 해결하기 위해 설계되었습니다.
*희소 사전 학습(sparse dictionary learning)**을 LLM의 사전 학습(end-to-end SMoE pretraining) 과정에 통합하여, 기존 SAE 구조에서의 후처리 재구성 손실(post-hoc reconstruction loss) 문제를 해결했습니다.
MONET의 제품 키 조합(product key composition) 접근법은 기존 SMoE 구조의 메모리 제한을 극복하고, 전문가 수를 최대 262,144개로 확장하면서 전체 파라미터 성장을 전문가 수의 제곱근 수준으로 유지하는 데 성공했습니다.
핵심 특징 및 효과
세밀한 전문가 분할(fine-grained specialization): MONET은 모노세만틱 전문가(monosemantic experts)를 통해 서로 배타적인 개념들을 학습합니다. 이는 모델의 해석 가능성을 높이고 다양한 지식 영역에 대한 세밀한 제어를 가능하게 합니다.
지식 조작(manipulation)의 강건성: MONET은 도메인, 언어, 독성 완화와 같은 다양한 영역에서의 지식 조작을 강력히 지원합니다. 이는 모델의 전반적인 성능을 손상시키지 않으면서 이루어졌습니다.
확장 가능성: 전문가의 수를 확장하고 LLM 내에서 모노세만틱 전문화를 촉진함으로써, 모델 해석 가능성과 제어 가능성을 동시에 개선했습니다. MONET의 연구 결과는 미래의 투명하고 정렬된 언어 모델 개발의 길을 열어줍니다.
제한 사항 (Limitations)
전문가 선택의 편향성:
라우팅 점수(routing scores)의 편향성이 특정 도메인 전문가를 결정하는 데 영향을 미칠 수 있음을 발견했습니다.
예를 들어, 독성 점수와 라우팅 점수 간의 Pearson 상관 계수를 계산하여 이를 분석했습니다.
하지만, 이러한 편향성은 비교적 최소한의 수준으로 유지되었습니다.
전문가 선택 방법론의 개선 필요:
더 정교한 전문가 선택 메커니즘 개발은 향후 연구의 유망한 방향으로 간주됩니다.
해석 가능성의 한계:
자동 해석 기법(예: self-explained experts)이 여전히 일부 질문에 대해 모호한 결과를 나타낼 수 있음을 발견했습니다.
따라서, 파라미터 기반 조작의 응용은 지식 학습과 관련된 문제를 해결하는 데 제한적일 수 있습니다.
미래 연구 방향
MONET의 결과는 LLM이 내재적 지식을 효과적으로 검색하는지 여부, 그리고 SMoE LLM에서 평생 학습(lifelong learning)이 가능한지에 대한 질문을 다루는 데 있어 유망한 연구 방향을 제시합니다.
이를 통해 더 투명하고 신뢰할 수 있는 LLM 개발의 가능성을 열었습니다.
왜 전문가 수를 늘리는 것이 모노세만틱 특성을 강화하는가?
세분화된 지식 분리 (Fine-grained Specialization):
전문가의 수가 증가하면 각 전문가가 담당하는 지식의 범위가 좁아집니다.
이는 특정 전문가가 한 가지 개념 또는 좁은 범위의 지식에만 특화될 수 있도록 합니다.
MONET에서는 최대 262,144개 전문가를 활용함으로써, 각 전문가가 모노세만틱한(즉, 특정한 개념에만 반응하는) 특성을 갖도록 설계되었습니다.
모호성 감소 (Reduction in Polyspecificity):
기존 LLM 구조에서는 뉴런이나 전문가가 여러 개념에 동시에 반응하는 다의성(polyspecificity) 문제가 있었습니다.
전문가 수를 늘림으로써 이 문제를 완화하고, 각 전문가가 특정 개념에만 집중하도록 유도할 수 있습니다.
실험적 결과:
MONET의 실험에서는 전문가가 증가할수록 단어와 컨텍스트에 대해 더 모노세만틱하게 반응하는 모습을 보여주었습니다.
예를 들어, "Bay"라는 단어에 대해 하나의 전문가는 지리적 의미("Bay Area")에 반응하고, 다른 전문가는 추상적 개념에 반응했습니다. 이는 전문가 수가 충분히 많을 때 가능한 일입니다.
전문가를 나누는 구조(HD/VD)는 효율성을 높이는 역할
반면, MONET에서 전문가를 나누는 구조(HD: 수평적 분해, VD: 수직적 분해)는 주로 계산 효율성을 높이고 메모리 사용량을 줄이는 데 초점이 맞춰져 있습니다.
전문가 수가 증가하면 계산 비용과 메모리 요구량이 급격히 늘어납니다. 이를 해결하기 위해 MONET은 HD와 VD를 사용해 전문가를 효율적으로 분할합니다.
이러한 구조는 전문가 수를 늘리는 것의 부작용(비용 증가)을 완화하지만, 모노세만틱 특성을 직접적으로 만드는 데 기여하지는 않습니다.
결론
모노세만틱 특성은 전문가 수를 늘리는 것에서 기인합니다.
HD/VD 같은 전문가 분할 방법은 이러한 모노세만틱 전문가 구조를 효율적으로 유지하기 위한 보조적인 설계라고 이해할 수 있습니다.
따라서 MONET의 핵심은 전문가 수를 대규모로 늘리고 이를 효과적으로 관리하면서도 메모리와 계산 자원을 최적화하는 데 있다고 볼 수 있습니다.