https://arxiv.org/pdf/2410.15438
1. 개요 (Abstract)
- *Retrieval-Augmented Generation (RAG)**은 LLM의 지식 집약적 작업 수행 능력을 크게 향상시킴.
- 기존 연구들은 RAG 성능을 개선하기 위해 더 나은 문서 검색 방식 또는 RAG 특화 LLM 설계를 연구해 왔으나, LLM 내부에서 작동하는 메커니즘이 RAG 성능에 미치는 영향은 충분히 연구되지 않음.
- 본 논문은 Mixture-of-Expert (MoE) 기반 LLM의 전문가 활성화(Expert Activation)를 분석하여 RAG 개선 방안을 탐색함.
- 연구를 통해 RAG 관련 행동을 담당하는 주요 전문가(Core Experts)를 식별하고, 이를 활용해 RAG 성능을 향상시키는 전략을 제안.
- 연구 결과:
- 모델 내부 지식이 충분한지 판단하는 전문가 (Cognizant Experts)
- 검색된 문서의 품질을 평가하는 전문가 (Quality Experts)
- 모델의 문맥 활용 능력을 향상시키는 전문가 (In-context Experts)
- 실험 결과, MoE 기반 LLM에서 이러한 전문가 활성화를 조정하는 방법이 RAG 효율성과 성능을 향상시키는 데 효과적임을 확인.
2. 서론 (Introduction)
- *Retrieval-Augmented Generation (RAG)**은 외부 문서를 검색하여 이를 LLM의 컨텍스트에 포함하는 방식으로 정보를 활용.
- 그러나 길고 방대한 검색 문서는 계산 비용을 증가시키고, 부적절한 문서는 LLM의 성능을 저하시킬 수 있음 (즉, 환각 문제 증가).
- 기존 연구들은 검색된 문서 품질을 개선하거나, RAG 특화 모델을 개발하는 데 중점을 두었으나, LLM 내부에서 RAG가 어떻게 작동하는지에 대한 연구는 부족함.
- 본 논문에서는 MoE 기반 LLM의 내부 동작을 탐색하고, 전문가 활성화 패턴을 분석하여 RAG를 효과적으로 개선하는 방법을 제안.
3. 방법론 (Method)
3.1 MoE 모델에서 전문가 활성화 (Expert Activation in MoE)
- MoE 기반 LLM은 각 Transformer 레이어에서 Feed-Forward Network(FFN) 대신 MoE 모듈을 사용.
- MoE 모듈은 라우팅 네트워크(Routing Network)와 여러 개의 전문가(Experts)로 구성되며, 입력 컨텍스트에 따라 일부 전문가만 활성화됨.
- 특정 문맥에서 활성화되는 전문가를 분석하면 RAG의 작동 방식과 개선 가능성을 파악할 수 있음.
3.2 Contrastive Expert Activation Inspection (CEAI)
- CEAI 기법을 도입하여 MoE LLM의 전문가 활성화 패턴을 분석.
- CEAI는 대조적인 입력(Context) 시나리오를 사용하여 전문가 활성화 패턴을 비교하고, 특정 컨텍스트에 중요한 전문가를 식별하는 방식.
- 이 방법을 통해 RAG에서 중요한 역할을 하는 3가지 핵심 전문가를 식별함:
- Cognizant Experts (내부 지식 충분 여부 판단)
- Quality Experts (검색 문서의 품질 평가)
- In-context Experts (문맥 활용 능력 강화)
4. RAG를 위한 전문가 분석 (Inspecting Core Experts for RAG)
4.1 Cognizant Experts (지식 충분성 판단 전문가)
- RAG에서 무조건 검색하는 것은 비효율적이며, 내부 지식이 충분할 경우 검색을 생략하는 것이 더 효과적.
- CEAI를 활용하여 내부 지식이 충분한지 판단하는 전문가를 탐색하고, 이를 기반으로 불필요한 검색을 방지.
- 실험 결과:
- 특정 전문가들은 모델이 정답을 알고 있는 경우 높은 빈도로 활성화됨.
- 반대로, 모델이 모르는 질문에서는 해당 전문가들이 활성화되지 않음.
- 이를 활용하여 불필요한 검색을 줄이고, 검색 비용을 절감할 수 있음.
4.2 Quality Experts (검색 문서 품질 평가 전문가)
- RAG의 중요한 문제 중 하나는 검색된 문서의 품질이 낮을 경우 모델 성능이 저하됨.
- CEAI를 사용하여 검색 문서의 품질을 평가하는 전문가를 탐색.
- 실험 결과:
- 특정 전문가들은 고품질 문서가 포함된 컨텍스트에서 높은 빈도로 활성화됨.
- 반면, 저품질 문서에서는 활성화되지 않음.
- 이를 이용하여 저품질 문서를 필터링하고, 검색 결과를 향상시킬 수 있음.
4.3 In-context Experts (문맥 활용 강화 전문가)
- 검색된 문서가 포함되었을 때, 모델이 이를 얼마나 잘 활용하는지가 중요함.
- CEAI를 통해 문맥 활용 능력을 높이는 전문가를 식별.
- 실험 결과:
- 일부 전문가들은 검색된 문서를 효과적으로 활용할 때 더 자주 활성화됨.
- 모델이 문서를 활용하지 못할 경우 활성화되지 않음.
- 이러한 전문가를 강화하면, RAG 모델의 문맥 활용 능력을 높이고 성능을 향상시킬 수 있음.
5. 실험 결과 (Experimental Results)
- 실험은 Mixtral-8x7B 및 Mixtral-8x22B 모델을 대상으로 수행.
- 평가 데이터셋: PopQA 및 RGBqa.
- 실험 결과:
- Cognizant Experts를 활용하면 불필요한 검색을 줄여 RAG의 효율성이 향상됨.
- Quality Experts를 활용하면 저품질 검색 문서를 제거하고 성능을 개선할 수 있음.
- In-context Experts를 조정하면 모델이 검색 문서를 더 효과적으로 활용할 수 있음.
- 최종적으로 제안된 방법은 기존 RAG보다 성능과 효율성에서 향상된 결과를 보임.
6. 결론 (Conclusion)
- 본 논문은 MoE 기반 LLM에서 전문가 활성화 분석을 통해 RAG 개선 방안을 탐색.
- CEAI 기법을 사용하여 3가지 핵심 전문가를 식별하고, 이를 활용하여 RAG의 성능과 효율성을 향상시키는 방법을 제안.
- 실험을 통해 불필요한 검색을 줄이고, 검색 문서 품질을 평가하며, 문맥 활용 능력을 향상시키는 전략이 효과적임을 확인.
- 본 연구는 MoE LLM의 내부 메커니즘을 활용한 RAG 최적화 가능성을 제시하며, 향후 다양한 RAG 시스템에 적용할 수 있는 방향성을 제안.
요약
이 논문은 MoE 기반 LLM에서 전문가 활성화(Expert Activation)를 분석하여 Retrieval-Augmented Generation (RAG)을 최적화하는 방법을 제안한다. Contrastive Expert Activation Inspection (CEAI) 기법을 통해 RAG에서 중요한 3가지 핵심 전문가(Cognizant Experts, Quality Experts, In-context Experts)를 식별하고, 이를 활용하여 불필요한 검색을 줄이고, 검색 문서의 품질을 평가하며, 문맥 활용 능력을 향상시키는 전략을 제안한다. 실험 결과, 제안된 방법이 기존 RAG 모델보다 성능과 효율성에서 우수한 결과를 보였다.
Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs - 방법론 상세 설명
1. Mixture-of-Experts (MoE) 모델에서 전문가 활성화 분석
1.1 MoE 모델의 기본 구조
- MoE 모델은 Transformer 모델의 Feed-Forward Network (FFN) 모듈을 Mixture-of-Experts (MoE) 모듈로 대체한 구조를 가짐.
- MoE 모듈은 여러 개의 전문가(Experts)로 구성되며, 라우팅 네트워크(Routing Network)가 입력 토큰을 적절한 전문가들에게 분배.
- 일부 전문가만 활성화되며, 활성화된 전문가들의 출력을 가중합(weighted sum)하여 최종 출력을 생성.
MoE 모듈의 공식
각 입력 토큰 h 에 대해, i -번째 레이어의 MoE 모듈 출력:
MoEi(h)=∑j=1Ngi,j(h)ei,j(h)
- ei,j(h) : i -번째 레이어의 j -번째 전문가의 출력.
- gi,j(h) : 라우팅 네트워크가 계산한 j -번째 전문가의 가중치 (gating value).
- 보통 상위 k개 전문가(Top-k Experts)만 활성화되며, 나머지 전문가들은 gi,j(h)=0 으로 설정됨.
2. Contrastive Expert Activation Inspection (CEAI)
2.1 CEAI 개념
- MoE 모델의 전문가 활성화 패턴을 분석하여 특정 작업(예: RAG)에서 중요한 역할을 하는 전문가를 식별하는 기법.
- *대조적인 입력 시나리오(Contrastive Scenarios)**를 설정하여 특정 전문가들의 활성화 차이를 비교.
- 서로 다른 시나리오에서 활성화되는 전문가를 비교하여 Core Experts를 식별.
2.2 CEAI의 핵심 과정
① 전문가 활성화 확률 계산
각 전문가 ei,j 의 활성화 확률 계산:
Pei,jpos=∣Dpos∣1∑X∈DposI(gi,j(h))
Pei,jneg=∣Dneg∣1∑X∈DnegI(gi,j(h))
- Pei,jpos : 긍정 시나리오에서 전문가 ei,j 가 활성화된 확률.
- Pei,jneg : 부정 시나리오에서 전문가 ei,j 가 활성화된 확률.
- I(gi,j(h)) : 전문가가 활성화되었으면 1, 아니면 0을 반환하는 인디케이터 함수.
② 대비 활성화 확률(Contrastive Activation Probability) 계산
두 시나리오 간 활성화 확률 차이 비교하여 핵심 전문가(Core Experts) 식별:
ΔPi,j=Pei,jpos−Pei,jneg
- ΔPi,j>0: 특정 전문가가 긍정 시나리오에서 더 많이 활성화됨 → 모델이 지식을 알고 있는 경우 더 활성화됨.
- ΔPi,j<0: 특정 전문가가 부정 시나리오에서 더 많이 활성화됨 → 모델이 지식을 모를 때 더 활성화됨.
3. RAG 관련 핵심 전문가 식별
3.1 Cognizant Experts (내부 지식 충분성 판단 전문가)
- 역할: 모델이 내부적으로 정답을 알고 있는지 판단.
- 활용 방법:
- 특정 전문가가 강하게 활성화되면 → 검색 없이 내부 지식으로 응답 가능.
- 특정 전문가가 비활성화되면 → 검색이 필요함.
- 결과: 불필요한 검색을 줄여 RAG의 비용을 절감할 수 있음.
3.2 Quality Experts (검색 문서 품질 평가 전문가)
- 역할: 검색된 문서가 고품질인지 저품질인지 평가.
- 활용 방법:
- 특정 전문가가 강하게 활성화되면 → 검색된 문서의 품질이 높음.
- 특정 전문가가 비활성화되면 → 검색된 문서의 품질이 낮을 가능성이 큼.
- 결과: 저품질 검색 문서를 제거하고 RAG 성능을 개선할 수 있음.
3.3 In-context Experts (문맥 활용 강화 전문가)
- 역할: 검색된 문서를 모델이 효과적으로 활용할 수 있도록 지원.
- 활용 방법:
- 특정 전문가가 활성화되면 → 모델이 문맥을 효과적으로 활용하고 있음.
- 특정 전문가가 비활성화되면 → 문맥 활용을 강화할 필요가 있음.
- 결과: RAG가 제공하는 정보를 더 잘 활용할 수 있도록 모델을 조정할 수 있음.
4. RAG 최적화 전략
이 연구는 핵심 전문가의 활성화 패턴을 조정하여 RAG를 최적화하는 새로운 전략을 제안:
- Cognizant Experts 활용 → 불필요한 검색을 줄임.
- Quality Experts 활용 → 저품질 검색 문서를 필터링.
- In-context Experts 활용 → 문맥 활용 능력을 향상.
이를 통해 기존 RAG 시스템보다 더 효율적이고 강력한 RAG 모델을 구현할 수 있음.
5. 실험 및 평가
- 사용한 모델: Mixtral-8x7B, Mixtral-8x22B
- 사용한 데이터셋: PopQA, RGBqa
- 결과:
- CEAI 기반 방법을 적용하면 RAG의 성능과 효율성이 향상됨.
- 불필요한 검색을 줄여 비용 절감, 검색 품질을 개선, 문맥 활용 능력을 향상할 수 있음.
6. 결론
이 논문에서는 Contrastive Expert Activation Inspection (CEAI) 기법을 사용하여 MoE 기반 LLM에서 RAG 관련 핵심 전문가를 식별하고, 이를 조정하여 RAG 성능을 향상시키는 방법을 제안하였다.
이 방법은 RAG의 효율성을 높이고, 검색 비용을 절감하며, 모델이 검색 문서를 더 효과적으로 활용하도록 최적화하는 데 기여한다.
초록 (Abstract)
검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대형 언어 모델(LLMs, Large Language Models)이 지식 집약적인 작업을 해결하는 능력을 크게 향상시켰습니다. 기존 연구에서는 RAG 성능을 향상시키기 위해 더 높은 품질의 문서를 검색하거나 RAG 전용 LLM을 설계하는 데 초점을 맞추었지만, RAG 시스템의 효과에 기여하는 LLM 내부 메커니즘은 충분히 탐구되지 않았습니다.
본 논문에서는 MoE(Mixture-of-Expert) 기반 LLM의 내부 메커니즘을 조사하고, 이러한 모델의 전문가 활성화를 분석함으로써 RAG를 개선하는 방법을 제시합니다. 우리의 통제된 실험 결과, 특정 전문가 그룹이 RAG 관련 행동을 주로 담당한다는 것을 발견하였습니다. 이러한 핵심 전문가의 활성화는 모델이 외부 또는 내부 지식을 활용하는 경향을 나타내며, 그에 따라 모델의 동작을 조정할 수 있습니다. 예를 들어, 우리는 다음과 같은 역할을 수행하는 전문가를 확인하였습니다.
- 모델 내부 지식의 충분성을 나타냄
- 검색된 문서의 품질을 평가함
- 문맥을 활용하는 모델의 능력을 향상함
이러한 발견을 바탕으로, 우리는 전문가 활성화를 통해 RAG의 효율성과 효과성을 향상시키기 위한 몇 가지 전략을 제안합니다. 다양한 데이터셋과 MoE 기반 LLM을 대상으로 한 실험 결과, 우리의 방법이 효과적임을 확인하였습니다.
1. 서론 (Introduction)
검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대형 언어 모델(LLM)의 성능을 향상시키는 데 있어 중요한 성과를 보여주었습니다 (Lewis et al., 2020; Gao et al., 2024; Ding et al., 2024). Brown et al. (2020), Chowdhery et al. (2023), Touvron et al. (2023) 등의 연구에 따르면, 관련 문서를 검색하고 이를 문맥에 통합함으로써, RAG는 LLM이 질의와 관련된 최신 정보를 접근할 수 있도록 도와주며, 다양한 지식 기반 자연어 처리(NLP) 작업의 성능을 향상시킬 수 있습니다 (Lozano et al., 2023; Kang and Liu, 2023).
그러나 이러한 성과에도 불구하고, RAG에는 여러 가지 도전 과제가 존재합니다 (Chen et al., 2024). 예를 들어, 긴 검색 문서는 추가적인 추론 비용을 초래할 수 있으며 (Xu et al., 2023), 검색된 문서가 관련성이 없거나 오류가 포함된 경우 환각(hallucination)이 증가할 위험이 있습니다 (Shi et al., 2023a; Mallen et al., 2023). 또한, LLM이 검색된 문서에서 정보를 효과적으로 활용하지 못할 가능성도 있습니다 (Xie et al., 2023).
비록 RAG의 검색 품질을 향상시키기 위한 많은 연구가 진행되었고 (Xie et al., 2023; Wang et al., 2023), RAG 전용 모델을 훈련시키려는 시도도 있었지만 (Asai et al., 2024; Lin et al., 2023), LLM의 내부 메커니즘 관점에서 RAG를 연구한 사례는 상대적으로 부족합니다.
본 논문에서는 검색 증강 LLM의 내부 상태에 더 많은 주의를 기울이고자 합니다. 특히, 우리는 MoE(Mixture-of-Expert) 기반 LLM(Du et al., 2022; Jiang et al., 2024)에 초점을 맞추며, 이 모델의 전문가 활성화 패턴이 자연스럽게 모델의 내부 상태를 반영한다는 점을 활용합니다.
2. 방법론 (Method)
2.1 MoE에서의 전문가 활성화 (Expert Activation in MoE)
MoE 아키텍처는 기존의 FFN(Feed-Forward Network) 모듈을 MoE 모듈로 대체합니다. MoE 모듈은 라우팅 네트워크와 다수의 FFN으로 구성되며, 각 FFN이 전문가 역할을 합니다. LLM의 순전파 과정에서, 라우팅 네트워크는 각 토큰을 적절한 전문가들에게 선택적으로 전달하며, 선택된 전문가만이 활성화되어 계산에 기여합니다. MoE 모듈의 출력은 활성화된 전문가들의 가중합으로 나타낼 수 있으며, 수식으로 표현하면 다음과 같습니다.
MoEi(h)=∑j=1Ngi,j(h)ei,j(h)
여기서:
- ei,j(h)는 i번째 계층의 j번째 전문가의 출력
- gi,j(h)는 라우팅 네트워크에 의해 계산된 게이팅 값
일반적으로, 각 토큰은 계층별로 상위 k개의 전문가를 활성화하며, 나머지 전문가의 gi,j(h) 값은 0이 됩니다. 이는 해당 전문가가 현재 문맥에 적합하지 않음을 의미합니다.
2.2 대비적 전문가 활성화 검사 (Contrastive Expert Activation Inspection)
MoE 내의 전문가들은 입력 문맥의 요구 사항에 따라 동적으로 활성화됩니다. 우리는 특정 전문가들이 특정한 문맥과 모델 동작을 주로 담당한다고 가정하고, 이러한 핵심 전문가를 식별하기 위한 효과적인 방법으로 대비적 전문가 활성화 검사(Contrastive Expert Activation Inspection, CEAI) 를 제안합니다.
CEAI는 대비되는 시나리오에서 전문가 활성화 빈도를 비교함으로써 핵심 전문가를 탐지하는 방법입니다. 대비적 시나리오란 서로 반대되는 모델 행동을 유도하도록 설계된 입력 프롬프트 집합을 의미합니다.
우리의 기여 (Contributions)
- CEAI 기법을 제안: MoE 기반 LLM에서 특정 문맥 유형과 모델 동작을 관리하는 핵심 전문가를 탐지하는 방법을 제시함.
- RAG 과정에서 전문가들의 역할 분석: RAG와 관련된 세 가지 유형의 전문가(인지 전문가, 품질 전문가, 문맥 전문가)를 발견하고, 각각의 역할을 규명함.
- 핵심 전문가의 활성화를 활용한 RAG 개선: 발견된 전문가 그룹을 활용하여 RAG의 효과성과 적응성을 향상시키는 방법을 제시하고, 다양한 데이터셋을 활용한 실험을 통해 그 효과를 검증함.
2. 대비적 전문가 활성화를 통한 핵심 전문가 탐색 (Detecting Core Experts via Contrastive Expert Activation)
개요 (Overview)
우리의 방법을 설명하기 위해, 우리는 MoE 기반 LLM에서 대비적(contrastive) 시나리오 데이터를 사용하여 핵심 전문가를 탐색합니다. 특정 시나리오에서만 자주 활성화되는 전문가들을 수집하고, 이러한 대비적 시나리오에서의 전문가 활성화를 비교함으로써, 특정 시나리오에서 높은 활성도를 보이는 핵심 전문가를 식별합니다. 이러한 핵심 전문가의 활성화 정보는 새로운 입력이 어떤 시나리오에 속하는지를 예측하는 분류기로 활용될 수 있습니다.
대비적 시나리오는 일관된 모델 동작을 유도하는 시나리오로, 서로 반대되는 모델 동작을 유도하도록 설계된 두 가지 유형의 입력 프롬프트(positive 및 negative)를 포함합니다. 예를 들어, positive 시나리오는 외부 문서를 포함하는 입력 프롬프트이고, negative 시나리오는 외부 문서를 제외하는 입력 프롬프트일 수 있습니다. MoE 기반 LLM은 이러한 대비적 시나리오를 처리하는 데 서로 다른 능력을 필요로 하며, 따라서 반대되는 행동을 나타내기 위해 서로 다른 전문가를 활성화합니다. 전문가의 활성 빈도를 비교하면, 두 시나리오에서 공통적으로 활성화되는 일반 전문가를 배제하고, 특정 시나리오에서 더욱 두드러지게 활성화되는 핵심 전문가(core experts) 를 강조할 수 있 습니다.
전문가 활성화 확률 (Expert Activation Probability)
대비적 시나리오를 나타내는 두 개의 데이터셋 Dpos (positive)와 Dneg (negative)를 고려합니다. 입력 프롬프트 X에 대해, i-번째 계층의 MoE 모듈에 대한 입력 표현을 hi=f(X)로 정의합니다. 그런 다음, 특정 시나리오에서 i-번째 계층의 j-번째 전문가의 활성화 확률을 다음과 같이 정의합니다.
Pei,jpos=∣Dpos∣1∑X∈DposI(gi,j(hi))
여기서 I(gi,j(hi))→{0,1} 은 특정 전문가 ei,j 가 hi 에 대해 활성화되었는지를 나타내는 함수입니다. 우리는 실험을 위해 입력 프롬프트의 마지막 위치를 기준으로 hi 를 계산하며, 이에 대한 자세한 설명은 부록 A에서 확인할 수 있습니다.
이제 대비적 활성화 확률(contrastive activation probabilities)을 정의하며, 이는 두 대비적 시나리오에서 활성화 확률의 차이를 의미합니다.
ΔPi,j=Pei,jpos−Pei,jneg
여기서 ΔPi,j>0 이면 해당 전문가 ei,j 가 positive 시나리오에서 negative 시나리오보다 더 높은 활성화 확률을 갖는다는 것을 의미하며, 이는 해당 전문가가 positive 시나리오에 더 큰 영향을 미친다는 것을 시사합니다. 반대로, ΔPi,j<0 이면 negative 시나리오에 더 영향을 미친다는 것을 의미합니다.
전문가 활성화 패턴을 활용한 분류 (Expert Activation Pattern for Classification)
전문가 활성화는 시나리오 유형을 예측하는 분류기로 사용할 수 있으며, 이를 통해 RAG 개선을 위한 모델의 역할을 결정할 수 있습니다. 예를 들어, 특정 전문가의 활성화 패턴이 모델의 내부 지식이 충분한지를 예측할 수 있다면, 불필요한 검색을 방지하고 RAG의 효율성을 높일 수 있습니다.
이를 위해, 우리는 시나리오 점수(Scenario Score) 를 도입하여 핵심 전문가의 활성화에 기반하여 시나리오를 분류합니다. 대비적 활성화 확률을 이용하여, 시나리오 점수는 다음과 같이 계산됩니다.
Scenario Score=∑i=1L∑j=1NΔPi,j⋅I(gi,j(hi))
여기서:
- L : 계층(layer)의 수
- N : 각 계층당 전문가의 수
- I(gi,j(hi)) : 특정 전문가가 활성화되었는지를 나타내는 지표 함수 (식 2와 동일)
양의 시나리오 점수는 입력이 positive 시나리오에 더 가깝다는 것을 의미하며, 음의 시나리오 점수는 negative 시나리오에 더 가깝다는 것을 의미합니다.
이 방법은 몇 가지 변형이 가능합니다. 예를 들어, ΔP 의 상위 및 하위 요소만을 사용하여 계산할 수도 있으며, ei,j 및 gi,j(hi) 값을 가중합하여 좀 더 유연하고 세밀한 시나리오 예측을 수행할 수도 있습니다.
3. RAG를 위한 핵심 전문가 검사 (Inspecting Core Experts for RAG)
이 섹션에서는 CEAI를 활용하여 전문가 활성화를 검사하고, RAG 개선을 위한 세 가지 유형의 핵심 전문가를 탐색합니다.
3.1 실험 설정 (Experimental Settings)
우리는 실험에서 Mixtral-8x7B-instruct-v0.1 및 Mixtral-8x22B-instruct-v0.1 (Jiang et al., 2024)을 사용합니다. 이들은 널리 사용되는 공개 MoE 기반 LLM으로, Xue et al. (2024), Bai et al. (2024)에서 언급되었습니다.
우리는 주로 질의응답 데이터셋인 PopQA (Mallen et al., 2023) 및 RGBqa (Chen et al., 2024)를 사용하여 분석을 수행합니다. 실험에서는 PopQA에서 1,000개 샘플을 무작위로 선택하고, RGBqa의 영어 하위셋 300개 샘플을 전체 사용합니다.
- 검색(Retrievers): PopQA 및 RGBqa는 공식적으로 검색된 관련 문서를 공개하고 있으며, 우리는 이를 그대로 실험에서 사용합니다.
- 응답 생성: 모델이 직접 응답을 생성하도록 하며, CEAI를 첫 번째 생성된 응답에 적용합니다.
- 디코딩 방식: 실험의 재현성을 위해 Greedy decoding 을 사용합니다.
- 추가 실험: 공간 제약으로 인해 본 논문에서는 주요 실험 결과만을 소개하며, 부록 B에서 추가적인 실험 결과를 제공합니다.
3.2 인지 전문가 (Cognizant Experts)
외부 문서를 항상 검색하는 것은 RAG의 최적 솔루션이 아닙니다 (Chen et al., 2024). 검색된 문서는 추가적인 추론 비용을 초래하며, 품질이 낮은 검색 결과는 LLM의 성능을 저하시킬 수도 있습니다 (Shi et al., 2023a). 따라서, 보다 합리적인 전략은 LLM의 내부 지식이 충분하지 않을 경우에만 검색을 수행하는 것 입니다.
우리는 전문가 활성화가 LLM 내부 지식의 충분성을 나타낼 수 있다고 가정합니다. 이를 검증하기 위해, CEAI를 적용하여 인지 전문가(cognizant experts) 를 탐색합니다.
실험 설정 (Setup)
지식 충분성(knowledge sufficiency)에 대한 대비적 시나리오를 정의합니다.
- Positive 시나리오 (Dpos): 질의에 대한 정답이 포함된 응답을 생성하는 경우. 이는 LLM이 해당 질의에 대해 충분한 내부 지식을 보유하고 있음을 나타냅니다.
- Negative 시나리오 (Dneg): 정답이 포함되지 않은 응답을 생성하는 경우. 이는 LLM이 해당 질의에 대해 충분한 내부 지식을 보유하지 않음을 나타냅니다.
실험 결과 (Empirical Findings)
CEAI를 적용한 결과:
- 정답을 포함하는 경우와 포함하지 않는 경우의 전문가 활성화 확률이 명확하게 구분됨.
- 인지 전문가는 다양한 데이터셋과 모델에서 일관되게 존재함.
- 데이터셋마다 필요한 지식 유형이 다르므로, 데이터셋별로 인지 전문가의 활성화 패턴이 다양하게 나타남.
이러한 결과는 모델의 지식 분포를 분석하는 데 중요한 단서를 제공할 수 있습니다.
3.3 품질 전문가 (Quality Experts)
개요 (Overview)
검색된 문서가 항상 유용한 것은 아닙니다. 그 이유는 저품질의 검색 문서가 LLM을 오도할 수 있기 때문 입니다 (Shi et al., 2023a). 이 문제를 해결하기 위해, 우리는 전문가 활성화가 문서의 품질을 평가하는 데 도움이 될 수 있는지를 탐색합니다.
실험 설정 (Setup)
우리는 양의 시나리오(positive scenario) 를 고품질(high-quality) 문서를 포함하는 문맥 으로 정의하고, 음의 시나리오(negative scenario) 를 저품질(low-quality) 문서를 포함하는 문맥 으로 정의합니다.
Chen et al. (2024)에 따르면,
- 고품질 문서 는 정답을 포함하는 문서 입니다.
- 저품질 문서 는 정답을 포함하지 않는 문서 이며, 다음과 같이 두 가지 범주로 나뉩니다.
- 방해 요소 문서(Distracting documents): 질문과 관련이 있지만 정확한 정답을 포함하지 않는 문서.
- 무관한 문서(Unrelated documents): 질문과 전혀 관련이 없는 문서.
우리는 RGBqa 데이터셋 을 활용하여 대비적 데이터셋(contrastive dataset)을 구축하였습니다. 이 데이터셋은 문서의 품질이 다양한 검색 문서를 제공하므로 실험에 적합합니다. 데이터 구축 과정 및 추가적인 실험 세부사항은 부록 D에서 설명합니다.
실험 결과 (Empirical Findings)
Figure 4 를 기반으로, 우리는 고품질 문서를 포함한 문맥과 저품질 문서를 포함한 문맥 사이에서 전문가 활성화에 명확한 차이 가 있음을 관찰하였습니다.
- 문서 품질이 낮아질수록 이러한 차이는 더욱 두드러졌으며, 이는 검색 문서의 품질이 전문가 활성화에 미치는 영향을 확증하는 결과입니다.
- 또한, 모델 크기가 증가할수록 활성화 차이가 더욱 명확하게 나타나는 경향이 있었습니다. 이는 더 큰 모델이 문서 품질을 구별하는 데 더 효과적일 가능성이 있음을 시사합니다.
표 1: LLM의 지식 충분성을 예측하는 F1-Score (Table 1: F1-Score of Predicting the Sufficiency of LLM’s Knowledge)
| 모델 (Model) | 방법 (Method) | PopQA | RGBqa |
|---|
| Mixtral-8x7B | 랜덤 추측 (Random Guess) | 42.01 | 40.28 |
| 지식 기반(50 샷) (Knowledge (50-Shot)) | 55.87 | 55.15 |
| 지식 기반(전체 세트) (Knowledge (Full-Set)) | 56.77 | 59.84 |
| Mixtral-8x22B | 랜덤 추측 (Random Guess) | 47.39 | 47.18 |
| 지식 기반(50 샷) (Knowledge (50-Shot)) | 64.78 | 73.31 |
| 지식 기반(전체 세트) (Knowledge (Full-Set)) | 65.83 | 75.40 |
굵은 글씨는 최고의 성능을 나타냅니다.
분석 (Analyses)
- 인지 전문가(Cognizant Experts)의 역할 검증: 만약 우리가 식별한 인지 전문가가 실제로 지식 충분성(knowledge sufficiency)에 대한 책임이 있다면, 그들의 활성화가 모델이 질문에 대해 정확한 답변을 제공할 수 있는지를 예측할 수 있어야 합니다.
- 이를 검증하기 위해, 우리는 식별된 인지 전문가를 사용하여 시나리오 점수(Scenario Score) 를 계산하고, 모델의 지식이 충분한지를 예측하는 실험을 진행하였습니다.
- 평가 방법: 전체 데이터셋(full set)과 무작위로 선택된 50개 샘플(50-shot subset)을 사용하여 최고의 인지 전문가를 탐색하고, 이를 랜덤 추측(random guess)과 비교하였습니다.
- 평가 지표: 지식 부족 데이터와 충분한 데이터 간의 불균형을 고려하여 F1-Score를 사용 하였습니다.
실험 결과 (Results)
- Table 1 의 결과에서 볼 수 있듯이, 모든 실험 설정에서 인지 전문가를 활용한 방법이 랜덤 추측을 능가 하였습니다.
- 전체 데이터셋을 사용하여 인지 전문가를 식별하는 것이 가장 높은 성능을 기록 하였지만, 50-shot 샘플만을 사용한 경우에도 상당히 높은 성능을 보임.
- 특히, Mixtral-8x7B 모델에서 50-shot 설정만으로도 PopQA 데이터셋의 랜덤 추측 대비 13.86%의 절대적 성능 향상 을 달성하였습니다.
- 이는 인지 전문가가 강력한 일반화 능력을 가지고 있으며, 불필요한 검색을 줄임으로써 RAG의 효율성을 향상시킬 수 있음을 시사합니다.
3.4 문맥 전문가 (In-context Experts)
RAG에서 문맥 정보를 활용하는 능력은 매우 중요합니다 (Shi et al., 2023b). 그러나, LLMs는 종종 문맥에서 정보를 효과적으로 추출하는 데 어려움을 겪을 수 있습니다 (Xie et al., 2023).
실험 설정 (Setup)
- 대비적 시나리오(contrastive scenarios) 는 문맥에 검색된 문서를 포함하는 경우와 검색된 문서를 포함하지 않는 경우를 비교하는 방식으로 구성됩니다.
- 검색된 문서가 포함된 데이터( Dpos )는 질문과 관련된 문서를 포함하는 데이터를 의미하며,
- 검색된 문서를 제외한 데이터( Dneg )는 질문만 포함하고 검색된 문서가 없는 데이터를 의미합니다.
- 문장 길이 차이로 인한 영향을 줄이기 위해, Dneg 의 문장을 Dpos와 동일한 길이로 패딩(padding) 처리합니다.
- 문맥 전문가(in-context experts)의 실험 세부 사항 및 분석 내용은 부록 E에서 제공합니다.
실험 결과 (Empirical Findings)
- Figure 5 는 검색된 문서가 포함된 경우와 포함되지 않은 경우의 전문가 활성화 패턴이 확연히 다름을 보여줍니다.
- 이는 문맥 전문가(in-context experts)의 존재를 확인하는 증거 가 됩니다.
- 또한, 일부 전문가들이 다양한 데이터셋에서 지속적으로 활성화되는 패턴 을 보이며, 이는 보편적인 문맥 전문가의 존재 가능성을 시사 합니다.
분석 (Analyses)
- 문맥 전문가가 RAG에서 얼마나 효과적인지를 검증하기 위해, 우리는 대비적 전문가 활성화 확률(contrastive activation probability, ΔP\Delta P) 을 활용하여 실험을 진행하였습니다.
- 실험 방법
- 모델의 순전파 과정에서 특정 전문가의 활성화를 조정하여 문맥을 활용하는 능력을 테스트함.
- 문맥 활용 능력을 향상하기 위해 ΔP가 높은 전문가를 선택적으로 활성화하며,
- 반대로, 문맥 활용 능력이 낮은 전문가의 활성화를 억제 함.
- 결과적으로, 문맥 전문가의 활성화 조절이 RAG 성능을 향상시키는 데 중요한 역할을 한다는 점을 확인하였습니다.
4. 적응형 RAG(Adaptive RAG) 적용 (Application on Adaptive RAG)
최근 연구들은 적응형 RAG(Adaptive RAG, ARAG) 에 집중하고 있으며, 이는 불필요한 검색 비용을 줄이고, 필요한 경우에만 검색을 수행하여 RAG의 성능을 향상 시킵니다 (Wang et al., 2023; Asai et al., 2024).
- 우리의 연구에서 탐색한 전문가들이 ARAG에서 중요한 역할을 수행할 수 있기 때문에, 이를 ARAG에 적용하는 것이 직관적입니다.
- 본 섹션에서는 4.1절에서 우리의 방법을 소개 하고, 4.2절에서 실험 설정을 설명 한 후, 4.3절에서 실험 결과를 제시 합니다.
4.1 전문가 활성화를 통한 RAG 성능 향상 (Enhancing RAG via Expert Activation)
우리는 Expert-RAG 를 제안하며, 이는 탐색한 세 가지 전문가(인지 전문가, 품질 전문가, 문맥 전문가)를 활용하여 RAG의 효과성과 적응성을 향상 시킵니다.
Expert-RAG 단계 (Expert-RAG Involves the Following Steps)
- 지식 판단 (Knowledge Judgment)
- 주어진 질문을 LLM에 입력하고 순전파 과정에서 전문가 활성화 정보를 수집 함.
- 인지 전문가(cognizant experts) 를 사용하여 시나리오 점수(scenario score) 를 계산하고,
- 모델의 내부 지식이 충분한지를 예측 함.
- 검색은 오직 인지 전문가가 내부 지식이 부족하다고 판단하는 경우에만 수행됨.
- 품질 필터 (Quality Filter)
- 문서를 검색한 후, 해당 질문과 검색된 문서를 함께 입력하여 품질 전문가(quality expert) 를 사용하여 검색된 문서의 품질을 평가함.
- 오직 고품질 문서만 추가적인 처리를 위해 사용됨.
- 검색 성능 향상 (Retrieval Enhancement)
- 고품질 검색 문서가 문맥에 포함되었을 때, 문맥 전문가(in-context experts)의 활성화를 조정하여 모델의 문맥 활용 능력을 향상 시킴.
- 우리의 방법은 특정 전문가를 소수의 데이터로 식별하는 방식 이므로, 훈련 없이 쉽게 적용 가능함.
4.2 실험 설정 (Experimental Setup)
RAG 평가 (RAG Evaluation)
- 대부분의 RAG 데이터셋은 ARAG의 장점을 효과적으로 반영하지 못합니다.
- 기존 방식은 항상 문서를 검색하는 방식(always retrieving documents)이 일반적으로 가장 높은 성능을 보이지만,
- 단순히 작업 성능만 평가 지표로 삼을 경우, RAG의 효율성(검색 필요성)까지 반영하지 못함.
- 또한, 실제 응용에서 검색된 문서가 오히려 성능을 저하시킬 수도 있음.
- 이러한 문제를 해결하기 위해, 우리는 평가 지표 및 데이터 레시피를 새롭게 제안하여 ARAG 평가를 더 포괄적으로 수행 합니다.
평가 지표 (Metric)
- 작업 성능(Task Performance):
- 기존 연구 (Shi et al., 2023b; Asai et al., 2024) 를 따르며, 정확도(Accuracy, Acc) 를 사용함.
- 예측된 답변이 골드 정답 중 하나와 정확히 일치하면 정답으로 간주함.
- 검색 평가(Retrieval Evaluation):
- 검색 필요성을 평가하기 위해 검색 점수(R-Score)를 사용함.
- 검색으로 인한 추가적인 추론 비용을 평가하기 위해 R-Token을 사용함.
- R-Score는 모델의 실제 검색 필요성과 ARAG 검색 예측 간의 정확도를 측정.
- R-Token은 검색된 문서의 토큰 길이를 나타내며, 이를 통해 디바이스나 플랫폼 간 비교 가능.
- 이 두 가지 평가 지표(R-Score, R-Token)를 통해 ARAG의 효율성과 효과성을 종합적으로 평가할 수 있음.
데이터셋 (Dataset)
- 기존 RAG 연구 (Chen et al., 2024; Asai et al., 2024) 를 참고하여 대표적인 QA 데이터셋을 선정 함.
- PopQA (Mallen et al., 2023)
- RGBqa (Chen et al., 2024)
- PubHealth (Asai et al., 2024)
4.3 실험 결과 (Results)
- Table 4 는 우리의 실험 결과를 나타냅니다.
- 주요 결과는 다음과 같습니다.
- Always RAG는 대부분의 데이터셋에서 작업 성능을 향상 시킴.
- 그러나 R-Score와 R-Token 결과를 보면, Always RAG는 불필요한 검색이 많아 추가적인 비용을 초래 함.
- 우리의 Expert-RAG는 Always RAG보다 더 적은 검색 토큰을 사용하면서도 경쟁력 있는 성능을 유지 함.
- 특히, RGBqa, PubHealth, BalanceQA에서 Always RAG를 초월하는 성능을 기록 함.
- BalanceQA를 활용하면 검색의 "위험성"을 반영할 수 있어 ARAG의 장점을 강조하는 데 유용 함.
6 결론 (Conclusion)
본 논문에서는 MoE(Mixture-of-Experts) 기반 LLM에서 전문가 활성화가 RAG(Retrieval-Augmented Generation)에 미치는 영향 을 탐구하였습니다.
- 우리는 CEAI(Contrastive Expert Activation Inspection) 를 소개하며,
- 대비적 시나리오에서 전문가 활성화 빈도의 차이를 비교하여 특정 시나리오에 대한 핵심 전문가(core experts)를 식별하는 방법 을 제안하였습니다.
핵심 전문가 세 가지 유형:
- 인지 전문가(Cognizant Experts)
- 품질 전문가(Quality Experts)
- 문맥 전문가(In-Context Experts)
- 우리는 핵심 전문가의 활성화가 특정 시나리오를 예측하고, 모델의 동작을 조정하는 데 활용될 수 있음을 입증 하였습니다.
- 이를 바탕으로, 전문가 기반의 적응형 RAG(Adaptive RAG) 방법을 제안 하였으며,
- 포괄적인 ARAG 평가를 위한 여러 가지 평가 방법을 제시 하였습니다.
다양한 데이터셋을 대상으로 한 실험을 통해, 전문가 활성화를 활용한 RAG 개선이 효과적임을 확인하였습니다.
한계점 (Limitation)
본 연구의 한계점은 다음과 같습니다.
- MoE 기반 LLM에서의 전문가 활성화가 RAG에 미치는 영향에 초점을 맞춤
- 모든 활성화된 전문가들은 자연스럽게 서브 네트워크(subnetwork)로 간주될 수 있습니다.
- 그러나 밀집형(dense) 네트워크에서도 이와 유사한 서브 네트워크가 존재할 가능성이 있습니다.
- 하지만 MoE 모델과 달리, 밀집형 모델은 자연스럽게 활성화되는 전문가가 존재하지 않으므로, 이러한 서브 네트워크를 직접 찾는 것이 어렵습니다.
- 따라서 본 연구는 MoE 기반 LLM에 대한 연구에 한정하며, 밀집형 모델에 대한 연구는 향후 과제로 남깁니다.
- 본 연구의 실험은 "명령어 조정된(instruction-tuned) MoE 기반 LLM"을 사용하여 진행됨
- 명령어 조정 없이 사전 훈련된(base model) 모델 이나,
- RAG를 위해 특별히 설계된 모델을 평가하지 않음.
- 그럼에도 불구하고, 다양한 규모의 모델을 포함한 실험을 수행 하였으며,
- MoE 아키텍처와 학습 방식이 다른 Qwen 모델에서도 동일한 핵심 전문가가 식별됨 을 확인하였습니다.
- 이는 본 연구에서 발견한 세 가지 유형의 전문가가 보편적으로 존재하며, 우리의 접근 방식이 일반화 가능함을 시사 합니다.