RAG는 대규모 언어 모델 자체를 재학습시키지 않고, 외부 지식 저장소를 연결하여 전문적이고 최신 정보를 기반으로 답변할 수 있게 하는 효과적인 해결책입니다. RAG의 기본 동작 구조는 검색 후 생성(Retrieve-then-Generate) 과정입니다.
하지만 이 방식은 다음과 같은 근본적인 한계에 직면합니다:
이러한 문제를 해결하기 위해, 일부 연구에서는 외부 검색 대신 LLM 자체의 지식 암기 능력을 활용하여 관련 문서를 생성하고 이를 바탕으로 답변하는 생성 후 독해(Generate-then-Read) 접근 방식이 제안되었습니다.
본 논문에서 제안하는 A+B 프레임워크는 이러한 Generate-then-Read 방식을 체계적으로 형식화하고 탐구하여, LLM이 가진 시너지 잠재력을 극대화합니다.
A+B 프레임워크는 RAG와 유사하게 태스크를 분리하지만, 외부 검색기 대신 LLM 내부 기능을 활용하여 생성(A)과 독해(B)의 역할을 명확히 나눕니다.
A (Generator, 생성기): 입력 쿼리에 관련 있는 맥락(Context)을 생성하는 역할입니다. 높은 사실적 정확도가 핵심 요구사항입니다.
B (Reader, 독해기): 생성기(A)의 맥락을 해석하고 인지적 추론을 통해 인간 선호도에 정렬된 최종 응답을 제공하는 역할입니다.
각각의 역할에 적합한 LLM을 찾기위해 Finetuning되지않은 base버전과 대화를 위해 Finetuning된 chat버전의 상황별 성능을 확인하였다.
지식 암기 능력

응답 생성 능력

A+B 프레임 워크는 다음과 같이 작동한다.
Q: 아카이브에 올라온 'A+B' 논문의 주요 저자와 소속 기관을 전부 알려줘.
A(관련 지식 context 생성) : "Wei Tang 12, Yixin Cao 3, Jiahao Ying 4, Bo ... "
B(최종 답변 생성): 논문 'A+B'의 주요 저자 및 소속 기관 정보는 다음과 같습니다: Wei Tang, Yuyue Zhao, Yong Liao: 중국 과학기술대학교 ...
제시된 데이터셋을 사용한 A+B 프레임워크의 성능 분석 결과를 바탕으로, 주요 사실들과 프레임워크의 효과를 정리합니다. 평가는 주로 내부 지식을 활용하는 능력에 초점을 맞추었으며, 복잡성에 따라 단일 홉(NQ, TriviaQA, WebQ) 및 다중 홉(HotpotQA) 추론 능력을 측정했습니다.
단일 모델(Reader-only)보다 A+B 프레임워크(Generator-Reader)의 성능이 좋습니다.
동일한 모델 카테고리 내에서 Generator-Reader 구조가 Reader-only 접근 방식보다 성능이 크게 향상되었습니다. 특히 복잡한 시나리오인 HotpotQA를 포함하여 NQ, WebQ에서도 눈에 띄는 개선(각각 4.6%, 4.2%, 4.9%p)이 관찰되었습니다.
Base 버전이 Chat 버전보다 더 나은 생성기(Generator)로 기능합니다.
Chat 버전(정렬된 모델)이 독해기(Reader)로서 더 적합합니다.
Reader의 크기를 늘리는 것보다 Generator의 크기를 늘리는 것이 성능 개선에 더 큰 영향을 미칩니다.
A+B 프레임워크는 LLM의 내부 지식(Internal Knowledge)을 활용하여 , 기존 RAG 기법의 단점(검색기 품질 문제)이나 복잡한 검색 세팅 과정을 생략하고도 유사하거나 더 나은 효과를 볼 수 있는 방안을 제시합니다.
특히, A+B 프레임워크는 지속적인 사전 학습(continuous pre-training)을 통해 외부 지식 통합 시나리오로 확장되어 , RAG 방법론에 버금가거나 특정 시나리오(within-document)에서는 능가하는 결과를 보여줌으로써 , LLM 응용 프로그램의 성능을 향상할 잠재력을 입증했습니다.