[논문리뷰] Retrieval-Augmented Generation for AI-Generated Content: A Survey (1)

daegeon kim·2025년 11월 2일

Paper Review

목록 보기

14/38

최근 몇 년 사이 인공지능 생성 콘텐츠(AIGC, AI-Generated Content)가 폭발적으로 발전했다. LLM, Stable Diffusion이나 DALL·E 같은 이미지 생성 모델, 그리고 비디오 생성 모델까지 다양한 양식의 생성 모델이 등장하면서 AI가 만드는 콘텐츠의 범위와 품질이 눈에 띄게 높아졌다.

이러한 발전은 모델 구조의 혁신, 기반 모델의 대형화, 그리고 대규모 고품질 데이터 세트의 등장의 도움이 있었다. 하지만 그만큼 문제가 드러나기도 했다. AIGC는 지식 업데이트의 어려움, 롱테일 데이터(희귀 정보) 처리 한계, 개인 데이터 유출 위험, 높은 학습 및 추론 비용 같은 구조적 문제를 안고 있었다.

이때 새로운 해결책으로 부상한 개념이 바로 Retrieval-Augmented Generation, RAG 이다.
RAG는 단순히 모델 내부에 있는 파라미터로만 텍스트를 생성하는 대신, 외부 지식 저장소에서 관련 정보를 검색해 활용하는 방식을 택한다. 이렇게 하면 모델이 최신 정보를 반영할 수 있고, 희귀하거나 훈련 데이터에 포함되지 않은 지식을 실시간으로 참고할 수 있으며, 민감한 데이터를 직접 학습하지 않아도 된다.

결과적으로 RAG는 정확도와 신뢰성, 그리고 효율성을 동시에 높이는 접근법으로 평가받고 있다.
예를 들어 질문에 답변할 때, LLM이 자체적으로 “추측”하기보다는 검색을 통해 문서를 찾아보고, 그 정보를 근거로 답을 생성하는 식이다.

핵심 내용

RAG의 원리를 중심으로, AIGC 분야에서 지금까지 제안된 연구들을 체계적으로 정리하고 분류한 종합 서베이 논문이다.
저자들은 먼저 RAG의 기본 구조를 세 가지 핵심 요소로 구분했다:

검색기(Retriever) – 외부 지식 저장소나 문서 집합에서 관련 데이터를 찾아오는 모듈
생성기(Generator) – 검색된 정보를 바탕으로 최종 콘텐츠를 생성하는 모델
보강 방식(Augmentation Method) – 검색된 결과가 생성 과정에 어떻게 통합되는지에 대한 전략

이때 보강 방식은 단순히 검색 결과를 입력에 추가하는 것부터, 생성 과정의 중간 단계(latent representation)에 반영하거나, 최종 출력의 logit 단계에 직접 개입하는 등 여러 형태로 나뉜다.
이 논문은 이런 구조를 기반으로, RAG의 기초 패러다임을 분류하고 각 방식의 공통 추상화 원리를 도출했다.

RAG의 개선과 확장

연구자들은 기본 RAG 프로세스 위에 여러 가지 개선 기법을 더해 왔다.
예를 들어 검색기의 효율을 높이는 방법, 생성기와의 상호작용을 최적화하는 방법, 전체 파이프라인의 품질을 높이는 통합 접근법 등이 있다.
논문에서는 이런 구성 요소별 최적화 방법과 시스템 전체 개선 전략을 함께 다뤘다.

또한 RAG는 텍스트 생성에서 출발했지만, 이제는 훨씬 넓은 영역으로 확장되고 있다.
코드 생성, 이미지 생성, 오디오 합성, 비디오 생성, 3D 콘텐츠, 지식 그래프 생성, 과학 연구 보조 등 다양한 모달리티에서 RAG가 적용되고 있으며, 각각의 영역에서는 RAG가 특유의 방식으로 발전하고 있다.
예를 들어, 이미지 RAG에서는 시각적 특징을 검색 기반으로 보강하고, 코드 RAG에서는 문맥 기반 검색을 통해 함수나 라이브러리 호출을 개선하는 식이다.

기여

저자들은 이 논문을 통해 RAG 연구의 전체 지형도를 조망하고, 다음과 같은 주요 기여를 제시했다.

RAG 기술을 기초 구조, 개선 방법론, 응용 사례, 벤치마크, 한계점 및 미래 방향까지 아우르는 종합적 프레임워크로 정리했다.
다양한 검색기·생성기 조합을 비교하면서, RAG의 기초 추상화 모델을 도출했다.
실제 AIGC 분야에서 RAG가 어떻게 활용되고 있는지 정리해, 연구자와 실무자에게 실질적인 참고 자료를 제공했다.
현재 RAG가 가진 제한 사항과 향후 연구 가능성을 논의하며, 앞으로의 발전 방향을 제시했다.

해당 페이퍼의 중요성

기존의 RAG 관련 연구나 설문은 대부분 텍스트 기반 LLM 중심으로 이루어져 있었다.
하지만 이 논문은 범위를 훨씬 넓혀 모든 형태의 AIGC(텍스트, 이미지, 오디오, 비디오, 코드, 3D 등) 를 포괄적으로 검토했다는 점에서 의미가 크다.
즉, RAG를 단일 응용이 아닌 통합적 생성 패러다임으로 재조명한 첫 번째 시도라 할 수 있다.

또한 연구자 입장에서는 RAG의 다양한 변형 구조를 한눈에 이해할 수 있고, 실무자 입장에서는 RAG 시스템을 실제로 구축할 때 어떤 부분을 개선하거나 조정해야 하는지 감을 잡을 수 있다.

daegeon kim

AI Engineer

이전 포스트

[논문리뷰] Understanding and Mitigating Language Confusion in LLMs

다음 포스트