[논문 리뷰 - 5] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

shanny·2025년 4월 4일

논문 리뷰

목록 보기
6/42

‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.

논문 URL - https://arxiv.org/abs/2005.11401

논문을 읽으며 생각할 것들

저자가 이 논문을 통해 이루고자 한 것은 무엇인가?

-> seq2seq 모델보다 더 구체적이고 다양하고 사실적인 언어를 생성하는 모델(RAG)을 만든다.

  • 문제 상황 :
    1) 모델이 지식에 접근하고 정확하게 조정하는 능력은 여전히 제한적
    2) 명시적 비매개변수 메모리에 대한 차별적인 접근 메커니즘을 갖춘 사전 학습 모델은 추출형 다운스트림 작업(데이터 추출, 정보 검색 등)에 대해서만 연구되었다.

  • 해결 방법 : RAG(언어 생성을 위한 사전 학습 매개변수적 메모리와 비매개변수적 메모리가 결합된 모델)를 위한 범용적인 파인튜닝 방법을 탐구한다.

논문의 핵심 요소는 무엇인가?

  • RAG의 개념
    사전 학습된 매개변수적 메모리(저장된 지식) 생성 모델에 검색 증강 생성(RAG)이라 부르는 범용적 미세 조정 기법을 통해 비매개변수적 메모리(실시간 검색)를 추가한다.

  • RAG의 작동 원리
    1) 사전 학습된 검색기(Query Encoder + Document Index)와 사전 학습된 seq2seq2 모델(Generator)를 결합하고 한번에 파인튜닝한다.
    2) 쿼리 x 에 대해 최대 내적 탐색(MIPS)을 사용하여 상위 K개의 문서 z를 찾는다.
    3) 최종 예측 y를 위해, z를 잠재 변수(latent variable)로 간주하고, 서로 다른 문서가 주어진 상태에서 seq2seq 예측을 주변화(marginalize)한다.

  • 연구 성과
    학습된 검색(retrieval) 구성 요소에 대한 효과성을 입증했으며, 재학습 없이도 검색 인덱스를 핫스왑(실시간 교체)하여 모델을 업데이트할 수 있는 방법을 구체적으로 보였다.

논문에서 내가 활용할 것은 무엇인가?

  • RAG 모델을 활용할 때, 성능 평가를 위해 논문에서 사용했던 모델(BART 등)과 비교하기
  • RAG 모델을 활용한 '페르소나 챗봇' 등 서비스 기획, 개발 등으로 발전시키기(실제 모델을 적용해보기)

참고할 다른 논문은 무엇인가?

Transformer

Encoder-decoder

profile
데이터 분석가

0개의 댓글