Generate rather than Retrieve: Large Language Models are Strong Context Generators

jihyelee·2023년 8월 7일

0

Generate rather than Retrieve: Large Language Models are Strong Context Generators
ICLR 2023

분야 및 배경지식

retrieval (검색; 회수)
- 일반적으로 지식을 많이 필요로 하는 태스크(e.g. open-domain QA) 등에 사용되는 방식
- 질문에 답을 할 수 있는 관련있는 문서들을 위키피디아 등으로부터 검색하여 가져온 후(retrieval) 이를 활용해 언어모델이 답을 하도록 함
- 일반적으로 검색 모델(e.g. BM25, ORQA, DPR)과 언어 모델이 분리되어 있음

문제점

도메인이나 세상에 대한 지식이 필요한 태스크에서 일반적으로 많이 사용하는 retrieve-then-read(검색 후 읽기) 방식은 한계 존재
- 검색하여 얻은 후보 문서들은 뭉치로 고정되어 있으며, 연관없는 정보(noisy information)을 포함할 수 있음
- 질문과 문서의 표현(representation)이 독립적으로 얻어져 둘 사이의 상호관계가 긴밀하지 않을 수 있음
- 거대한 코퍼스로부터 문서를 검색하는 모델은 각 문서의 표현(representation)을 저장하고 있어야 함

해결책

GenRead (Generate-then-Read)

1. 생성(Generate)
- 검색(Retrieval) 모델을 사용하지 않음
- 대신 거대한 언어모델(large language model; LLM)로 하여금 주어진 질문과 관련있는(contextual) 문서를 생성하도록 함
- 거대한 언어모델에 파라미터 내에 충분한 양의 지식을 학습하였다는 점을 이용
1. 읽기(Read)
- 해당 문서들을 언어모델에 인풋으로 제공해줌으로써 질문에 대한 답을 생성하도록 함

클러스터링 기반 프롬프팅

생성한 문서의 다양성을 위해 클러스터링 기반 프롬프팅을 도입
1. 질문 당 하나의 문서를 생성
- 언어모델을 활용할 경우 하나의 문서를 생성, 검색 모델(Retriever)을 활용할 경우 위키피디아 등에서 문서를 가져오도록 함
- 질문-문서의 쌍(pair) 생성
1. 각 문서를 인코딩한 후 k-means 클러스터링 실시
- 언어모델을 활용해 질문-문서 쌍을 인코딩
- K-means를 활용하여 임베딩 벡터를 군집화, K개의 군집 생성
1. K개 문서 샘플링 및 생성
- 각 군집(클러스터)에서 n개의 질문-문서 쌍을 샘플링
- 해당 질문-문서 쌍들을 연결하여 하나의 문서를 생성하도록 함
- 최종적으로 K개의 다양한 문서 생성

평가

태스크
- open-domain QA (오픈 도메인 질의응답)
  - 데이터셋: NQ, TriviaQA, WebQ
  - 평가기준: EM (exact match), Recall@K
- fact checking (사실 확인)
  - 데이터셋: FEVER, FM2
  - 평가기준: 정확성
- open-domain dialogue (오픈 도메인 대화)
  - 데이터셋: WoW
  - 평가기준: F1 / Rouge-L
모델
- InstructGPT
실험
- zero-shot setting
  - 프롬프트와 질문만 주어졌을 때 대비 뛰어난 성능 향상
    - v.s. GPT-3, Gopher, FLAN, GLaM, Chinchilla, PaLM, InstructGPT
  - 프롬프트, 관련 문서, 질문이 주어졌을 때 대비 비슷하거나 더 좋은 성능
    - v.s. BM25/Contriever, Google, DPR + InstructGPT
- supervised setting
  - 10개 이하의 문서일 경우 DPR, Google Search와 비교했을 때 뛰어난 성능 향상 (QA)
  - 사실 확인 태스크의 경우 유사한 성능, 대화 태스크의 경우 더 뛰어난 성능
    - v.s. DPR, RAG, FiD
  - 생성한 문서와 검색한 문서를 함께 사용했을 경우 성능이 훨씬 좋아짐

한계

문서의 수가 증가함에 따라 성능 곡선이 완만해짐
- 여러 개의 문서를 생성함에 따라 토큰 분포의 유사도가 높아지거나 (generate)
- 혹은 검색으로 얻은 문서들이 주어진 질문에 관련도가 높지 않아서임 (retrieval)
지식을 업데이트하거나 새로운 도메인에 적용할 수 없음
- 언어모델이 학습한 지식에 의존하는 방식이기 때문에, 새로운 지식에는 적용 불가한 방법

의의

기존에 많이 사용되던 retrieval 방식을 넘어서 지식이 필요한 태스크에 거대한 언어모델을 효과적으로 사용할 수 있는 방법을 제시

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

이전 포스트

혼자 공부하는 컴퓨터 구조 + 운영체제 Section 7. 보조기억장치

다음 포스트

혼자 공부하는 컴퓨터 구조 + 운영체제 Section 8. 입출력장치

0개의 댓글