[논문리뷰] Dense Passage Retrieval for Open-Domain Question Answering

김현주·2024년 10월 31일

paper

목록 보기

5/5

Dense Passage Retrieval for Open-Domain Question Answering 논문은 오픈 도메인 질문 응답 시스템에서 고성능의 정보를 효율적으로 검색하기 위해 고안된 Dense Passage Retrieval(DPR) 모델을 제안한다. DPR 모델은 질문에 대한 답변이 방대한 텍스트 데이터에서 존재할 때, 필요한 정보를 정확하게 찾아내기 위해 Dense Embedding 방식을 활용한다. 이 논문은 특히 단순한 키워드 기반 검색의 한계를 넘어서기 위해, 학습된 언어 모델로 질문과 문서 간의 Dense Representation을 생성하여 정보 검색을 향상시키는 방안을 다룬다.

1. 오픈 도메인 질문 응답의 배경과 과제

오픈 도메인 질문 응답 시스템은 다양한 출처에서 정보를 추출하여 질문에 대한 답을 제공하는 시스템을 의미한다. 이러한 시스템에는 웹 문서, 위키피디아 등에서 답변을 검색해야하는데, 관련성 높은 문서를 빠르고 정확하게 찾아내는 것이 매우 중요하다. 기존의 TF-IDF나 BM25와 같은 키워드 기반 검색은 높은 성능을 보장하지 못해, 더 정교한 검색 모델이 요구되었다.

2. Dense Passage Retrieval(DPR) 모델의 주요 아이디어

DPR 모델의 핵심 아이디어는 질문과 문서를 각각 Dense Vector로 변환한 후, 이 벡터들 간의 유사도를 계산하여 답변이 포함된 문서를 찾아내는 것이다. 기존 키워드 기반 검색은 문서와 질문 사이의 단어 일치를 기반으로 하기 때문에 의미적 유사성을 충분히 반영하지 못하는데, DPR은 이를 극복하기 위해 질문과 문서를 임베딩 벡터로 표현하여 의미적으로 가까운 문서를 검색할 수 있도록 한다.

3. DPR의 아키텍처

DPR모델은 크게 두 가지 모듈로 구성된다.

Question Encoder: 질문을 Dense Vector로 변환하는 역할을 한다. DPR은 BERT 기반의 학습된 모델을 사용하여 질문의 의미적 표현을 추론한다. 이를 통해 질문과 관련된 정보가 벡터에 포함된다.
Passage Encoder: 방대한 텍스트 데이터에서 문서의 각 구절(passage)을 Dense Vector로 변환하여 저장한다. 이 벡터들은 질문 벡터와 비교될 때 유사성을 계산할 수 있도록 미리 전처리 및 저장된다.

이 두 개의 인코더는 독립적으로 학습되며, 최종적으로 질문 벡터와 문서 벡터 간의 내적(dot product)을 사용해 유사도를 계산한다. 이 과정에서 가장 유사도가 높은 문서들이 선택되어 질문에 대한 답변으로 제공될 가능성이 크다.

4. DPR 모델의 훈련 방식

DPR 모델은 지도 학습 방식으로 훈련된다. 훈련 데이터는 질문과 그에 대한 관련 문서(정답 문서)로 구성되며, DPR은 정답 문서의 벡터와 질문의 벡터가 최대한 가까워지도록 학습한다.

Positive & Negative Sampling: DPR의 훈련에는 정답 문서 외에도 비슷하지만 틀린 문서(negative samples)도 함께 제공된다. 이를 통해 모델이 질문과 비슷해 보이지만 정확한 답변을 제공하지 않는 문서를 잘 구분할 수 있도록 한다.
Contrastive Loss: 모델은 대조 손실(contrastive loss)을 사용해 질문 벡터와 정답 벡터 간의 유사도는 극대화하고, 오답 문서와의 유사도는 최소화한다. 이 방식은 질문과 정답 문서의 유사도를 높이면서도 검색 과정에서 오류를 줄이는 효과를 가져온다.

5. DPR의 작동 과정

1단계: 인코딩 단계

질문이 입력되면 Question Encoder가 이를 Dense Vector로 변환한다.
이때 미리 인코딩된 Passage Encoder는 대규모 텍스트 데이터(ex. 위키피디아) 내 모든 구절을 Dense Vector로 변환해 저장하고 있다.

2단계: 유사도 계산

질문 벡터와 저장된 각 문서 벡터 간의 유사도를 계산한다. 이때 내적 계산을 통해 가장 유사도가 높은 상위 문서들을 선택한다.

3단계: 응답 생성

선택된 문서들은 추출 모델 또는 생성 모델을 통해 질문에 대한 구체적인 답변을 제공하는 데 사용된다.

6. 실험 결과

DPR 모델의 성능을 평가하기 위해, SQuAD Open, Natural Questions, TriviaQA와 같은 여러 오픈 도메인 질문 응답 데이터셋에서 실험을 수행했고 실험 결과, DPR은 다음과 같은 성능을 보였다.

높은 검색 정확도: 기존 TF-IDF 및 BM25 기반 검색 방식보다 높은 정확도를 기록했다. DPR은 특히 질문과 관련된 문서가 수백만 개에 달하는 상황에서도 성능이 우수했다.
처리 속도: DPR은 Dense Vector로 미리 인코딩된 문서 벡터를 사용하기 때문에 실시간 검색에 적합한 처리 속도를 제공한다. 특히 실시간으로 문서 검색이 필요한 응용에서 더 빠르고 정확하게 동작힌다.

7. DPR의 장점과 한계

장점

의미적 검색 가능: 키워드 일치에 의존하지 않고, 질문과 문서 간 의미적 유사성을 반영하여 검색하므로 복잡한 질문에 더 적합하다.
확장성: 대규모 데이터셋에서도 효율적으로 작동할 수 있어 오픈 도메인 질문 응답 시스템에서의 활용 가능성이 높다.
단일 패스 처리: 모든 문서를 Dense Vector로 인코딩하여 저장하고, 검색 시 내적 계산만 수행하므로 실시간 응답이 가능하다.

한계

높은 계산 비용: 모든 문서를 Dense Vector로 저장해야 하므로 초기 인코딩과 저장에 많은 메모리와 계산 비용이 든다.
메모리 한계: 벡터를 저장하고 검색하는 과정에서 많은 메모리를 소모하므로, 매우 대규모 문서 집합에서의 효율성 문제가 발생할 수 있다.
문맥 상실 가능성: Dense Vector로 표현되는 과정에서 일부 문맥 정보가 손실될 수 있으며, 이로 인해 일부 복잡한 질문의 경우 답변이 정확하지 않을 수 있다.

김현주

AI개발자

이전 포스트