https://arxiv.org/pdf/2210.08726
RARR: Researching and Revising What Language Models Say, Using Language Models
1. 개요
대형 언어 모델(LLM)은 질문 답변(QA), 추론(reasoning), 대화(dialog) 등의 작업에서 뛰어난 성능을 보이지만, 근거 없는 정보(hallucination)나 잘못된 정보(misleading content)를 생성하는 문제가 존재한다.
이러한 문제를 해결하기 위해 RARR (Retrofit Attribution using Research and Revision) 프레임워크를 제안한다.
RARR의 주요 목표는 다음과 같다.
- LLM이 생성한 텍스트의 출처를 자동으로 찾고(research), 정당성을 평가할 수 있도록 함
- 출처 없는 내용(unsupported content)을 수정하고(revise), 원래 텍스트의 구조와 스타일을 유지
이 프레임워크는 기존의 언어 모델을 변경하지 않고도 출처를 추가하고 신뢰성을 높이는 방식으로 작동한다.
즉, 생성 후(post-hoc) 수정하는 방식이므로 기존 LLM의 능력을 그대로 활용하면서도 신뢰성을 보장할 수 있다.
2. 기존 연구와 한계점
2.1. 언어 모델의 한계
- LLM은 정확한 출처 없이도 사실적인 내용을 생성하는 능력이 뛰어나지만, 종종 근거 없는 주장을 만들어낼 수 있음.
- 기존의 Retrieval-Augmented Generation (RAG) 모델도 검색된 정보를 무시하거나 왜곡하여 활용하는 문제가 있음.
- 정보가 검색된 경우에도 정확한 출처를 제시하지 못하거나, 검색된 정보와 충돌하는 경우가 발생.
2.2. 기존 방법의 한계
- Fact-checking (사실 검증) 연구에서는 생성된 문장을 검색된 문서와 비교하여 진실성을 평가하지만, 생성된 문장을 직접 수정하는 기능이 없음.
- 기존의 수정(editing) 모델들은 원본 문장을 크게 수정하여 스타일과 흐름을 깨뜨리는 경우가 많음.
- 기존 연구들은 특정 도메인(예: Wikipedia)에 최적화되어 있어, 일반적인 언어 모델에 적용하기 어려움.
3. RARR 프레임워크
RARR는 크게 3단계(Research, Agreement, Revision)로 구성된다.
3.1. Research (정보 검색)
- 질문 생성(Query Generation): 모델이 생성한 문장을 기반으로 검증해야 할 질문들을 생성.
- 문서 검색(Evidence Retrieval): Google 검색 등을 이용해 관련 문서를 찾고, 핵심 문장을 추출.
3.2. Agreement (일치 여부 판단)
- 검색된 문서가 모델의 답변과 일치하는지 불일치하는지 판단.
- 일치하면 그대로 유지하고, 불일치하면 수정 대상으로 분류.
3.3. Revision (출처 기반 수정)
- 검색된 정보를 기반으로 출처가 명확한 문장으로 수정.
- 원래 문장의 스타일과 구조를 유지하면서 최소한의 수정만 적용.
4. 실험 및 결과
4.1. 실험 데이터셋
다양한 텍스트 생성 작업에서 RARR를 평가함.
- NQ (Natural Questions): 사실 기반 질문-답변 데이터
- SQA (StrategyQA): 복합적인 추론(reasoning) 문제
- QReCC: 대화형 QA 데이터
4.2. 비교 대상 모델
- EFEC (Evidence-based Factual Error Correction): 위키피디아 기반 사실 수정 모델.
- LaMDA Research: Google의 LaMDA 모델을 기반으로 수정.
4.3. 평가 지표
| 평가 지표 | 설명 |
|---|
| Attribution | 수정된 문장이 출처에 기반하는 정도 |
| Preservation | 원래 문장의 구조와 의미를 유지하는 정도 |
4.4. 실험 결과
RARR가 기존 모델보다 정확한 출처를 제공하면서도 원래 문장의 의미를 보존하는 성능이 뛰어남을 확인.
| 모델 | Attribution | Preservation | F1 Score |
|---|
| EFEC | 45.6 → 64.3 | 16.0 | 17.1 |
| LaMDA | 39.5 → 49.9 | 26.0 | 24.9 |
| RARR (제안 기법) | 45.6 → 54.9 | 90.0 | 57.0 |
📌 주요 결과 분석
- RARR는 Attribution을 10% 이상 향상시키면서도, 원래 문장의 90% 이상을 유지함.
- LaMDA는 원본 문장을 많이 변경하여 Preservation 점수가 낮음.
- EFEC는 문장을 지나치게 축약하여 정보를 많이 손실.
5. 한계점 및 향후 연구
5.1. 한계점
- 검색된 정보가 반드시 신뢰할 수 있는 것은 아님 → 출처의 신뢰성을 평가하는 기능 추가 필요.
- 논리적 추론(reasoning chains) 수정이 부족 → 수정 과정에서 논리적 일관성을 추가하는 방법 연구 필요.
- 더 복잡한 대화형 문맥 처리 필요 → 다중 턴 대화에서의 일관성 유지 문제 해결 필요.
5.2. 향후 연구 방향
- 출처 신뢰성 평가 기능 추가 → 검색된 정보의 신뢰도를 반영하는 방법 연구.
- 대화형 모델 적용 연구 → LaMDA 같은 대화 모델에도 적용 가능하도록 개선.
- 더 강력한 자동 수정 모델 개발 → AI가 더 정교한 방식으로 출처를 반영하도록 개선.
📌 요약
RARR는 기존 LLM이 생성한 문장을 검색된 정보와 비교하여 수정하는 프레임워크이다.
Research(검색) → Agreement(일치 확인) → Revision(수정) 과정을 거쳐, 출처 기반의 신뢰할 수 있는 답변을 생성한다.
실험 결과, RARR는 기존 방법보다 출처 신뢰성(Attribution)을 향상시키면서도, 원래 문장의 의미(Preservation)를 더 잘 유지하는 것으로 나타났다.
향후 연구는 출처 신뢰성 평가, 논리적 일관성 개선, 대화형 모델 적용 등의 방향으로 진행될 예정이다. 🚀