[논문 리뷰] Multi-Document Financial Question Answering using LLMs

Sue·2025년 7월 24일

LLM NLP Paper Q&A rag

논문 리뷰

Title: Multi-Document Financial Question Answering using LLMs

해당 논문은 아카이브에 게재된 preprint된 논문으로 Anvai AI 소속의 저자들인데, 샌프란시스코에 있는 10명 규모의 스타트업이라고 하네요.

이 논문은 다중 문서 금융 질의응답을 위한 RAG_SEM, KG_RAG라는 두 가지 방법론을 제안하고 있으며, 6개 기업의 3년치 10K 보고서를 활용했습니다.

다른 벤치마크를 만든 논문에 비해 현저히 작은 수의 보고서를 활용하여 큰 규모의 학회는 아닐 것 같으나, 충실성/정확성/관련성 등 핵심 지표에서 높은 수준의 성능을 향상하였습니다.

논문 개요

"Multi-Document Financial Question Answering using LLMs"는 다중 문서 환경에서 금융 질의응답을 위한 두 가지 새로운 방법론을 제안한 연구입니다.

핵심 분석 포인트 5가지

1. 다중 문서 금융 QA의 도전 과제와 해결 접근법

문제 정의의 차별성:

기존 연구들이 주로 단일 문서 기반 질의응답에 집중한 반면, 이 연구는 다중 문서 환경의 복잡성을 다룸
6개 기업(Apple, Microsoft, Alphabet, NVIDIA, Amazon, Tesla)의 18개 10K 보고서(2021-2023년)를 활용
111개의 복잡한 질문으로 구성된 데이터셋으로, 많은 난해한 질문들이 포함되어 답변이 자명하지 않음

실용적 중요성: 다중 문서 질의응답은 실제 금융 업무에서 여러 기업의 보고서를 종합 분석해야 하는 상황을 반영하며, 기존 RAG 시스템이 특정 엔티티에 대한 질문에서 잘못된 답변을 생성할 위험을 해결합니다.

2. RAG_SEM과 KG_RAG 방법론의 체계적 설계 (Figure 4 & 5, Algorithm 2 & 3)

RAG_SEM (Algorithm 2):

1. 질문의 의미적 태깅
2. 청크 검색
3. 프롬프트 생성
4. LLM에 질문, 프롬프트, 검색된 청크 전달
5. 응답 합성

KG_RAG (Algorithm 3):

1. 질문의 의미적 태깅
2. 청크 검색
3. 지식 그래프 트리플 검색
4. 프롬프트 생성
5. LLM에 질문, 프롬프트, 청크, KG 트리플 전달
6. 응답 합성

핵심 혁신: 두 방법론 모두 의미적 태깅을 핵심으로 하여 조직명, 날짜, 산업, 파트너십, 배당 등의 태그를 활용해 적절한 컨텍스트를 선별합니다.

3. 지식 그래프 구축과 지식 증류 기법 (Section 2.4)

KG 트리플 예시:

(GoogleCloud → OperatingIncome → $1.7B)
(Alphabet → R&DInvestments → $45B)
(Microsoft → Acquired → ZenimaxMedia)
(Microsoft → WindowsOEMRevenue → 25%Decrease)

지식 증류를 통한 효율성:

대형 교사 모델로부터 소형 모델을 파인튜닝하여 KG 생성
소형 모델이 수 배 빠른 속도로 응답하며 적은 계산 자원 요구
"increased, decreased, reduced" 같은 트리거 워드에 특별한 주의를 기울이는 커스텀 프롬프트 개발

다중 홉 질의응답 지원: KG_RAG는 초기 선택된 노드뿐만 아니라 인근 노드의 정보도 활용하여 복잡한 추론 과정을 지원합니다.

4. 포괄적 평가 체계와 성능 결과 (Table 1)

9가지 다면적 평가 메트릭:

ROUGE 점수: rouge1 (52.9% → 53.8%), rouge2 (19% → 19.5%), rougeL (23.2% → 23.8%)
품질 지표: 충실성(77% → 83%), 정확성(77% → 83%), 관련성(80% → 85%), 유사도(73% → 80%)
종합 평가: LLM 점수(89% → 92%), 임베딩 유사도(89% → 92%)

주요 발견:

두 방법 모두 기본 RAG를 모든 9개 메트릭에서 능가
KG_RAG가 RAG_SEM보다 9개 중 4개 메트릭에서 우수한 성능
특히 충실성, 정확성, 관련성, 유사도에서 KG_RAG의 우위가 명확

5. 복잡한 금융 질문의 실제 사례와 실용성

난해한 질문 예시:
1. 리더십 개발: "Apple, Microsoft, Alphabet의 10-K 공시에서 리더십 개발 프로그램, 승계 계획, 경영진 교육 이니셔티브에 대한 통찰과 이들이 광범위한 전략적 목표와 어떻게 일치하는가?"

ESG 전략: "Apple의 2030년까지 공급망과 제품 전반에서 탄소 중립 달성 약속이 비용 구조, 공급업체 관계, 장기 수익성에 미치는 영향과 이러한 공격적인 ESG 전략과 관련된 잠재적 위험과 보상은?"
다각화 전략: "Alphabet의 'Other Bets' 세그먼트(Waymo, Verily, X 등)에 대한 자원과 자본 배분이 핵심 광고 사업을 넘어선 다각화를 위한 전략적 비전을 어떻게 반영하는가?"

실용적 의의: 이러한 질문들은 일반적인 RAG 시스템으로는 답변하기 어려운 다중 홉 추론과 복합적 정보 종합이 필요한 실제 금융 분석 업무를 반영합니다.

방법론적 기여와 한계

주요 기여점

✅ 수평적 확장성: 다양한 도메인, 산업, 섹터의 문서 추가 시에도 성능 영향 없이 확장 가능
✅ 의미적 태깅 체계화: 명명된 엔티티, 날짜, 산업, 위치, 파트너, 배당 등의 포괄적 태깅
✅ 비용 효율적 KG 생성: 지식 증류를 통한 빠르고 경제적인 지식 그래프 구축
✅ 실증적 우수성: 9개 메트릭 전반에서 일관된 성능 향상 입증

한계점과 향후 연구 방향

❌ 데이터 규모: 111개 질문으로 상대적으로 작은 데이터셋 규모
❌ 비교 연구 부족: GraphRAG 등 다른 고급 방법론과의 직접 비교 없음
❌ 지연 시간 분석: 실시간 응용에 중요한 응답 속도에 대한 상세 분석 부족

실용적 함의와 응용 가능성

이 연구는 금융 자문 서비스, 자동화된 고객 지원, 금융 기관의 의사결정 지원 시스템에서의 활용 가능성을 제시합니다. 특히 의료, 농업, 공공 정책, 법률, 교육, 소매, 공급망, 환경 과학, 비즈니스 인텔리전스, 연구 등 다른 도메인으로의 확장 가능성도 언급하고 있어, 다중 문서 질의응답의 범용적 프레임워크로서의 가치를 보여줍니다.

종합 평가: 이 논문은 의미적 태깅과 지식 그래프를 활용한 체계적 접근법을 통해 다중 문서 금융 질의응답의 새로운 표준을 제시하며, 실용적 응용과 학술적 기여를 균형 있게 달성한 의미 있는 연구입니다.