FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

gyoon·2025년 11월 18일

NLP

목록 보기

12/12

📌 FACTSCORE: Fine-grained Evaluation of Factual Precision in Long-form Text Generation

📝 저자: Sewon Min, Tianyi Zhang, Xinxi Lyu, Yizhong Wang, Haohan Wang, Hannaneh Hajishirzi, Luke Zettlemoyer
📅 발행 연도: 2023
🔗 논문 링크: https://arxiv.org/abs/2305.14251

현재 학교 딥러닝 프로젝트에서 SLM/LLM의 환각(hallucination)을 정보 부호화 이론(Information Coding Theory) 관점에서 줄이는 연구를 진행하고 있다. 이 논문은 모델이 생성하는 장문 텍스트의 사실성을 정교하게 평가한다는 점에서 우리의 연구 주제와 직접적으로 맞닿아 있어, 환각 분석·평가 프레임워크와 atomic fact 기반 검증 방식을 이해하기 위해 리뷰하게 되었다.

🔹 Abstract

대형 언어모델(Large Language Models, LMs)이 생성하는 장문의 텍스트에 대해 사실성을 평가하는 것은 쉽지 않은 문제이다.

그 이유는
(1) 생성물이 사실에 부합하는 정보와 부합하지 않은 정보가 섞여 있어 이분법적(binary) 기준만으로는 품질을 적절하게 판단하기 어렵고,
(2) 사람을 통한 평가가 많은 시간과 비용을 요구하기 때문이다.

본 논문에서는 이러한 문제를 해결하기 위해 FACTSCORE라는 새로운 평가 기법을 제안한다.

FACTSOCRE는 모델의 응답을 여러 개의 원자적 사실(atomic facts) 단위로 분해한 뒤, 신뢰할 수 있는 지식원에 의해 뒷받침되는 사실의 비율을 계산하는 방식이다.

저자는 InstructGPT, ChatGPT, 검색 기반 모델 PerplexityAI 등 여러 최신 상용 LMs가 생성한 biographies에 대해 대규모 인간 평가를 수행하여 FACTSCORE를 측정했다.
이러한 정교한 평가 지표의 필요성을 보여주는 분석을 새롭게 제시한다.
(예: ChatGPT의 FACTSCORE는 58%에 불과하다.)
그러나 인간 평가의 높은 비용을 고려하여, 저자는 retrieval과 강력한 언어모델을 조합해 FACTSCORE를 자동으로 추정하는 모델 또한 제안한다. 해당 방식의 자동 평가는 오류율이 2% 미만으로 매우 정확하다.
마지막으로 저자는 이 자동 평가 지표를 활용하여 총 13개의 최신 LMs가 생성한 6,500개의 응답을 평가했다. 이를 사람이 평가했다면 26,000달러가 소요되었을 것이며, 평과 결과 역시 GPT-4와 ChatGPT보다 사실성이 높았다.

FACTSCORE는 pip install factscore를 통해 공개적으로 사용할 수 있다.

🔹 Introduction

대형 언어모델이 생성하는 장문의 텍스트는 다양한 분야에서 널리 활용되고 있다(Brown et al., 2020; Ouyang et al., 2022). 그럼에도 불구하고, 이러한 생성물이 전달하는 각 정보가 사실적으로 정확한지 평가하는 일은 두 가지 이유로 여전히 어렵다.

생성문에는 사실과 비사실 정보가 뒤섞여 있으며(Pagnoni et al., 2021), 이런 특성 때문에 단순히 이분법적 평가만으로는 품직을 적절하게 판단하기 어렵다.
생성된 정보 하나하나를 모두 검증하는 작업은 많은 시간과 비용을 요구한다.

본 논문에서는 이러한 문제를 해결하기 위해 FACTSCORE(Factual Precision in Atomicity Score)를 제안한다. FACTSCORE는 모델이 생성한 텍스트를 원자적 사실(atomic facts)로 분해하고, 각 사실이 주어진 지식원(knowledge source)에 의해 뒷받침되는지 여부를 평가하여 전체 중 사실로 확인된 비율을 계산하는 방식이다.

이를 계산하기 위해서는

(1) 생성문을 하나의 정보만 포함하는 짧은 문장 단위로 분해하고
(Nenkova & Passonneau, 2004; Shapira et al., 2019; Zhang & Bansal, 2021; Liu et al., 2022)
(2) 각 원자적 사실에 대해 이진(binary) 레이블을 부여한다.

이를 통해 사실성을 더욱 세밀하게 평가할 수 있다.

저자는 FACTSCORE를 인물 전기(biographies) 생성 작업에 적용하였다. 이 작업은 생성문이 주관적이거나 논란의 여지가 있는 정보가 아닌 명확하게 검증 가능한 사실로 구성되어 있고, 다양한 국적, 직업, 희소성을 가진 폭넓은 범위를 포괄한다는 점에서 적합하기 때문이다.

본 연구에서는 세 가지 최신 상용 LMs가 생성한 인물 전기에 대해 광범위한 인간 평가를 수행하였다. 그 결과 이 모델들은 상당한 양의 오류를 포함하고 있었다.

FACTSCORE

InstructGPT(Ouyang et al., 2022) - 42%

ChatGPT(OpenAI, 2022) - 58%

PerplexityAI - 71%

또한 생성 대상 인물의 희소성이 높아질수록 FACTSCORE는 급격히 하락했으며, 예를 들어 ChatGPT의 경우 80%에서 16%로 떨어졌다.

하지만 인간 평가 비용이 매우 높기 때문에, 저자는 다음 단계로 자동 FACTSCORE 평가 모델을 제안한다. 이 모델은 생성문을 원자적 사실로 분해한 뒤, 검색 기반 접근(retrieval)과 강력한 언어모델을 활용하여 각 사실의 근거를 검증한다.
제안한 자동 평가 모델은 FACTSCORE를 2% 미만의 오차율로 정확하게 추정할 수 있으며, 인간 개인 없이 대규모 모델들을 빠르게 평가하는 데 사용할 수 있다.

사례 연구로, 저자는 13개의 LMs가 생성한 총 6,500개의 응답을 자동 FACTSCORE로 평가하였다. 이를 인간이 평가했다면 약 26,000 달러의 비용이 발생했을 것이다. 이 분석에서 GPT-4와 ChatGPT는 여전히 인간보다는 사실성이 낮았지만, 공개 모델들 보다는 확실히 높은 사실성을 보였다.
또한 공개 모델 간에도 성능 편차가 컸으며, Vicuna, Alpaca가 그중 가장 우수한 편에 속했다.

즉, 본 논문의 기여는 다음과 같다.

FACTSCORE 제안

생성문을 원자적 사실로 분해하고 이를 지식원에 따라 검증하여 LMs의 사실성을 정량적으로 평가하는 새로운 지표를 제안한다.

인간 평가 결과, 검색 여부에 무관하게 최신 LMs의 FACTSCORE는 낮게 나타났다.

자동 FACTSCORE 추정 모델 제안

FACTSCORE를 2% 미만의 오차로 모사하는 자동 평가 모델을 제시하여, 대규모 새로운 LMs를 인간 개입 없이 평가할 수 있게 한다.

FACTSCORE 및 주석 데이터 공개

FACTSCORE와 주석 데이터셋을 공개하며, pip install factscore로 접근할 수 있다.

향후 연구로는 FACTSCORE를 더 다양한 형태의 생성문(예: 개방형 생성)에 적용하고, 자동 평가 모델을 더욱 개선하는 방향을 제시한다.

🔻Factual precision in text generation.

텍스트 생성에서의 사실성은 NLP 분야에서 활발히 연구되어 온 주제이다. 기존 대부분의 연구는 특정 문제에 대해 감독학습된 모델의 사실성을 평가하거나, 예를 들어 대화 모델의 사실성 평가 혹은 짧은 답변을 요구하는 질의응답 과제에 초점을 맞추었다.

반면 최근 연구는 짧은 답변을 넘어 장문 생성의 사실성을 탐구하고 있다.

Lee et al.(2022)은 proxy metrics를 통해 사실성을 평가했는데, 예를 들어 생성문 내 등장인물이 해당 주제의 기사에 실제로 등장하는지를 확인하는 방식이다.
여러 연구에서는 모델이 제공한 출처(citations) 또는 근거(attributions)의 정확성을 검증하는 작업을 다뤘다(Gao et al., 2022; Liu et al., 2023a; Yue et al., 2023; Gao et al., 2023).
Manakul et al.(2023)은 외부 지식원을 사용하지 않고 LM 생성물의 사실적 오류를 자동으로 식별하는 방법을 제안했으며, 우리는 Section 4에서 이 방법을 베이스라인 자동 평가 모델로 사용한다.

반면, 본 연구는 다음과 같은 차별성을 가진다.

검색 기반 여부와 관계없이 다양한 최신 LMs가 생성하는 훨씬 더 긴 텍스트를 평가한다.

사람 전문가와 자동 평가 모델을 통해 정교한(fine-grained) 사실성 평가를 제공한다.

이를 대규모 모델 집합에 적용하여 확장성이 있는 분석을 수행한다.

🔻Fact Verification.

본 연구는 사실 검증 연구(Thorne et al., 2018; Wadden et al., 2020)와 밀접한 관련이 있다. 사실 검증 연구에서는 문장을 Wikipedia나 과학 문헌과 같은 대규모 지식원을 기반으로 자동 검증한다.

대부분의 연구는 단일 원자적 주장(single atomic claim)을 다루며, 떄로는 주변 문맥을 함께 모델링하기도 한다.

또한, 더 긴 문장이나 텍스트를 원자적 사실로 분해하여 검증하는 연구도 수행되어 왔으며, 본 연구는 이 아이디어에서 많은 영감을 받았다.

그러나 기존 사실 검증 연구와 본 연구의 핵심적인 차이점은 다음과 같다.

기존 연구는 사람이 작성한 문장 수준의 주장을 검증하지만, 본 연구는 대형 언어모델이 생성한 장문의 텍스트 전체를 다룬다.

🔻Model-based Evaluation.

이전 연구에서는 학습된 모델을 활용해 자동 평가 지표를 정의하기도 했다(Zhang et al., 2020; Liu et al., 2023b). 특히 요약 분야에서는 QA 또는 NLI 기법을 활용하여 요약문과 원문 간의 일관성을 평가하는 모델 기반 접근이 사용되었다.

본 연구 역시 이러한 접근에서 영감을 받아, 모델이 생성한 문장의 사실성을 대규모 텍스트 코퍼스가 해당 정보를 뒷받침하는지 여부를 기준으로 평가한다.

🔹 FACTSCORE: Evaluating Factual Precision of Long-form Text Generation

본 장에서는 LM이 생성한 텍스트를 구성하는 atomic fact(원자적 사실)의 사실 정밀도를 평가하는 새로운 기준인 FACTSCORE를 소개한다. 저자는 사람 평가(human evaluation)을 통해 최신 LMs의 FACTSCORE를 계산하며, 결과를 논의한다.
FACTSCORE는 엄밀하고 세밀한 평가를 가능하게 하지만 비용 및 시간이 많이 들기 때문에, 4장에서 자동 평가를 제안한다.

🔻Definition

FACTSCORE는 다음 두 가지 핵심 아이디어에 기반한다.

핵심 아이디어 1: Atomic fact 단위를 사용한 평가

장문 텍스트는 각각이 참 또는 거짓일 수 있는 여러 정보 조각들의 집합으로 구성된다. 기존 연구에서는 문장을 단위로 삼았으나, 하나의 문장 안에도 사실/비사실이 섞여 있는 경우가 매우 빈번하다.

기존 연구는 다음과 같은 한계를 갖는다:

Partial support(부분적 지지) 같은 중간 라벨을 도입하지만 기준이 주관적이고 annotator 간 합의가 낮아진다.
(Manakul et al., 2023; Liu et al., 2023a)
모든 정보가 완전히 참이어야만 Supported로 보는 매우 엄격한 기준도 존재한다.
(Rashkin et al., 2021)
→ 이 경우 Figure 1의 두 예시 모두 0점으로 처리되어 상대적인 정확도 차이를 반영하지 못한다.

핵심 아이디어 2: 주어진 지식원을 기준으로 한 factual precision

기존 연구는 "전역적으로 참인지"를 기준으로 했으나, 저자는 특정 지식원(C)을 기준으로 판단해야 한다고 본다.
즉, atomic fact가 "전역적으로 참이냐"가 아니라 지식원 C가 그 사실을 지지하는지를 평가한다.

이는 fact verification 문헌에서도 사용되는 관점이다(Wadden et al., 2022).

Definition

평가 대상 LM: M

프롬프트 집합: X

지식원(knowledge source): C

LM의 응답: y=M(x)

y에서 추출된 atomic fact들의 집합: A

→ $M_x{responds}$ 는 LM이 프롬프트에 대해 답변을 회피하지 않은 경우를 의미한다.

단, 이 정의가 전제하는 가정은 다음과 같다.

atomic fact가 C에 의해 지지되는지 여부는 논란의 여지가 없음
모든 atomic fact는 동일한 중요도(weight)
지식원 C 내부 정보들은 충돌하거나 중복되지 않은

저자는 실험에서 X를 "인물 소개(biography) 생성"으로 설정하고, C는 Wikipedia로 설정한다.

⚠️ FACTSCORE는 precision만 고려하고 recall은 고려하지 않는다.

너무 자주 답변을 회피하는 LM
facts가 거의 없는 짧은 문장을 생성하는 LM

이런 모델도 FACTSCORE는 높게 나올 수 있다. 향후 연구에서 recall을 포함한 평가가 필요함을 명시한다.

🔻Studied LMs

저자는 다음 세 LM을 평가한다.

InstructGPT (text-davinci-003)
ChatGPT (OpenAI, 2022)
PerplexityAI (검색을 결합한 생성형 검색엔진)

🔻Data

저자는 FACTSCORE 정의에 기반한 사람 평가(human annotation)을 수행한다. LM에게 인물 소개(biography)를 생성하도록 요청하고, Wikipedia를 기준으로 사실성을 검증한다.

🤔 왜 biography인가?

사실적이고 객관적이다.

다양한 국적, 직업, 인지도 수준을 포함한다.

Wikipedia가 충분히 안정적이며 자기 일관적이다.

데이터 수집 절차는 다음과 같다.

Step 0 : 인물 엔티티 샘플링

wikidata에서 Wikipedia 페이지가 존재하는 183명 샘플링

Appendix A.1 카테고리 분포에 따라 균등 샘플

Step 1 : LM에 프롬프트 입력
프롬프트: "Tell me a bio of <entitiy>"
→ 답변 회피(abstain) 여부를 판단하는 규칙도 적용

Step 2 : Atomic fact 생성

사람 annotator가 LM 생성물(y)을 atomic fact 목록으로 분해

시간 절약을 위해 InstructGPT가 분해한 초안을 제공하고 사람은 이를 보완

각 atomic fact에 대해 다음 3개 라벨링 중 하나를 부여:

Supported: Wikipedia에서 지지됨

Not-supported: Wikipedia에서 지지되지 않음

Irrelevant: 프롬프트와 무관하여 검증 대상에서 제외해야 함

Annotation 비용
- Upwork에서 annotator 고용
- 시급 15–25 USD
- 1개 generation당 비용 약 4 USD
- 중복 라벨(두 annotator)이 10% 데이터에 대해 수행
- 일치율: InstructGPT: 96% / ChatGPT: 90% / PerplexityAI: 88%

### 🔻Result

주요 분석 포인트

모든 LM이 사실 오류를 많이 포함한다.
→ 최신 상용 LM조차 FACTSCORE가 42~71% 수준에 그침

PerplexitiyAI도 완벽하지 않음
→ 검색 기반이지만 Wikipdia 내용을 그대로 복사하지 않으며, 검색 결과 오류를 그대로 반영하는 경우가 많다.

답변 회피(abstain) 비율
→ ChatGPT & PerplexityAI는 답변 회피 전략을 사용해 precision 상승하지만 InstructGPT는 거의 회피하지 않음

비관련(Irrelevant) fact 비율
→ PerplexityAI는 검색 오류 때문에 irrelevant fact가 많고 ChatGPT/InstructGPT는 거의 없음

희귀한 인물일수록 FACTSCORE 급감
→ 모든 LM에서 동일한 패턴을 보였고, ChatGPT는 인물 rarity 증가 시 FACTSCORE가 80% → 16%로 폭락했다. PerplexityAI 역시 검색 기반임에도 큰 폭 감소했다.

생성 후반부일수록 오류 증가
→ LM 생성 과정의 오류 전파(error propagation) 현상, 학습 데이터에 많이 등장하는 정보는 앞부분에 나오기 때문에 초반은 상대적으로 정확

PerplexityAI의 Not-supported 오류 유형 분석도 진행해보았다.

단일 문장 모순 - Wikipedia 문장이 직접 반박
페이지 단위 모순 - 페이지 전체 문맥을 보면 틀림
주관적 서술 - 사용자 의견, 언론 인용 등
검색 오류로 인한 무관 정보 - irrelevant fact
Wikipedia 자체 오류 - 기사 간 불일치
Annotation 오류 - 사람 실수

🔹 Estimating FACTSCORE for Automatic Evaluation

사람이 수행하는 사실성(factual precision) 평가는 비용이 많이 든다(한 생성당 4달러). 이는 거대한 지식원을 기반으로 atomic fact 하나하나를 검증해야 하고, 한 번의 생성물이 평균 26~41 개의 atomic fact를 포함하기 때문이다.

이러한 특성 때문에 LM 개발자나 실무자는 새로운 $LM_{SUBJ}$ 의 장문 생성 사실성을 대규모로 평가하기 어렵다.

이 문제를 해결하기 위해 저자는 FACTSCORE를 자동으로 추정하는 모델을 제안한다. 이 추정기는 LM 생성물들의 입력으로 받아 FACTSCORE를 자동 계산하며, 어떤 $LM_{SUBJ}$ 에도 적용할 수 있다.

본 장에서는 모델 구조, 인간 평가 대비 추정 정확도, 그리고 이 방법을 통해 12개의 새로운 LM을 평가한 결과를 다룬다.

🔻 Model

저자의 FACTSCORE 추정기는 먼저 생성물을 atomic fact 단위로 분해한 뒤, 각 atomic fact를 지식원과 대조해 검증한다.

저자는 위에서 사용했던 방법처럼 InstructGPT가 생성한 atomic fact를 활용하는 것이 사람과 매우 유사하며 기존 연구와도 일치함을 발견했다.

따라서 이 절에서는 어떻게 atomic fact를 지식원과 비교해 검증하는가에 초점을 둔다.

🔍 Zero-shot 방식의 LMEVAL

저자는 평가 모델을 LMEVAL이라 부르고, 평가 대상 모델 $LM_{SUBJ}$ 과 구분한다.

각 atomic fact를 검증하기 위해 LMEVAL에 특별히 설계한 프롬프트를 입력한다.
프롬프트 구성 방식은 네 가지 변형에 따라 달라진다.
예측은 LMEVAL이 출력하는 True/False의 조건부 확률을 비교해 결정한다.
(만약 ChatGPT처럼 logit 값을 제공하지 않는 상용 모델인 경우에는 단순히 생성 텍스트에 “True” 또는 “False”가 포함되는지를 기준으로 판단한다.)

<네 가지 추정기(Estimator) 변형>

No-context LM
<atomic-fact> True or False?
Retrieve → LM
지식원에서 k개의 문서를 검색(retrieval)하고, 이를 atomic fact와 함께 프롬프트로 구성하여 LMEVAL에 입력한다.
prompt = (검색된 문서들) + (atomic fact) + “True or False?”
→ 검색된 정보가 문맥으로 제공되기 때문에 FACTSCORE 추정이 더 정확해진다.
Nonparametric Probability (NP)
NP는 파라미터가 없는(nonparametric) 방식으로 확률을 계산한다.
- atomic fact의 각 토큰을 한 번에 하나씩 마스킹
- 마스킹된 위치의 확률을 masked LM으로 계산
- 모든 토큰의 확률 평균
→ threshold 기반으로 Supported / Not-supported 판단
Retrieve → LM + NP (앙상블)
Retrieve→LM과 NP를 둘 다 Supported라고 판단할 때만 Supported로 판정한다. 더 보수적인(보편적으로 더 정확한) 평가를 수행한다.

🔻 Evaluation of Estimators

평가지표(Metrics)

Error Rate (ER)
→ 실제 FACTSCORE와 추정 FACTSCORE의 차이
순위 보존 여부
→ 세 $LM_{SUBJ}$ (InstructGPT, ChatGPT, PerplexityAI) 간 상대 순위를 올바르게 유지하는지

참고 데이터는 위의 human-annoted 데이터

주요 결과 해석

Retrieval이 매우 큰 효과를 냄
Retrieval 기반 모델들은 No-context LM보다 월등히 낮은 ER을 보인다.
→ 이는 LMEVAL이 모든 사실을 암기하고 있지 않기 때문에, 검색 기반 문맥 제공이 사실 판단에 필수적임을 의미한다.

Retrieve→LM 단독 사용은 종종 FACTSCORE를 과대평가함
특히 InstructGPT 또는 ChatGPT가 $LM_{SUBJ}$ 일 때 Inst-LLAMA 기준 최대 17% 과대 추정한다.
Retrieval + NP 앙상블이 이런 오차를 크게 줄인다.

ChatGPT가 항상 최고의 LMEVAL은 아님
ChatGPT는 개별 atomic fact 판단은 뛰어나지만 Supported를 과하게 주는 경향이 있어 FACTSCORE를 과대추정하지만, Inst-LLAMA + NP는 과대/과소 모두 균형적 → 총 FACTSCORE는 더 정확

최적의 추정기는 $LM_{SUBJ}$ 에 따라 다르다.

InstructGPT - LLAMA + NP

ChatGPT - LLAMA + NP

PerplexityAI - ChatGPT

🔻Evaluation of New LMs

이제 이 자동 추정기를 활용하면 사람 개입 없이도 많은 LMs를 대규모로 평가할 수 있다.

저자는 두 달 사이 등장한 10개의 새로운 LM을 평가하는 사례 연구(case study)를 수행했다.

Setup

평가 대상 모델 목록:

GPT-4

Alpaca (7B, 13B, 65B)

Vicuna (7B, 13B)

Dolly

Oasst-pythia

StableLM-tuned-alpha

MPT Chat

기존 $LM_{SUBJ}$ 3개(InstructGPT, ChatGPT, PerplexityAI)

사람 DBPedia의 biography
→ 총 13개의 “subject” 평가.

📌 평가 방식

각 모델에 대해 500명 인물의 전기(biography) 생성 요청
이전 절과 동일하지만 인물은 완전히 새로운 500명
사람-written 데이터(DBPedia)는 해당 인물이 없으면 abstain 처리 (11%)

총 6,500개 생성물을 평가했다. 즉, 사람이 했으면 약 26,000달러 필요했을 작업이다.

Results

두 estimator(LLAMA + NP / ChatGPT(with Retrieve → LM) 모두 높은 상관을 보이며 다음과 같은 통찰을 제공한다.

모든 LM은 인간보다 사실성이 크게 떨어진다.
이전 연구들은 LMs가 인간 수준에 근접했다고 주장하기도 했지만(복잡한 QA 등), 단순한 전기 쓰기 작업조차 인간 수준에 크게 못 미친다.
GPT-4가 더 안정적
GPT-4가 ChatGPT에 비해 abstain 비율이 낮고, 생성 atomic fact 수도 많다.
GPT-4와 ChatGPT는 모든 공개 모델보다 확실히 factual
공개 모델(open-source models)의 factual precision은 상업 모델 대비 큰 차이가 있다.
모델 크기별 패턴
- Alpaca: 65B > 13B > 7B
- Vicuna: 13B > 7B
  → 모델 크기가 사실성과 강하게 연관
- 하지만 동일 크기 내에서 Alpaca vs Vicuna는 매우 유사
공개 7B 모델 사이에서도 큰 격차
Alpaca 7B - ~40%
Vicuna 7B - ~40%
MPT-Chat 7B - 30%
StableLM-tuned-alpha 7B - 17%
→ 차이는 baseLM / training data / fine-tuning recipe 때문으로 추정

🔹Conclusion and Future Work

저자는 FACTSCORE를 소개하였다. FACTSCORE는 LMs가 생성한 장문 텍스트를 일련의 atomic fact로 분해하고, 주어진 지식원에 의해 뒷받침되는 사실의 비율을 계산함으로써 장문 생성의 사실 정밀도를 평가하는 새로운 방법이다.

먼저 광범위한 인간 평가를 수행하여, 최신 상용 LMs(InstructGPT, ChatGPT, 검색 엔진을 결합한 PerplexityAI)이 상당한 양의 오류를 포함한다는 사실을 발견했다.

그러나 인간 평가에는 많은 비용과 소모되었기 때문에, 저자는 FACTSCORE를 자동으로 추정할 수 있는 모델을 제안했다.

Estimator는 지식원을 기반으로 하는 retrieval과 강력한 언어모델을 결합해, 실제 FACTSCORE와 거의 동일한 값을 추정할 수 있다.
이를 활용해 최근 공개된 12개의 LM을 사람 없이 대규모로 평가하는 연구를 제시하였다.
사람이 직접 수행했다면 65,000달러의 비용이 들었다.
FACTSCORE는 공개된 후 4개월 만에 활발히 활용되었으며, 여러 신형 언어모델의 사실성 평가에 사용되었다.

향후 연구 방향으로는 다음을 제안한다.

사실성 평가에서 reacll 등 다른 측면 고려하기
추정기의 성능을 개선하여 더욱 정확한 FACTSCORE 근사 제공
FACTSCORE를 활용해 모델의 생성물을 수정하는 연구 확대

🔻 Limitations

FACTSCORE의 적용 범위
모든 실험은 사람의 전기(biography)와 Wikipedia를 중심으로 진행되었다.
→ 그러나 FACTSCORE는 더 넓은 영역에도 적용 가능하다. (ex. 최신 사건을 다룬 텍스트, 과학적 발견을 다룬 텍스트)
다만, 사실이 모호하거나 주관적이거나 논쟁의 여지가 있는 경우, 지식원 자체가 상호 모순된 정보를 포함하는 경우 FACTSCORE가 적용되지 않는 경우도 있다.
또한 FACTSCORE는 의도적(또는 암묵적) 기만, 뉘앙스, 미묘한 언어적 표현이 포함된 인간 작성 텍스트에는 적합하지 않다.

Estimator의 한계
해당 실험의 추정기는 인간과 매우 유사한 결과를 내고, LMs 간의 순위를 일관되게 유지하지만 개별 fact 수준에서는 완벽하지 않다.
→ 가장 좋은 estimator 조합은 생성물이 인간 작성문과 얼마나 유사한지, 언어적 복잡성이 어느 정도인지에 따라 달라질 수 있다.
향후 연구는 생성물의 분포가 estimator 성능에 어떤 영향을 주는지 분석하고, estimator의 정교함을 더 높이는 데 초점을 둘 수 있다.

FACTSCORE의 범위
FACTSCORE는 어디까지나 precision 중심의 사실성 평가 지표다. 즉, 생성물의 각 정보가 지식원에 의해 뒷받침되는지만 평가한다.
→ 하지만 Factual Recall(모델이 너무 자주 답변을 회피하거나 매우 적은 양의 정보 생성)의 경우 FACTSCORE가 높게 나올 수 있으며, 텍스트에 포함된 사실이 모두 true라도, 입력 프롬프트에 적절히 답하기 위해 반드시 포함되어야 할 핵심 정보가 빠져 있을 수 있는 것과 같이 Precision과 recall의 경계가 모호해지는 경우가 있다.

향후 연구에서는 FACTSCORE와 함께 abstention 비율(%), 생성된 atomic fact 평균 개수를 함께 보고하는 것을 권고한다.

👀 My thoughts

LLM의 장문 생성 능력을 단순히 "정확하다/틀렸다"로 평가하는 기존 방식에서 벗어나, 텍스트를 atomic fact 단위로 분해하여 각 정보 조각의 사실성을 개별적으로 검증한다는 점에서 우리가 하려는 연구와 굉장히 많이 맞닿아 있다고 느꼈다.

또한 이러한 아이디어를 실험적으로 검증하기 위해, 실제로 수백 개의 전기 생성물을 사람이 직접 Wikipedia와 대조해 라벨링했다는 점이 신기했고, 해당 연구에 많은 인력과 시간, 비용이 들었을 것 같다.

gyoon

이전 포스트

FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

NLP

🔹 Abstract