FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

gyoonยท2025๋…„ 11์›” 18์ผ

NLP

๋ชฉ๋ก ๋ณด๊ธฐ
12/12

๐Ÿ“Œ FACTSCORE: Fine-grained Evaluation of Factual Precision in Long-form Text Generation

๐Ÿ“ ์ €์ž: Sewon Min, Tianyi Zhang, Xinxi Lyu, Yizhong Wang, Haohan Wang, Hannaneh Hajishirzi, Luke Zettlemoyer
๐Ÿ“… ๋ฐœํ–‰ ์—ฐ๋„: 2023
๐Ÿ”— ๋…ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2305.14251

ํ˜„์žฌ ํ•™๊ต ๋”ฅ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ์—์„œ SLM/LLM์˜ ํ™˜๊ฐ(hallucination)์„ ์ •๋ณด ๋ถ€ํ˜ธํ™” ์ด๋ก (Information Coding Theory) ๊ด€์ ์—์„œ ์ค„์ด๋Š” ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•˜๋Š” ์žฅ๋ฌธ ํ…์ŠคํŠธ์˜ ์‚ฌ์‹ค์„ฑ์„ ์ •๊ตํ•˜๊ฒŒ ํ‰๊ฐ€ํ•œ๋‹ค๋Š” ์ ์—์„œ ์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ง์ ‘์ ์œผ๋กœ ๋งž๋‹ฟ์•„ ์žˆ์–ด, ํ™˜๊ฐ ๋ถ„์„ยทํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ atomic fact ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋ฆฌ๋ทฐํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.


๐Ÿ”น Abstract


๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(Large Language Models, LMs)์ด ์ƒ์„ฑํ•˜๋Š” ์žฅ๋ฌธ์˜ ํ…์ŠคํŠธ์— ๋Œ€ํ•ด ์‚ฌ์‹ค์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š์€ ๋ฌธ์ œ์ด๋‹ค.

๊ทธ ์ด์œ ๋Š”
(1) ์ƒ์„ฑ๋ฌผ์ด ์‚ฌ์‹ค์— ๋ถ€ํ•ฉํ•˜๋Š” ์ •๋ณด์™€ ๋ถ€ํ•ฉํ•˜์ง€ ์•Š์€ ์ •๋ณด๊ฐ€ ์„ž์—ฌ ์žˆ์–ด ์ด๋ถ„๋ฒ•์ (binary) ๊ธฐ์ค€๋งŒ์œผ๋กœ๋Š” ํ’ˆ์งˆ์„ ์ ์ ˆํ•˜๊ฒŒ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต๊ณ ,
(2) ์‚ฌ๋žŒ์„ ํ†ตํ•œ ํ‰๊ฐ€๊ฐ€ ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด FACTSCORE๋ผ๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค.

FACTSOCRE๋Š” ๋ชจ๋ธ์˜ ์‘๋‹ต์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์›์ž์  ์‚ฌ์‹ค(atomic facts) ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•œ ๋’ค, ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ง€์‹์›์— ์˜ํ•ด ๋’ท๋ฐ›์นจ๋˜๋Š” ์‚ฌ์‹ค์˜ ๋น„์œจ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

  • ์ €์ž๋Š” InstructGPT, ChatGPT, ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ PerplexityAI ๋“ฑ ์—ฌ๋Ÿฌ ์ตœ์‹  ์ƒ์šฉ LMs๊ฐ€ ์ƒ์„ฑํ•œ biographies์— ๋Œ€ํ•ด ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ FACTSCORE๋ฅผ ์ธก์ •ํ–ˆ๋‹ค.

  • ์ด๋Ÿฌํ•œ ์ •๊ตํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ํ•„์š”์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ถ„์„์„ ์ƒˆ๋กญ๊ฒŒ ์ œ์‹œํ•œ๋‹ค.
    (์˜ˆ: ChatGPT์˜ FACTSCORE๋Š” 58%์— ๋ถˆ๊ณผํ•˜๋‹ค.)

  • ๊ทธ๋Ÿฌ๋‚˜ ์ธ๊ฐ„ ํ‰๊ฐ€์˜ ๋†’์€ ๋น„์šฉ์„ ๊ณ ๋ คํ•˜์—ฌ, ์ €์ž๋Š” retrieval๊ณผ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด๋ชจ๋ธ์„ ์กฐํ•ฉํ•ด FACTSCORE๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๋ชจ๋ธ ๋˜ํ•œ ์ œ์•ˆํ•œ๋‹ค. ํ•ด๋‹น ๋ฐฉ์‹์˜ ์ž๋™ ํ‰๊ฐ€๋Š” ์˜ค๋ฅ˜์œจ์ด 2% ๋ฏธ๋งŒ์œผ๋กœ ๋งค์šฐ ์ •ํ™•ํ•˜๋‹ค.

  • ๋งˆ์ง€๋ง‰์œผ๋กœ ์ €์ž๋Š” ์ด ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ด 13๊ฐœ์˜ ์ตœ์‹  LMs๊ฐ€ ์ƒ์„ฑํ•œ 6,500๊ฐœ์˜ ์‘๋‹ต์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ด๋ฅผ ์‚ฌ๋žŒ์ด ํ‰๊ฐ€ํ–ˆ๋‹ค๋ฉด 26,000๋‹ฌ๋Ÿฌ๊ฐ€ ์†Œ์š”๋˜์—ˆ์„ ๊ฒƒ์ด๋ฉฐ, ํ‰๊ณผ ๊ฒฐ๊ณผ ์—ญ์‹œ GPT-4์™€ ChatGPT๋ณด๋‹ค ์‚ฌ์‹ค์„ฑ์ด ๋†’์•˜๋‹ค.

FACTSCORE๋Š” pip install factscore๋ฅผ ํ†ตํ•ด ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ”น Introduction


๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์ด ์ƒ์„ฑํ•˜๋Š” ์žฅ๋ฌธ์˜ ํ…์ŠคํŠธ๋Š” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค(Brown et al., 2020; Ouyang et al., 2022). ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ด๋Ÿฌํ•œ ์ƒ์„ฑ๋ฌผ์ด ์ „๋‹ฌํ•˜๋Š” ๊ฐ ์ •๋ณด๊ฐ€ ์‚ฌ์‹ค์ ์œผ๋กœ ์ •ํ™•ํ•œ์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ผ์€ ๋‘ ๊ฐ€์ง€ ์ด์œ ๋กœ ์—ฌ์ „ํžˆ ์–ด๋ ต๋‹ค.

  • ์ƒ์„ฑ๋ฌธ์—๋Š” ์‚ฌ์‹ค๊ณผ ๋น„์‚ฌ์‹ค ์ •๋ณด๊ฐ€ ๋’ค์„ž์—ฌ ์žˆ์œผ๋ฉฐ(Pagnoni et al., 2021), ์ด๋Ÿฐ ํŠน์„ฑ ๋•Œ๋ฌธ์— ๋‹จ์ˆœํžˆ ์ด๋ถ„๋ฒ•์  ํ‰๊ฐ€๋งŒ์œผ๋กœ๋Š” ํ’ˆ์ง์„ ์ ์ ˆํ•˜๊ฒŒ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต๋‹ค.
  • ์ƒ์„ฑ๋œ ์ •๋ณด ํ•˜๋‚˜ํ•˜๋‚˜๋ฅผ ๋ชจ๋‘ ๊ฒ€์ฆํ•˜๋Š” ์ž‘์—…์€ ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์š”๊ตฌํ•œ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด FACTSCORE(Factual Precision in Atomicity Score)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. FACTSCORE๋Š” ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ์›์ž์  ์‚ฌ์‹ค(atomic facts)๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ๊ฐ ์‚ฌ์‹ค์ด ์ฃผ์–ด์ง„ ์ง€์‹์›(knowledge source)์— ์˜ํ•ด ๋’ท๋ฐ›์นจ๋˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ ์ „์ฒด ์ค‘ ์‚ฌ์‹ค๋กœ ํ™•์ธ๋œ ๋น„์œจ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

์ด๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š”

(1) ์ƒ์„ฑ๋ฌธ์„ ํ•˜๋‚˜์˜ ์ •๋ณด๋งŒ ํฌํ•จํ•˜๋Š” ์งง์€ ๋ฌธ์žฅ ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•˜๊ณ 
(Nenkova & Passonneau, 2004; Shapira et al., 2019; Zhang & Bansal, 2021; Liu et al., 2022)
(2) ๊ฐ ์›์ž์  ์‚ฌ์‹ค์— ๋Œ€ํ•ด ์ด์ง„(binary) ๋ ˆ์ด๋ธ”์„ ๋ถ€์—ฌํ•œ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์‹ค์„ฑ์„ ๋”์šฑ ์„ธ๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.


์ €์ž๋Š” FACTSCORE๋ฅผ ์ธ๋ฌผ ์ „๊ธฐ(biographies) ์ƒ์„ฑ ์ž‘์—…์— ์ ์šฉํ•˜์˜€๋‹ค. ์ด ์ž‘์—…์€ ์ƒ์„ฑ๋ฌธ์ด ์ฃผ๊ด€์ ์ด๊ฑฐ๋‚˜ ๋…ผ๋ž€์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋Š” ์ •๋ณด๊ฐ€ ์•„๋‹Œ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์‚ฌ์‹ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , ๋‹ค์–‘ํ•œ ๊ตญ์ , ์ง์—…, ํฌ์†Œ์„ฑ์„ ๊ฐ€์ง„ ํญ๋„“์€ ๋ฒ”์œ„๋ฅผ ํฌ๊ด„ํ•œ๋‹ค๋Š” ์ ์—์„œ ์ ํ•ฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์„ธ ๊ฐ€์ง€ ์ตœ์‹  ์ƒ์šฉ LMs๊ฐ€ ์ƒ์„ฑํ•œ ์ธ๋ฌผ ์ „๊ธฐ์— ๋Œ€ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ชจ๋ธ๋“ค์€ ์ƒ๋‹นํ•œ ์–‘์˜ ์˜ค๋ฅ˜๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.

FACTSCORE

  • InstructGPT(Ouyang et al., 2022) - 42%
  • ChatGPT(OpenAI, 2022) - 58%
  • PerplexityAI - 71%

๋˜ํ•œ ์ƒ์„ฑ ๋Œ€์ƒ ์ธ๋ฌผ์˜ ํฌ์†Œ์„ฑ์ด ๋†’์•„์งˆ์ˆ˜๋ก FACTSCORE๋Š” ๊ธ‰๊ฒฉํžˆ ํ•˜๋ฝํ–ˆ์œผ๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ChatGPT์˜ ๊ฒฝ์šฐ 80%์—์„œ 16%๋กœ ๋–จ์–ด์กŒ๋‹ค.


ํ•˜์ง€๋งŒ ์ธ๊ฐ„ ํ‰๊ฐ€ ๋น„์šฉ์ด ๋งค์šฐ ๋†’๊ธฐ ๋•Œ๋ฌธ์—, ์ €์ž๋Š” ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ž๋™ FACTSCORE ํ‰๊ฐ€ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ƒ์„ฑ๋ฌธ์„ ์›์ž์  ์‚ฌ์‹ค๋กœ ๋ถ„ํ•ดํ•œ ๋’ค, ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ(retrieval)๊ณผ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ์‚ฌ์‹ค์˜ ๊ทผ๊ฑฐ๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค.
์ œ์•ˆํ•œ ์ž๋™ ํ‰๊ฐ€ ๋ชจ๋ธ์€ FACTSCORE๋ฅผ 2% ๋ฏธ๋งŒ์˜ ์˜ค์ฐจ์œจ๋กœ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ธ๊ฐ„ ๊ฐœ์ธ ์—†์ด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์„ ๋น ๋ฅด๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

์‚ฌ๋ก€ ์—ฐ๊ตฌ๋กœ, ์ €์ž๋Š” 13๊ฐœ์˜ LMs๊ฐ€ ์ƒ์„ฑํ•œ ์ด 6,500๊ฐœ์˜ ์‘๋‹ต์„ ์ž๋™ FACTSCORE๋กœ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ์ด๋ฅผ ์ธ๊ฐ„์ด ํ‰๊ฐ€ํ–ˆ๋‹ค๋ฉด ์•ฝ 26,000 ๋‹ฌ๋Ÿฌ์˜ ๋น„์šฉ์ด ๋ฐœ์ƒํ–ˆ์„ ๊ฒƒ์ด๋‹ค. ์ด ๋ถ„์„์—์„œ GPT-4์™€ ChatGPT๋Š” ์—ฌ์ „ํžˆ ์ธ๊ฐ„๋ณด๋‹ค๋Š” ์‚ฌ์‹ค์„ฑ์ด ๋‚ฎ์•˜์ง€๋งŒ, ๊ณต๊ฐœ ๋ชจ๋ธ๋“ค ๋ณด๋‹ค๋Š” ํ™•์‹คํžˆ ๋†’์€ ์‚ฌ์‹ค์„ฑ์„ ๋ณด์˜€๋‹ค.
๋˜ํ•œ ๊ณต๊ฐœ ๋ชจ๋ธ ๊ฐ„์—๋„ ์„ฑ๋Šฅ ํŽธ์ฐจ๊ฐ€ ์ปธ์œผ๋ฉฐ, Vicuna, Alpaca๊ฐ€ ๊ทธ์ค‘ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ํŽธ์— ์†ํ–ˆ๋‹ค.

์ฆ‰, ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • FACTSCORE ์ œ์•ˆ
    • ์ƒ์„ฑ๋ฌธ์„ ์›์ž์  ์‚ฌ์‹ค๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ์ด๋ฅผ ์ง€์‹์›์— ๋”ฐ๋ผ ๊ฒ€์ฆํ•˜์—ฌ LMs์˜ ์‚ฌ์‹ค์„ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ง€ํ‘œ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
    • ์ธ๊ฐ„ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๊ฒ€์ƒ‰ ์—ฌ๋ถ€์— ๋ฌด๊ด€ํ•˜๊ฒŒ ์ตœ์‹  LMs์˜ FACTSCORE๋Š” ๋‚ฎ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

  • ์ž๋™ FACTSCORE ์ถ”์ • ๋ชจ๋ธ ์ œ์•ˆ
    • FACTSCORE๋ฅผ 2% ๋ฏธ๋งŒ์˜ ์˜ค์ฐจ๋กœ ๋ชจ์‚ฌํ•˜๋Š” ์ž๋™ ํ‰๊ฐ€ ๋ชจ๋ธ์„ ์ œ์‹œํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์ƒˆ๋กœ์šด LMs๋ฅผ ์ธ๊ฐ„ ๊ฐœ์ž… ์—†์ด ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.

  • FACTSCORE ๋ฐ ์ฃผ์„ ๋ฐ์ดํ„ฐ ๊ณต๊ฐœ
    • FACTSCORE์™€ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•˜๋ฉฐ, pip install factscore๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” FACTSCORE๋ฅผ ๋” ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ƒ์„ฑ๋ฌธ(์˜ˆ: ๊ฐœ๋ฐฉํ˜• ์ƒ์„ฑ)์— ์ ์šฉํ•˜๊ณ , ์ž๋™ ํ‰๊ฐ€ ๋ชจ๋ธ์„ ๋”์šฑ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.


๐Ÿ”ปFactual precision in text generation.

ํ…์ŠคํŠธ ์ƒ์„ฑ์—์„œ์˜ ์‚ฌ์‹ค์„ฑ์€ NLP ๋ถ„์•ผ์—์„œ ํ™œ๋ฐœํžˆ ์—ฐ๊ตฌ๋˜์–ด ์˜จ ์ฃผ์ œ์ด๋‹ค. ๊ธฐ์กด ๋Œ€๋ถ€๋ถ„์˜ ์—ฐ๊ตฌ๋Š” ํŠน์ • ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ฐ๋…ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์‚ฌ์‹ค์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜, ์˜ˆ๋ฅผ ๋“ค์–ด ๋Œ€ํ™” ๋ชจ๋ธ์˜ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€ ํ˜น์€ ์งง์€ ๋‹ต๋ณ€์„ ์š”๊ตฌํ•˜๋Š” ์งˆ์˜์‘๋‹ต ๊ณผ์ œ์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ๋‹ค.

๋ฐ˜๋ฉด ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ์งง์€ ๋‹ต๋ณ€์„ ๋„˜์–ด ์žฅ๋ฌธ ์ƒ์„ฑ์˜ ์‚ฌ์‹ค์„ฑ์„ ํƒ๊ตฌํ•˜๊ณ  ์žˆ๋‹ค.

  • Lee et al.(2022)์€ proxy metrics๋ฅผ ํ†ตํ•ด ์‚ฌ์‹ค์„ฑ์„ ํ‰๊ฐ€ํ–ˆ๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ์ƒ์„ฑ๋ฌธ ๋‚ด ๋“ฑ์žฅ์ธ๋ฌผ์ด ํ•ด๋‹น ์ฃผ์ œ์˜ ๊ธฐ์‚ฌ์— ์‹ค์ œ๋กœ ๋“ฑ์žฅํ•˜๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
  • ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ชจ๋ธ์ด ์ œ๊ณตํ•œ ์ถœ์ฒ˜(citations) ๋˜๋Š” ๊ทผ๊ฑฐ(attributions)์˜ ์ •ํ™•์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ์ž‘์—…์„ ๋‹ค๋ค˜๋‹ค(Gao et al., 2022; Liu et al., 2023a; Yue et al., 2023; Gao et al., 2023).
  • Manakul et al.(2023)์€ ์™ธ๋ถ€ ์ง€์‹์›์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  LM ์ƒ์„ฑ๋ฌผ์˜ ์‚ฌ์‹ค์  ์˜ค๋ฅ˜๋ฅผ ์ž๋™์œผ๋กœ ์‹๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” Section 4์—์„œ ์ด ๋ฐฉ๋ฒ•์„ ๋ฒ ์ด์Šค๋ผ์ธ ์ž๋™ ํ‰๊ฐ€ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

๋ฐ˜๋ฉด, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฐจ๋ณ„์„ฑ์„ ๊ฐ€์ง„๋‹ค.

  1. ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์—ฌ๋ถ€์™€ ๊ด€๊ณ„์—†์ด ๋‹ค์–‘ํ•œ ์ตœ์‹  LMs๊ฐ€ ์ƒ์„ฑํ•˜๋Š” ํ›จ์”ฌ ๋” ๊ธด ํ…์ŠคํŠธ๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.
  2. ์‚ฌ๋žŒ ์ „๋ฌธ๊ฐ€์™€ ์ž๋™ ํ‰๊ฐ€ ๋ชจ๋ธ์„ ํ†ตํ•ด ์ •๊ตํ•œ(fine-grained) ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  3. ์ด๋ฅผ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ์ง‘ํ•ฉ์— ์ ์šฉํ•˜์—ฌ ํ™•์žฅ์„ฑ์ด ์žˆ๋Š” ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๐Ÿ”ปFact Verification.

๋ณธ ์—ฐ๊ตฌ๋Š” ์‚ฌ์‹ค ๊ฒ€์ฆ ์—ฐ๊ตฌ(Thorne et al., 2018; Wadden et al., 2020)์™€ ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์ด ์žˆ๋‹ค. ์‚ฌ์‹ค ๊ฒ€์ฆ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฌธ์žฅ์„ Wikipedia๋‚˜ ๊ณผํ•™ ๋ฌธํ—Œ๊ณผ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์ง€์‹์›์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๋™ ๊ฒ€์ฆํ•œ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ ์›์ž์  ์ฃผ์žฅ(single atomic claim)์„ ๋‹ค๋ฃจ๋ฉฐ, ๋–„๋กœ๋Š” ์ฃผ๋ณ€ ๋ฌธ๋งฅ์„ ํ•จ๊ป˜ ๋ชจ๋ธ๋งํ•˜๊ธฐ๋„ ํ•œ๋‹ค.

๋˜ํ•œ, ๋” ๊ธด ๋ฌธ์žฅ์ด๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์›์ž์  ์‚ฌ์‹ค๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ฒ€์ฆํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์ˆ˜ํ–‰๋˜์–ด ์™”์œผ๋ฉฐ, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด ์•„์ด๋””์–ด์—์„œ ๋งŽ์€ ์˜๊ฐ์„ ๋ฐ›์•˜๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ์‚ฌ์‹ค ๊ฒ€์ฆ ์—ฐ๊ตฌ์™€ ๋ณธ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์ ์ธ ์ฐจ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ์‚ฌ๋žŒ์ด ์ž‘์„ฑํ•œ ๋ฌธ์žฅ ์ˆ˜์ค€์˜ ์ฃผ์žฅ์„ ๊ฒ€์ฆํ•˜์ง€๋งŒ, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์žฅ๋ฌธ์˜ ํ…์ŠคํŠธ ์ „์ฒด๋ฅผ ๋‹ค๋ฃฌ๋‹ค.


๐Ÿ”ปModel-based Evaluation.

์ด์ „ ์—ฐ๊ตฌ์—์„œ๋Š” ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ •์˜ํ•˜๊ธฐ๋„ ํ–ˆ๋‹ค(Zhang et al., 2020; Liu et al., 2023b). ํŠนํžˆ ์š”์•ฝ ๋ถ„์•ผ์—์„œ๋Š” QA ๋˜๋Š” NLI ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ์š”์•ฝ๋ฌธ๊ณผ ์›๋ฌธ ๊ฐ„์˜ ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์ด ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ ์—ญ์‹œ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๋ฌธ์žฅ์˜ ์‚ฌ์‹ค์„ฑ์„ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๊ฐ€ ํ•ด๋‹น ์ •๋ณด๋ฅผ ๋’ท๋ฐ›์นจํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.


๐Ÿ”น FACTSCORE: Evaluating Factual Precision of Long-form Text Generation


๋ณธ ์žฅ์—์„œ๋Š” LM์ด ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” atomic fact(์›์ž์  ์‚ฌ์‹ค)์˜ ์‚ฌ์‹ค ์ •๋ฐ€๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ธฐ์ค€์ธ FACTSCORE๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ €์ž๋Š” ์‚ฌ๋žŒ ํ‰๊ฐ€(human evaluation)์„ ํ†ตํ•ด ์ตœ์‹  LMs์˜ FACTSCORE๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ๋…ผ์˜ํ•œ๋‹ค.
FACTSCORE๋Š” ์—„๋ฐ€ํ•˜๊ณ  ์„ธ๋ฐ€ํ•œ ํ‰๊ฐ€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์ง€๋งŒ ๋น„์šฉ ๋ฐ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์—, 4์žฅ์—์„œ ์ž๋™ ํ‰๊ฐ€๋ฅผ ์ œ์•ˆํ•œ๋‹ค.


๐Ÿ”ปDefinition

FACTSCORE๋Š” ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์•„์ด๋””์–ด์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด 1: Atomic fact ๋‹จ์œ„๋ฅผ ์‚ฌ์šฉํ•œ ํ‰๊ฐ€

์žฅ๋ฌธ ํ…์ŠคํŠธ๋Š” ๊ฐ๊ฐ์ด ์ฐธ ๋˜๋Š” ๊ฑฐ์ง“์ผ ์ˆ˜ ์žˆ๋Š” ์—ฌ๋Ÿฌ ์ •๋ณด ์กฐ๊ฐ๋“ค์˜ ์ง‘ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฌธ์žฅ์„ ๋‹จ์œ„๋กœ ์‚ผ์•˜์œผ๋‚˜, ํ•˜๋‚˜์˜ ๋ฌธ์žฅ ์•ˆ์—๋„ ์‚ฌ์‹ค/๋น„์‚ฌ์‹ค์ด ์„ž์—ฌ ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งค์šฐ ๋นˆ๋ฒˆํ•˜๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๋ฅผ ๊ฐ–๋Š”๋‹ค:

  • Partial support(๋ถ€๋ถ„์  ์ง€์ง€) ๊ฐ™์€ ์ค‘๊ฐ„ ๋ผ๋ฒจ์„ ๋„์ž…ํ•˜์ง€๋งŒ ๊ธฐ์ค€์ด ์ฃผ๊ด€์ ์ด๊ณ  annotator ๊ฐ„ ํ•ฉ์˜๊ฐ€ ๋‚ฎ์•„์ง„๋‹ค.
    (Manakul et al., 2023; Liu et al., 2023a)
  • ๋ชจ๋“  ์ •๋ณด๊ฐ€ ์™„์ „ํžˆ ์ฐธ์ด์–ด์•ผ๋งŒ Supported๋กœ ๋ณด๋Š” ๋งค์šฐ ์—„๊ฒฉํ•œ ๊ธฐ์ค€๋„ ์กด์žฌํ•œ๋‹ค.
    (Rashkin et al., 2021)
    โ†’ ์ด ๊ฒฝ์šฐ Figure 1์˜ ๋‘ ์˜ˆ์‹œ ๋ชจ๋‘ 0์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜์–ด ์ƒ๋Œ€์ ์ธ ์ •ํ™•๋„ ์ฐจ์ด๋ฅผ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด 2: ์ฃผ์–ด์ง„ ์ง€์‹์›์„ ๊ธฐ์ค€์œผ๋กœ ํ•œ factual precision

๊ธฐ์กด ์—ฐ๊ตฌ๋Š” "์ „์—ญ์ ์œผ๋กœ ์ฐธ์ธ์ง€"๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ–ˆ์œผ๋‚˜, ์ €์ž๋Š” ํŠน์ • ์ง€์‹์›(C)์„ ๊ธฐ์ค€์œผ๋กœ ํŒ๋‹จํ•ด์•ผ ํ•œ๋‹ค๊ณ  ๋ณธ๋‹ค.
์ฆ‰, atomic fact๊ฐ€ "์ „์—ญ์ ์œผ๋กœ ์ฐธ์ด๋ƒ"๊ฐ€ ์•„๋‹ˆ๋ผ ์ง€์‹์› C๊ฐ€ ๊ทธ ์‚ฌ์‹ค์„ ์ง€์ง€ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค.

์ด๋Š” fact verification ๋ฌธํ—Œ์—์„œ๋„ ์‚ฌ์šฉ๋˜๋Š” ๊ด€์ ์ด๋‹ค(Wadden et al., 2022).

Definition

  • ํ‰๊ฐ€ ๋Œ€์ƒ LM: M
  • ํ”„๋กฌํ”„ํŠธ ์ง‘ํ•ฉ: X
  • ์ง€์‹์›(knowledge source): C
  • LM์˜ ์‘๋‹ต: y=M(x)
  • y์—์„œ ์ถ”์ถœ๋œ atomic fact๋“ค์˜ ์ง‘ํ•ฉ: A

    โ†’ MxrespondsM_x{responds}๋Š” LM์ด ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ๋‹ต๋ณ€์„ ํšŒํ”ผํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

๋‹จ, ์ด ์ •์˜๊ฐ€ ์ „์ œํ•˜๋Š” ๊ฐ€์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • atomic fact๊ฐ€ C์— ์˜ํ•ด ์ง€์ง€๋˜๋Š”์ง€ ์—ฌ๋ถ€๋Š” ๋…ผ๋ž€์˜ ์—ฌ์ง€๊ฐ€ ์—†์Œ
  • ๋ชจ๋“  atomic fact๋Š” ๋™์ผํ•œ ์ค‘์š”๋„(weight)
  • ์ง€์‹์› C ๋‚ด๋ถ€ ์ •๋ณด๋“ค์€ ์ถฉ๋Œํ•˜๊ฑฐ๋‚˜ ์ค‘๋ณต๋˜์ง€ ์•Š์€

์ €์ž๋Š” ์‹คํ—˜์—์„œ X๋ฅผ "์ธ๋ฌผ ์†Œ๊ฐœ(biography) ์ƒ์„ฑ"์œผ๋กœ ์„ค์ •ํ•˜๊ณ , C๋Š” Wikipedia๋กœ ์„ค์ •ํ•œ๋‹ค.

โš ๏ธ FACTSCORE๋Š” precision๋งŒ ๊ณ ๋ คํ•˜๊ณ  recall์€ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค.

  • ๋„ˆ๋ฌด ์ž์ฃผ ๋‹ต๋ณ€์„ ํšŒํ”ผํ•˜๋Š” LM
  • facts๊ฐ€ ๊ฑฐ์˜ ์—†๋Š” ์งง์€ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” LM

์ด๋Ÿฐ ๋ชจ๋ธ๋„ FACTSCORE๋Š” ๋†’๊ฒŒ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ recall์„ ํฌํ•จํ•œ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•จ์„ ๋ช…์‹œํ•œ๋‹ค.


๐Ÿ”ปStudied LMs

์ €์ž๋Š” ๋‹ค์Œ ์„ธ LM์„ ํ‰๊ฐ€ํ•œ๋‹ค.

  • InstructGPT (text-davinci-003)
  • ChatGPT (OpenAI, 2022)
  • PerplexityAI (๊ฒ€์ƒ‰์„ ๊ฒฐํ•ฉํ•œ ์ƒ์„ฑํ˜• ๊ฒ€์ƒ‰์—”์ง„)

๐Ÿ”ปData

์ €์ž๋Š” FACTSCORE ์ •์˜์— ๊ธฐ๋ฐ˜ํ•œ ์‚ฌ๋žŒ ํ‰๊ฐ€(human annotation)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. LM์—๊ฒŒ ์ธ๋ฌผ ์†Œ๊ฐœ(biography)๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์š”์ฒญํ•˜๊ณ , Wikipedia๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์‹ค์„ฑ์„ ๊ฒ€์ฆํ•œ๋‹ค.

๐Ÿค” ์™œ biography์ธ๊ฐ€?

  • ์‚ฌ์‹ค์ ์ด๊ณ  ๊ฐ๊ด€์ ์ด๋‹ค.
  • ๋‹ค์–‘ํ•œ ๊ตญ์ , ์ง์—…, ์ธ์ง€๋„ ์ˆ˜์ค€์„ ํฌํ•จํ•œ๋‹ค.
  • Wikipedia๊ฐ€ ์ถฉ๋ถ„ํžˆ ์•ˆ์ •์ ์ด๋ฉฐ ์ž๊ธฐ ์ผ๊ด€์ ์ด๋‹ค.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ ˆ์ฐจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • Step 0 : ์ธ๋ฌผ ์—”ํ‹ฐํ‹ฐ ์ƒ˜ํ”Œ๋ง
    • wikidata์—์„œ Wikipedia ํŽ˜์ด์ง€๊ฐ€ ์กด์žฌํ•˜๋Š” 183๋ช… ์ƒ˜ํ”Œ๋ง
    • Appendix A.1 ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ์— ๋”ฐ๋ผ ๊ท ๋“ฑ ์ƒ˜ํ”Œ

  • Step 1 : LM์— ํ”„๋กฌํ”„ํŠธ ์ž…๋ ฅ
    ํ”„๋กฌํ”„ํŠธ: "Tell me a bio of <entitiy>"
    โ†’ ๋‹ต๋ณ€ ํšŒํ”ผ(abstain) ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ทœ์น™๋„ ์ ์šฉ

  • Step 2 : Atomic fact ์ƒ์„ฑ
    • ์‚ฌ๋žŒ annotator๊ฐ€ LM ์ƒ์„ฑ๋ฌผ(y)์„ atomic fact ๋ชฉ๋ก์œผ๋กœ ๋ถ„ํ•ด
    • ์‹œ๊ฐ„ ์ ˆ์•ฝ์„ ์œ„ํ•ด InstructGPT๊ฐ€ ๋ถ„ํ•ดํ•œ ์ดˆ์•ˆ์„ ์ œ๊ณตํ•˜๊ณ  ์‚ฌ๋žŒ์€ ์ด๋ฅผ ๋ณด์™„

  • ๊ฐ atomic fact์— ๋Œ€ํ•ด ๋‹ค์Œ 3๊ฐœ ๋ผ๋ฒจ๋ง ์ค‘ ํ•˜๋‚˜๋ฅผ ๋ถ€์—ฌ:
    • Supported: Wikipedia์—์„œ ์ง€์ง€๋จ
    • Not-supported: Wikipedia์—์„œ ์ง€์ง€๋˜์ง€ ์•Š์Œ
    • Irrelevant: ํ”„๋กฌํ”„ํŠธ์™€ ๋ฌด๊ด€ํ•˜์—ฌ ๊ฒ€์ฆ ๋Œ€์ƒ์—์„œ ์ œ์™ธํ•ด์•ผ ํ•จ
  • Annotation ๋น„์šฉ
    • Upwork์—์„œ annotator ๊ณ ์šฉ
    • ์‹œ๊ธ‰ 15โ€“25 USD
    • 1๊ฐœ generation๋‹น ๋น„์šฉ ์•ฝ 4 USD
    • ์ค‘๋ณต ๋ผ๋ฒจ(๋‘ annotator)์ด 10% ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ˆ˜ํ–‰
    • ์ผ์น˜์œจ: InstructGPT: 96% / ChatGPT: 90% / PerplexityAI: 88%

### ๐Ÿ”ปResult

์ฃผ์š” ๋ถ„์„ ํฌ์ธํŠธ

  • ๋ชจ๋“  LM์ด ์‚ฌ์‹ค ์˜ค๋ฅ˜๋ฅผ ๋งŽ์ด ํฌํ•จํ•œ๋‹ค.
    โ†’ ์ตœ์‹  ์ƒ์šฉ LM์กฐ์ฐจ FACTSCORE๊ฐ€ 42~71% ์ˆ˜์ค€์— ๊ทธ์นจ
  • PerplexitiyAI๋„ ์™„๋ฒฝํ•˜์ง€ ์•Š์Œ
    โ†’ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜์ด์ง€๋งŒ Wikipdia ๋‚ด์šฉ์„ ๊ทธ๋Œ€๋กœ ๋ณต์‚ฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ์˜ค๋ฅ˜๋ฅผ ๊ทธ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.
  • ๋‹ต๋ณ€ ํšŒํ”ผ(abstain) ๋น„์œจ
    โ†’ ChatGPT & PerplexityAI๋Š” ๋‹ต๋ณ€ ํšŒํ”ผ ์ „๋žต์„ ์‚ฌ์šฉํ•ด precision ์ƒ์Šนํ•˜์ง€๋งŒ InstructGPT๋Š” ๊ฑฐ์˜ ํšŒํ”ผํ•˜์ง€ ์•Š์Œ
  • ๋น„๊ด€๋ จ(Irrelevant) fact ๋น„์œจ
    โ†’ PerplexityAI๋Š” ๊ฒ€์ƒ‰ ์˜ค๋ฅ˜ ๋•Œ๋ฌธ์— irrelevant fact๊ฐ€ ๋งŽ๊ณ  ChatGPT/InstructGPT๋Š” ๊ฑฐ์˜ ์—†์Œ
  • ํฌ๊ท€ํ•œ ์ธ๋ฌผ์ผ์ˆ˜๋ก FACTSCORE ๊ธ‰๊ฐ
    โ†’ ๋ชจ๋“  LM์—์„œ ๋™์ผํ•œ ํŒจํ„ด์„ ๋ณด์˜€๊ณ , ChatGPT๋Š” ์ธ๋ฌผ rarity ์ฆ๊ฐ€ ์‹œ FACTSCORE๊ฐ€ 80% โ†’ 16%๋กœ ํญ๋ฝํ–ˆ๋‹ค. PerplexityAI ์—ญ์‹œ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜์ž„์—๋„ ํฐ ํญ ๊ฐ์†Œํ–ˆ๋‹ค.
  • ์ƒ์„ฑ ํ›„๋ฐ˜๋ถ€์ผ์ˆ˜๋ก ์˜ค๋ฅ˜ ์ฆ๊ฐ€
    โ†’ LM ์ƒ์„ฑ ๊ณผ์ •์˜ ์˜ค๋ฅ˜ ์ „ํŒŒ(error propagation) ํ˜„์ƒ, ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋งŽ์ด ๋“ฑ์žฅํ•˜๋Š” ์ •๋ณด๋Š” ์•ž๋ถ€๋ถ„์— ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๋ฐ˜์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ •ํ™•

PerplexityAI์˜ Not-supported ์˜ค๋ฅ˜ ์œ ํ˜• ๋ถ„์„๋„ ์ง„ํ–‰ํ•ด๋ณด์•˜๋‹ค.

  • ๋‹จ์ผ ๋ฌธ์žฅ ๋ชจ์ˆœ - Wikipedia ๋ฌธ์žฅ์ด ์ง์ ‘ ๋ฐ˜๋ฐ•
  • ํŽ˜์ด์ง€ ๋‹จ์œ„ ๋ชจ์ˆœ - ํŽ˜์ด์ง€ ์ „์ฒด ๋ฌธ๋งฅ์„ ๋ณด๋ฉด ํ‹€๋ฆผ
  • ์ฃผ๊ด€์  ์„œ์ˆ  - ์‚ฌ์šฉ์ž ์˜๊ฒฌ, ์–ธ๋ก  ์ธ์šฉ ๋“ฑ
  • ๊ฒ€์ƒ‰ ์˜ค๋ฅ˜๋กœ ์ธํ•œ ๋ฌด๊ด€ ์ •๋ณด - irrelevant fact
  • Wikipedia ์ž์ฒด ์˜ค๋ฅ˜ - ๊ธฐ์‚ฌ ๊ฐ„ ๋ถˆ์ผ์น˜
  • Annotation ์˜ค๋ฅ˜ - ์‚ฌ๋žŒ ์‹ค์ˆ˜

๐Ÿ”น Estimating FACTSCORE for Automatic Evaluation


์‚ฌ๋žŒ์ด ์ˆ˜ํ–‰ํ•˜๋Š” ์‚ฌ์‹ค์„ฑ(factual precision) ํ‰๊ฐ€๋Š” ๋น„์šฉ์ด ๋งŽ์ด ๋“ ๋‹ค(ํ•œ ์ƒ์„ฑ๋‹น 4๋‹ฌ๋Ÿฌ). ์ด๋Š” ๊ฑฐ๋Œ€ํ•œ ์ง€์‹์›์„ ๊ธฐ๋ฐ˜์œผ๋กœ atomic fact ํ•˜๋‚˜ํ•˜๋‚˜๋ฅผ ๊ฒ€์ฆํ•ด์•ผ ํ•˜๊ณ , ํ•œ ๋ฒˆ์˜ ์ƒ์„ฑ๋ฌผ์ด ํ‰๊ท  26~41 ๊ฐœ์˜ atomic fact๋ฅผ ํฌํ•จํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ด๋Ÿฌํ•œ ํŠน์„ฑ ๋•Œ๋ฌธ์— LM ๊ฐœ๋ฐœ์ž๋‚˜ ์‹ค๋ฌด์ž๋Š” ์ƒˆ๋กœ์šด LMSUBJLM_{SUBJ}์˜ ์žฅ๋ฌธ ์ƒ์„ฑ ์‚ฌ์‹ค์„ฑ์„ ๋Œ€๊ทœ๋ชจ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋Š” FACTSCORE๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ์ถ”์ •๊ธฐ๋Š” LM ์ƒ์„ฑ๋ฌผ๋“ค์˜ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ FACTSCORE๋ฅผ ์ž๋™ ๊ณ„์‚ฐํ•˜๋ฉฐ, ์–ด๋–ค LMSUBJLM_{SUBJ}์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ณธ ์žฅ์—์„œ๋Š” ๋ชจ๋ธ ๊ตฌ์กฐ, ์ธ๊ฐ„ ํ‰๊ฐ€ ๋Œ€๋น„ ์ถ”์ • ์ •ํ™•๋„, ๊ทธ๋ฆฌ๊ณ  ์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด 12๊ฐœ์˜ ์ƒˆ๋กœ์šด LM์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.


๐Ÿ”ป Model

์ €์ž์˜ FACTSCORE ์ถ”์ •๊ธฐ๋Š” ๋จผ์ € ์ƒ์„ฑ๋ฌผ์„ atomic fact ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•œ ๋’ค, ๊ฐ atomic fact๋ฅผ ์ง€์‹์›๊ณผ ๋Œ€์กฐํ•ด ๊ฒ€์ฆํ•œ๋‹ค.

์ €์ž๋Š” ์œ„์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ ๋ฐฉ๋ฒ•์ฒ˜๋Ÿผ InstructGPT๊ฐ€ ์ƒ์„ฑํ•œ atomic fact๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ์‚ฌ๋žŒ๊ณผ ๋งค์šฐ ์œ ์‚ฌํ•˜๋ฉฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€๋„ ์ผ์น˜ํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ด ์ ˆ์—์„œ๋Š” ์–ด๋–ป๊ฒŒ atomic fact๋ฅผ ์ง€์‹์›๊ณผ ๋น„๊ตํ•ด ๊ฒ€์ฆํ•˜๋Š”๊ฐ€์— ์ดˆ์ ์„ ๋‘”๋‹ค.

๐Ÿ” Zero-shot ๋ฐฉ์‹์˜ LMEVAL

์ €์ž๋Š” ํ‰๊ฐ€ ๋ชจ๋ธ์„ LMEVAL์ด๋ผ ๋ถ€๋ฅด๊ณ , ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ LMSUBJLM_{SUBJ}๊ณผ ๊ตฌ๋ถ„ํ•œ๋‹ค.

  • ๊ฐ atomic fact๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด LMEVAL์— ํŠน๋ณ„ํžˆ ์„ค๊ณ„ํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•œ๋‹ค.
  • ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ ๋ฐฉ์‹์€ ๋„ค ๊ฐ€์ง€ ๋ณ€ํ˜•์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.
  • ์˜ˆ์ธก์€ LMEVAL์ด ์ถœ๋ ฅํ•˜๋Š” True/False์˜ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๋น„๊ตํ•ด ๊ฒฐ์ •ํ•œ๋‹ค.
    (๋งŒ์•ฝ ChatGPT์ฒ˜๋Ÿผ logit ๊ฐ’์„ ์ œ๊ณตํ•˜์ง€ ์•Š๋Š” ์ƒ์šฉ ๋ชจ๋ธ์ธ ๊ฒฝ์šฐ์—๋Š” ๋‹จ์ˆœํžˆ ์ƒ์„ฑ ํ…์ŠคํŠธ์— โ€œTrueโ€ ๋˜๋Š” โ€œFalseโ€๊ฐ€ ํฌํ•จ๋˜๋Š”์ง€๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํŒ๋‹จํ•œ๋‹ค.)

<๋„ค ๊ฐ€์ง€ ์ถ”์ •๊ธฐ(Estimator) ๋ณ€ํ˜•>

  • No-context LM
    <atomic-fact> True or False?
  • Retrieve โ†’ LM
    ์ง€์‹์›์—์„œ k๊ฐœ์˜ ๋ฌธ์„œ๋ฅผ ๊ฒ€์ƒ‰(retrieval)ํ•˜๊ณ , ์ด๋ฅผ atomic fact์™€ ํ•จ๊ป˜ ํ”„๋กฌํ”„ํŠธ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ LMEVAL์— ์ž…๋ ฅํ•œ๋‹ค.
    prompt = (๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๋“ค) + (atomic fact) + โ€œTrue or False?โ€
    โ†’ ๊ฒ€์ƒ‰๋œ ์ •๋ณด๊ฐ€ ๋ฌธ๋งฅ์œผ๋กœ ์ œ๊ณต๋˜๊ธฐ ๋•Œ๋ฌธ์— FACTSCORE ์ถ”์ •์ด ๋” ์ •ํ™•ํ•ด์ง„๋‹ค.
  • Nonparametric Probability (NP)
    NP๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์—†๋Š”(nonparametric) ๋ฐฉ์‹์œผ๋กœ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
    - atomic fact์˜ ๊ฐ ํ† ํฐ์„ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ๋งˆ์Šคํ‚น
    - ๋งˆ์Šคํ‚น๋œ ์œ„์น˜์˜ ํ™•๋ฅ ์„ masked LM์œผ๋กœ ๊ณ„์‚ฐ
    - ๋ชจ๋“  ํ† ํฐ์˜ ํ™•๋ฅ  ํ‰๊ท 
    โ†’ threshold ๊ธฐ๋ฐ˜์œผ๋กœ Supported / Not-supported ํŒ๋‹จ
  • Retrieve โ†’ LM + NP (์•™์ƒ๋ธ”)
    Retrieveโ†’LM๊ณผ NP๋ฅผ ๋‘˜ ๋‹ค Supported๋ผ๊ณ  ํŒ๋‹จํ•  ๋•Œ๋งŒ Supported๋กœ ํŒ์ •ํ•œ๋‹ค. ๋” ๋ณด์ˆ˜์ ์ธ(๋ณดํŽธ์ ์œผ๋กœ ๋” ์ •ํ™•ํ•œ) ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๐Ÿ”ป Evaluation of Estimators

ํ‰๊ฐ€์ง€ํ‘œ(Metrics)

  • Error Rate (ER)
    โ†’ ์‹ค์ œ FACTSCORE์™€ ์ถ”์ • FACTSCORE์˜ ์ฐจ์ด
  • ์ˆœ์œ„ ๋ณด์กด ์—ฌ๋ถ€
    โ†’ ์„ธ LMSUBJLM_{SUBJ} (InstructGPT, ChatGPT, PerplexityAI) ๊ฐ„ ์ƒ๋Œ€ ์ˆœ์œ„๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์œ ์ง€ํ•˜๋Š”์ง€

์ฐธ๊ณ  ๋ฐ์ดํ„ฐ๋Š” ์œ„์˜ human-annoted ๋ฐ์ดํ„ฐ

์ฃผ์š” ๊ฒฐ๊ณผ ํ•ด์„

  • Retrieval์ด ๋งค์šฐ ํฐ ํšจ๊ณผ๋ฅผ ๋ƒ„
    Retrieval ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ No-context LM๋ณด๋‹ค ์›”๋“ฑํžˆ ๋‚ฎ์€ ER์„ ๋ณด์ธ๋‹ค.
    โ†’ ์ด๋Š” LMEVAL์ด ๋ชจ๋“  ์‚ฌ์‹ค์„ ์•”๊ธฐํ•˜๊ณ  ์žˆ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ๋ฌธ๋งฅ ์ œ๊ณต์ด ์‚ฌ์‹ค ํŒ๋‹จ์— ํ•„์ˆ˜์ ์ž„์„ ์˜๋ฏธํ•œ๋‹ค.

  • Retrieveโ†’LM ๋‹จ๋… ์‚ฌ์šฉ์€ ์ข…์ข… FACTSCORE๋ฅผ ๊ณผ๋Œ€ํ‰๊ฐ€ํ•จ
    ํŠนํžˆ InstructGPT ๋˜๋Š” ChatGPT๊ฐ€ LMSUBJLM_{SUBJ}์ผ ๋•Œ Inst-LLAMA ๊ธฐ์ค€ ์ตœ๋Œ€ 17% ๊ณผ๋Œ€ ์ถ”์ •ํ•œ๋‹ค.
    Retrieval + NP ์•™์ƒ๋ธ”์ด ์ด๋Ÿฐ ์˜ค์ฐจ๋ฅผ ํฌ๊ฒŒ ์ค„์ธ๋‹ค.

  • ChatGPT๊ฐ€ ํ•ญ์ƒ ์ตœ๊ณ ์˜ LMEVAL์€ ์•„๋‹˜
    ChatGPT๋Š” ๊ฐœ๋ณ„ atomic fact ํŒ๋‹จ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ Supported๋ฅผ ๊ณผํ•˜๊ฒŒ ์ฃผ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด FACTSCORE๋ฅผ ๊ณผ๋Œ€์ถ”์ •ํ•˜์ง€๋งŒ, Inst-LLAMA + NP๋Š” ๊ณผ๋Œ€/๊ณผ์†Œ ๋ชจ๋‘ ๊ท ํ˜•์  โ†’ ์ด FACTSCORE๋Š” ๋” ์ •ํ™•

  • ์ตœ์ ์˜ ์ถ”์ •๊ธฐ๋Š” LMSUBJLM_{SUBJ}์— ๋”ฐ๋ผ ๋‹ค๋ฅด๋‹ค.
    • InstructGPT - LLAMA + NP
    • ChatGPT - LLAMA + NP
    • PerplexityAI - ChatGPT

๐Ÿ”ปEvaluation of New LMs

์ด์ œ ์ด ์ž๋™ ์ถ”์ •๊ธฐ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์‚ฌ๋žŒ ๊ฐœ์ž… ์—†์ด๋„ ๋งŽ์€ LMs๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ €์ž๋Š” ๋‘ ๋‹ฌ ์‚ฌ์ด ๋“ฑ์žฅํ•œ 10๊ฐœ์˜ ์ƒˆ๋กœ์šด LM์„ ํ‰๊ฐ€ํ•˜๋Š” ์‚ฌ๋ก€ ์—ฐ๊ตฌ(case study)๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

Setup

ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ ๋ชฉ๋ก:

  • GPT-4
  • Alpaca (7B, 13B, 65B)
  • Vicuna (7B, 13B)
  • Dolly
  • Oasst-pythia
  • StableLM-tuned-alpha
  • MPT Chat
  • ๊ธฐ์กด LMSUBJLM_{SUBJ} 3๊ฐœ(InstructGPT, ChatGPT, PerplexityAI)
  • ์‚ฌ๋žŒ DBPedia์˜ biography
    โ†’ ์ด 13๊ฐœ์˜ โ€œsubjectโ€ ํ‰๊ฐ€.

๐Ÿ“Œ ํ‰๊ฐ€ ๋ฐฉ์‹

  • ๊ฐ ๋ชจ๋ธ์— ๋Œ€ํ•ด 500๋ช… ์ธ๋ฌผ์˜ ์ „๊ธฐ(biography) ์ƒ์„ฑ ์š”์ฒญ
  • ์ด์ „ ์ ˆ๊ณผ ๋™์ผํ•˜์ง€๋งŒ ์ธ๋ฌผ์€ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด 500๋ช…
  • ์‚ฌ๋žŒ-written ๋ฐ์ดํ„ฐ(DBPedia)๋Š” ํ•ด๋‹น ์ธ๋ฌผ์ด ์—†์œผ๋ฉด abstain ์ฒ˜๋ฆฌ (11%)

์ด 6,500๊ฐœ ์ƒ์„ฑ๋ฌผ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ฆ‰, ์‚ฌ๋žŒ์ด ํ–ˆ์œผ๋ฉด ์•ฝ 26,000๋‹ฌ๋Ÿฌ ํ•„์š”ํ–ˆ์„ ์ž‘์—…์ด๋‹ค.

Results

๋‘ estimator(LLAMA + NP / ChatGPT(with Retrieve โ†’ LM) ๋ชจ๋‘ ๋†’์€ ์ƒ๊ด€์„ ๋ณด์ด๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค.

  • ๋ชจ๋“  LM์€ ์ธ๊ฐ„๋ณด๋‹ค ์‚ฌ์‹ค์„ฑ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง„๋‹ค.
    ์ด์ „ ์—ฐ๊ตฌ๋“ค์€ LMs๊ฐ€ ์ธ๊ฐ„ ์ˆ˜์ค€์— ๊ทผ์ ‘ํ–ˆ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๊ธฐ๋„ ํ–ˆ์ง€๋งŒ(๋ณต์žกํ•œ QA ๋“ฑ), ๋‹จ์ˆœํ•œ ์ „๊ธฐ ์“ฐ๊ธฐ ์ž‘์—…์กฐ์ฐจ ์ธ๊ฐ„ ์ˆ˜์ค€์— ํฌ๊ฒŒ ๋ชป ๋ฏธ์นœ๋‹ค.
  • GPT-4๊ฐ€ ๋” ์•ˆ์ •์ 
    GPT-4๊ฐ€ ChatGPT์— ๋น„ํ•ด abstain ๋น„์œจ์ด ๋‚ฎ๊ณ , ์ƒ์„ฑ atomic fact ์ˆ˜๋„ ๋งŽ๋‹ค.
  • GPT-4์™€ ChatGPT๋Š” ๋ชจ๋“  ๊ณต๊ฐœ ๋ชจ๋ธ๋ณด๋‹ค ํ™•์‹คํžˆ factual
    ๊ณต๊ฐœ ๋ชจ๋ธ(open-source models)์˜ factual precision์€ ์ƒ์—… ๋ชจ๋ธ ๋Œ€๋น„ ํฐ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
  • ๋ชจ๋ธ ํฌ๊ธฐ๋ณ„ ํŒจํ„ด
    • Alpaca: 65B > 13B > 7B
    • Vicuna: 13B > 7B
      โ†’ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์‚ฌ์‹ค์„ฑ๊ณผ ๊ฐ•ํ•˜๊ฒŒ ์—ฐ๊ด€
    • ํ•˜์ง€๋งŒ ๋™์ผ ํฌ๊ธฐ ๋‚ด์—์„œ Alpaca vs Vicuna๋Š” ๋งค์šฐ ์œ ์‚ฌ
  • ๊ณต๊ฐœ 7B ๋ชจ๋ธ ์‚ฌ์ด์—์„œ๋„ ํฐ ๊ฒฉ์ฐจ
    Alpaca 7B - ~40%
    Vicuna 7B - ~40%
    MPT-Chat 7B - 30%
    StableLM-tuned-alpha 7B - 17%
    โ†’ ์ฐจ์ด๋Š” baseLM / training data / fine-tuning recipe ๋•Œ๋ฌธ์œผ๋กœ ์ถ”์ •

๐Ÿ”นConclusion and Future Work


์ €์ž๋Š” FACTSCORE๋ฅผ ์†Œ๊ฐœํ•˜์˜€๋‹ค. FACTSCORE๋Š” LMs๊ฐ€ ์ƒ์„ฑํ•œ ์žฅ๋ฌธ ํ…์ŠคํŠธ๋ฅผ ์ผ๋ จ์˜ atomic fact๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ์ฃผ์–ด์ง„ ์ง€์‹์›์— ์˜ํ•ด ๋’ท๋ฐ›์นจ๋˜๋Š” ์‚ฌ์‹ค์˜ ๋น„์œจ์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ์žฅ๋ฌธ ์ƒ์„ฑ์˜ ์‚ฌ์‹ค ์ •๋ฐ€๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ด๋‹ค.

๋จผ์ € ๊ด‘๋ฒ”์œ„ํ•œ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์ตœ์‹  ์ƒ์šฉ LMs(InstructGPT, ChatGPT, ๊ฒ€์ƒ‰ ์—”์ง„์„ ๊ฒฐํ•ฉํ•œ PerplexityAI)์ด ์ƒ๋‹นํ•œ ์–‘์˜ ์˜ค๋ฅ˜๋ฅผ ํฌํ•จํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ธ๊ฐ„ ํ‰๊ฐ€์—๋Š” ๋งŽ์€ ๋น„์šฉ๊ณผ ์†Œ๋ชจ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ €์ž๋Š” FACTSCORE๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์ œ์•ˆํ–ˆ๋‹ค.

  • Estimator๋Š” ์ง€์‹์›์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” retrieval๊ณผ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•ด, ์‹ค์ œ FACTSCORE์™€ ๊ฑฐ์˜ ๋™์ผํ•œ ๊ฐ’์„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์ด๋ฅผ ํ™œ์šฉํ•ด ์ตœ๊ทผ ๊ณต๊ฐœ๋œ 12๊ฐœ์˜ LM์„ ์‚ฌ๋žŒ ์—†์ด ๋Œ€๊ทœ๋ชจ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์—ฐ๊ตฌ๋ฅผ ์ œ์‹œํ•˜์˜€๋‹ค.
  • ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ˆ˜ํ–‰ํ–ˆ๋‹ค๋ฉด 65,000๋‹ฌ๋Ÿฌ์˜ ๋น„์šฉ์ด ๋“ค์—ˆ๋‹ค.
  • FACTSCORE๋Š” ๊ณต๊ฐœ๋œ ํ›„ 4๊ฐœ์›” ๋งŒ์— ํ™œ๋ฐœํžˆ ํ™œ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ์—ฌ๋Ÿฌ ์‹ ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€์— ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋‹ค์Œ์„ ์ œ์•ˆํ•œ๋‹ค.

  1. ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€์—์„œ reacll ๋“ฑ ๋‹ค๋ฅธ ์ธก๋ฉด ๊ณ ๋ คํ•˜๊ธฐ
  2. ์ถ”์ •๊ธฐ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์—ฌ ๋”์šฑ ์ •ํ™•ํ•œ FACTSCORE ๊ทผ์‚ฌ ์ œ๊ณต
  3. FACTSCORE๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์˜ ์ƒ์„ฑ๋ฌผ์„ ์ˆ˜์ •ํ•˜๋Š” ์—ฐ๊ตฌ ํ™•๋Œ€

๐Ÿ”ป Limitations

  • FACTSCORE์˜ ์ ์šฉ ๋ฒ”์œ„
    ๋ชจ๋“  ์‹คํ—˜์€ ์‚ฌ๋žŒ์˜ ์ „๊ธฐ(biography)์™€ Wikipedia๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ง„ํ–‰๋˜์—ˆ๋‹ค.
    โ†’ ๊ทธ๋Ÿฌ๋‚˜ FACTSCORE๋Š” ๋” ๋„“์€ ์˜์—ญ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. (ex. ์ตœ์‹  ์‚ฌ๊ฑด์„ ๋‹ค๋ฃฌ ํ…์ŠคํŠธ, ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋‹ค๋ฃฌ ํ…์ŠคํŠธ)
    ๋‹ค๋งŒ, ์‚ฌ์‹ค์ด ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ์ฃผ๊ด€์ ์ด๊ฑฐ๋‚˜ ๋…ผ์Ÿ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ, ์ง€์‹์› ์ž์ฒด๊ฐ€ ์ƒํ˜ธ ๋ชจ์ˆœ๋œ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฒฝ์šฐ FACTSCORE๊ฐ€ ์ ์šฉ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค.
    ๋˜ํ•œ FACTSCORE๋Š” ์˜๋„์ (๋˜๋Š” ์•”๋ฌต์ ) ๊ธฐ๋งŒ, ๋‰˜์•™์Šค, ๋ฏธ๋ฌ˜ํ•œ ์–ธ์–ด์  ํ‘œํ˜„์ด ํฌํ•จ๋œ ์ธ๊ฐ„ ์ž‘์„ฑ ํ…์ŠคํŠธ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š๋‹ค.

  • Estimator์˜ ํ•œ๊ณ„
    ํ•ด๋‹น ์‹คํ—˜์˜ ์ถ”์ •๊ธฐ๋Š” ์ธ๊ฐ„๊ณผ ๋งค์šฐ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๊ณ , LMs ๊ฐ„์˜ ์ˆœ์œ„๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€ํ•˜์ง€๋งŒ ๊ฐœ๋ณ„ fact ์ˆ˜์ค€์—์„œ๋Š” ์™„๋ฒฝํ•˜์ง€ ์•Š๋‹ค.
    โ†’ ๊ฐ€์žฅ ์ข‹์€ estimator ์กฐํ•ฉ์€ ์ƒ์„ฑ๋ฌผ์ด ์ธ๊ฐ„ ์ž‘์„ฑ๋ฌธ๊ณผ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€, ์–ธ์–ด์  ๋ณต์žก์„ฑ์ด ์–ด๋А ์ •๋„์ธ์ง€์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.
    ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” ์ƒ์„ฑ๋ฌผ์˜ ๋ถ„ํฌ๊ฐ€ estimator ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€ ๋ถ„์„ํ•˜๊ณ , estimator์˜ ์ •๊ตํ•จ์„ ๋” ๋†’์ด๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘˜ ์ˆ˜ ์žˆ๋‹ค.

  • FACTSCORE์˜ ๋ฒ”์œ„
    FACTSCORE๋Š” ์–ด๋””๊นŒ์ง€๋‚˜ precision ์ค‘์‹ฌ์˜ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€ ์ง€ํ‘œ๋‹ค. ์ฆ‰, ์ƒ์„ฑ๋ฌผ์˜ ๊ฐ ์ •๋ณด๊ฐ€ ์ง€์‹์›์— ์˜ํ•ด ๋’ท๋ฐ›์นจ๋˜๋Š”์ง€๋งŒ ํ‰๊ฐ€ํ•œ๋‹ค.
    โ†’ ํ•˜์ง€๋งŒ Factual Recall(๋ชจ๋ธ์ด ๋„ˆ๋ฌด ์ž์ฃผ ๋‹ต๋ณ€์„ ํšŒํ”ผํ•˜๊ฑฐ๋‚˜ ๋งค์šฐ ์ ์€ ์–‘์˜ ์ •๋ณด ์ƒ์„ฑ)์˜ ๊ฒฝ์šฐ FACTSCORE๊ฐ€ ๋†’๊ฒŒ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ…์ŠคํŠธ์— ํฌํ•จ๋œ ์‚ฌ์‹ค์ด ๋ชจ๋‘ true๋ผ๋„, ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์— ์ ์ ˆํžˆ ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ˜๋“œ์‹œ ํฌํ•จ๋˜์–ด์•ผ ํ•  ํ•ต์‹ฌ ์ •๋ณด๊ฐ€ ๋น ์ ธ ์žˆ์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ด Precision๊ณผ recall์˜ ๊ฒฝ๊ณ„๊ฐ€ ๋ชจํ˜ธํ•ด์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” FACTSCORE์™€ ํ•จ๊ป˜ abstention ๋น„์œจ(%), ์ƒ์„ฑ๋œ atomic fact ํ‰๊ท  ๊ฐœ์ˆ˜๋ฅผ ํ•จ๊ป˜ ๋ณด๊ณ ํ•˜๋Š” ๊ฒƒ์„ ๊ถŒ๊ณ ํ•œ๋‹ค.


๐Ÿ‘€ My thoughts


  • LLM์˜ ์žฅ๋ฌธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋‹จ์ˆœํžˆ "์ •ํ™•ํ•˜๋‹ค/ํ‹€๋ ธ๋‹ค"๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜, ํ…์ŠคํŠธ๋ฅผ atomic fact ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ฐ ์ •๋ณด ์กฐ๊ฐ์˜ ์‚ฌ์‹ค์„ฑ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•œ๋‹ค๋Š” ์ ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ์™€ ๊ต‰์žฅํžˆ ๋งŽ์ด ๋งž๋‹ฟ์•„ ์žˆ๋‹ค๊ณ  ๋А๊ผˆ๋‹ค.
  • ๋˜ํ•œ ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์‹ค์ œ๋กœ ์ˆ˜๋ฐฑ ๊ฐœ์˜ ์ „๊ธฐ ์ƒ์„ฑ๋ฌผ์„ ์‚ฌ๋žŒ์ด ์ง์ ‘ Wikipedia์™€ ๋Œ€์กฐํ•ด ๋ผ๋ฒจ๋งํ–ˆ๋‹ค๋Š” ์ ์ด ์‹ ๊ธฐํ–ˆ๊ณ , ํ•ด๋‹น ์—ฐ๊ตฌ์— ๋งŽ์€ ์ธ๋ ฅ๊ณผ ์‹œ๊ฐ„, ๋น„์šฉ์ด ๋“ค์—ˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€