๐ FACTSCORE: Fine-grained Evaluation of Factual Precision in Long-form Text Generation
๐ ์ ์: Sewon Min, Tianyi Zhang, Xinxi Lyu, Yizhong Wang, Haohan Wang, Hannaneh Hajishirzi, Luke Zettlemoyer
๐
๋ฐํ ์ฐ๋: 2023
๐ ๋
ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2305.14251
ํ์ฌ ํ๊ต ๋ฅ๋ฌ๋ ํ๋ก์ ํธ์์ SLM/LLM์ ํ๊ฐ(hallucination)์ ์ ๋ณด ๋ถํธํ ์ด๋ก (Information Coding Theory) ๊ด์ ์์ ์ค์ด๋ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ณ ์๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ์์ฑํ๋ ์ฅ๋ฌธ ํ ์คํธ์ ์ฌ์ค์ฑ์ ์ ๊ตํ๊ฒ ํ๊ฐํ๋ค๋ ์ ์์ ์ฐ๋ฆฌ์ ์ฐ๊ตฌ ์ฃผ์ ์ ์ง์ ์ ์ผ๋ก ๋ง๋ฟ์ ์์ด, ํ๊ฐ ๋ถ์ยทํ๊ฐ ํ๋ ์์ํฌ์ atomic fact ๊ธฐ๋ฐ ๊ฒ์ฆ ๋ฐฉ์์ ์ดํดํ๊ธฐ ์ํด ๋ฆฌ๋ทฐํ๊ฒ ๋์๋ค.
๋ํ ์ธ์ด๋ชจ๋ธ(Large Language Models, LMs)์ด ์์ฑํ๋ ์ฅ๋ฌธ์ ํ ์คํธ์ ๋ํด ์ฌ์ค์ฑ์ ํ๊ฐํ๋ ๊ฒ์ ์ฝ์ง ์์ ๋ฌธ์ ์ด๋ค.
๊ทธ ์ด์ ๋
(1) ์์ฑ๋ฌผ์ด ์ฌ์ค์ ๋ถํฉํ๋ ์ ๋ณด์ ๋ถํฉํ์ง ์์ ์ ๋ณด๊ฐ ์์ฌ ์์ด ์ด๋ถ๋ฒ์ (binary) ๊ธฐ์ค๋ง์ผ๋ก๋ ํ์ง์ ์ ์ ํ๊ฒ ํ๋จํ๊ธฐ ์ด๋ ต๊ณ ,
(2) ์ฌ๋์ ํตํ ํ๊ฐ๊ฐ ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด FACTSCORE๋ผ๋ ์๋ก์ด ํ๊ฐ ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
FACTSOCRE๋ ๋ชจ๋ธ์ ์๋ต์ ์ฌ๋ฌ ๊ฐ์ ์์์ ์ฌ์ค(atomic facts) ๋จ์๋ก ๋ถํดํ ๋ค, ์ ๋ขฐํ ์ ์๋ ์ง์์์ ์ํด ๋ท๋ฐ์นจ๋๋ ์ฌ์ค์ ๋น์จ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ด๋ค.
์ ์๋ InstructGPT, ChatGPT, ๊ฒ์ ๊ธฐ๋ฐ ๋ชจ๋ธ PerplexityAI ๋ฑ ์ฌ๋ฌ ์ต์ ์์ฉ LMs๊ฐ ์์ฑํ biographies์ ๋ํด ๋๊ท๋ชจ ์ธ๊ฐ ํ๊ฐ๋ฅผ ์ํํ์ฌ FACTSCORE๋ฅผ ์ธก์ ํ๋ค.
์ด๋ฌํ ์ ๊ตํ ํ๊ฐ ์งํ์ ํ์์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋ถ์์ ์๋กญ๊ฒ ์ ์ํ๋ค.
(์: ChatGPT์ FACTSCORE๋ 58%์ ๋ถ๊ณผํ๋ค.)
๊ทธ๋ฌ๋ ์ธ๊ฐ ํ๊ฐ์ ๋์ ๋น์ฉ์ ๊ณ ๋ คํ์ฌ, ์ ์๋ retrieval๊ณผ ๊ฐ๋ ฅํ ์ธ์ด๋ชจ๋ธ์ ์กฐํฉํด FACTSCORE๋ฅผ ์๋์ผ๋ก ์ถ์ ํ๋ ๋ชจ๋ธ ๋ํ ์ ์ํ๋ค. ํด๋น ๋ฐฉ์์ ์๋ ํ๊ฐ๋ ์ค๋ฅ์จ์ด 2% ๋ฏธ๋ง์ผ๋ก ๋งค์ฐ ์ ํํ๋ค.
๋ง์ง๋ง์ผ๋ก ์ ์๋ ์ด ์๋ ํ๊ฐ ์งํ๋ฅผ ํ์ฉํ์ฌ ์ด 13๊ฐ์ ์ต์ LMs๊ฐ ์์ฑํ 6,500๊ฐ์ ์๋ต์ ํ๊ฐํ๋ค. ์ด๋ฅผ ์ฌ๋์ด ํ๊ฐํ๋ค๋ฉด 26,000๋ฌ๋ฌ๊ฐ ์์๋์์ ๊ฒ์ด๋ฉฐ, ํ๊ณผ ๊ฒฐ๊ณผ ์ญ์ GPT-4์ ChatGPT๋ณด๋ค ์ฌ์ค์ฑ์ด ๋์๋ค.
FACTSCORE๋ pip install factscore๋ฅผ ํตํด ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ค.
๋ํ ์ธ์ด๋ชจ๋ธ์ด ์์ฑํ๋ ์ฅ๋ฌธ์ ํ ์คํธ๋ ๋ค์ํ ๋ถ์ผ์์ ๋๋ฆฌ ํ์ฉ๋๊ณ ์๋ค(Brown et al., 2020; Ouyang et al., 2022). ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ด๋ฌํ ์์ฑ๋ฌผ์ด ์ ๋ฌํ๋ ๊ฐ ์ ๋ณด๊ฐ ์ฌ์ค์ ์ผ๋ก ์ ํํ์ง ํ๊ฐํ๋ ์ผ์ ๋ ๊ฐ์ง ์ด์ ๋ก ์ฌ์ ํ ์ด๋ ต๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด FACTSCORE(Factual Precision in Atomicity Score)๋ฅผ ์ ์ํ๋ค. FACTSCORE๋ ๋ชจ๋ธ์ด ์์ฑํ ํ ์คํธ๋ฅผ ์์์ ์ฌ์ค(atomic facts)๋ก ๋ถํดํ๊ณ , ๊ฐ ์ฌ์ค์ด ์ฃผ์ด์ง ์ง์์(knowledge source)์ ์ํด ๋ท๋ฐ์นจ๋๋์ง ์ฌ๋ถ๋ฅผ ํ๊ฐํ์ฌ ์ ์ฒด ์ค ์ฌ์ค๋ก ํ์ธ๋ ๋น์จ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ด๋ค.
์ด๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋
(1) ์์ฑ๋ฌธ์ ํ๋์ ์ ๋ณด๋ง ํฌํจํ๋ ์งง์ ๋ฌธ์ฅ ๋จ์๋ก ๋ถํดํ๊ณ
(Nenkova & Passonneau, 2004; Shapira et al., 2019; Zhang & Bansal, 2021; Liu et al., 2022)
(2) ๊ฐ ์์์ ์ฌ์ค์ ๋ํด ์ด์ง(binary) ๋ ์ด๋ธ์ ๋ถ์ฌํ๋ค.
์ด๋ฅผ ํตํด ์ฌ์ค์ฑ์ ๋์ฑ ์ธ๋ฐํ๊ฒ ํ๊ฐํ ์ ์๋ค.
์ ์๋ FACTSCORE๋ฅผ ์ธ๋ฌผ ์ ๊ธฐ(biographies) ์์ฑ ์์ ์ ์ ์ฉํ์๋ค. ์ด ์์ ์ ์์ฑ๋ฌธ์ด ์ฃผ๊ด์ ์ด๊ฑฐ๋ ๋ ผ๋์ ์ฌ์ง๊ฐ ์๋ ์ ๋ณด๊ฐ ์๋ ๋ช ํํ๊ฒ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ฌ์ค๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋ค์ํ ๊ตญ์ , ์ง์ , ํฌ์์ฑ์ ๊ฐ์ง ํญ๋์ ๋ฒ์๋ฅผ ํฌ๊ดํ๋ค๋ ์ ์์ ์ ํฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ์ธ ๊ฐ์ง ์ต์ ์์ฉ LMs๊ฐ ์์ฑํ ์ธ๋ฌผ ์ ๊ธฐ์ ๋ํด ๊ด๋ฒ์ํ ์ธ๊ฐ ํ๊ฐ๋ฅผ ์ํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ชจ๋ธ๋ค์ ์๋นํ ์์ ์ค๋ฅ๋ฅผ ํฌํจํ๊ณ ์์๋ค.
FACTSCORE
- InstructGPT(Ouyang et al., 2022) - 42%
- ChatGPT(OpenAI, 2022) - 58%
- PerplexityAI - 71%
๋ํ ์์ฑ ๋์ ์ธ๋ฌผ์ ํฌ์์ฑ์ด ๋์์ง์๋ก FACTSCORE๋ ๊ธ๊ฒฉํ ํ๋ฝํ์ผ๋ฉฐ, ์๋ฅผ ๋ค์ด ChatGPT์ ๊ฒฝ์ฐ 80%์์ 16%๋ก ๋จ์ด์ก๋ค.
ํ์ง๋ง ์ธ๊ฐ ํ๊ฐ ๋น์ฉ์ด ๋งค์ฐ ๋๊ธฐ ๋๋ฌธ์, ์ ์๋ ๋ค์ ๋จ๊ณ๋ก ์๋ FACTSCORE ํ๊ฐ ๋ชจ๋ธ์ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ ์์ฑ๋ฌธ์ ์์์ ์ฌ์ค๋ก ๋ถํดํ ๋ค, ๊ฒ์ ๊ธฐ๋ฐ ์ ๊ทผ(retrieval)๊ณผ ๊ฐ๋ ฅํ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ฐ ์ฌ์ค์ ๊ทผ๊ฑฐ๋ฅผ ๊ฒ์ฆํ๋ค.
์ ์ํ ์๋ ํ๊ฐ ๋ชจ๋ธ์ FACTSCORE๋ฅผ 2% ๋ฏธ๋ง์ ์ค์ฐจ์จ๋ก ์ ํํ๊ฒ ์ถ์ ํ ์ ์์ผ๋ฉฐ, ์ธ๊ฐ ๊ฐ์ธ ์์ด ๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ ๋น ๋ฅด๊ฒ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ค.
์ฌ๋ก ์ฐ๊ตฌ๋ก, ์ ์๋ 13๊ฐ์ LMs๊ฐ ์์ฑํ ์ด 6,500๊ฐ์ ์๋ต์ ์๋ FACTSCORE๋ก ํ๊ฐํ์๋ค. ์ด๋ฅผ ์ธ๊ฐ์ด ํ๊ฐํ๋ค๋ฉด ์ฝ 26,000 ๋ฌ๋ฌ์ ๋น์ฉ์ด ๋ฐ์ํ์ ๊ฒ์ด๋ค. ์ด ๋ถ์์์ GPT-4์ ChatGPT๋ ์ฌ์ ํ ์ธ๊ฐ๋ณด๋ค๋ ์ฌ์ค์ฑ์ด ๋ฎ์์ง๋ง, ๊ณต๊ฐ ๋ชจ๋ธ๋ค ๋ณด๋ค๋ ํ์คํ ๋์ ์ฌ์ค์ฑ์ ๋ณด์๋ค.
๋ํ ๊ณต๊ฐ ๋ชจ๋ธ ๊ฐ์๋ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ์ปธ์ผ๋ฉฐ, Vicuna, Alpaca๊ฐ ๊ทธ์ค ๊ฐ์ฅ ์ฐ์ํ ํธ์ ์ํ๋ค.
์ฆ, ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- FACTSCORE ์ ์
- ์์ฑ๋ฌธ์ ์์์ ์ฌ์ค๋ก ๋ถํดํ๊ณ ์ด๋ฅผ ์ง์์์ ๋ฐ๋ผ ๊ฒ์ฆํ์ฌ LMs์ ์ฌ์ค์ฑ์ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ ์๋ก์ด ์งํ๋ฅผ ์ ์ํ๋ค.
- ์ธ๊ฐ ํ๊ฐ ๊ฒฐ๊ณผ, ๊ฒ์ ์ฌ๋ถ์ ๋ฌด๊ดํ๊ฒ ์ต์ LMs์ FACTSCORE๋ ๋ฎ๊ฒ ๋ํ๋ฌ๋ค.
- ์๋ FACTSCORE ์ถ์ ๋ชจ๋ธ ์ ์
- FACTSCORE๋ฅผ 2% ๋ฏธ๋ง์ ์ค์ฐจ๋ก ๋ชจ์ฌํ๋ ์๋ ํ๊ฐ ๋ชจ๋ธ์ ์ ์ํ์ฌ, ๋๊ท๋ชจ ์๋ก์ด LMs๋ฅผ ์ธ๊ฐ ๊ฐ์ ์์ด ํ๊ฐํ ์ ์๊ฒ ํ๋ค.
- FACTSCORE ๋ฐ ์ฃผ์ ๋ฐ์ดํฐ ๊ณต๊ฐ
- FACTSCORE์ ์ฃผ์ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ๋ฉฐ,
pip install factscore๋ก ์ ๊ทผํ ์ ์๋ค.- ํฅํ ์ฐ๊ตฌ๋ก๋ FACTSCORE๋ฅผ ๋ ๋ค์ํ ํํ์ ์์ฑ๋ฌธ(์: ๊ฐ๋ฐฉํ ์์ฑ)์ ์ ์ฉํ๊ณ , ์๋ ํ๊ฐ ๋ชจ๋ธ์ ๋์ฑ ๊ฐ์ ํ๋ ๋ฐฉํฅ์ ์ ์ํ๋ค.
ํ ์คํธ ์์ฑ์์์ ์ฌ์ค์ฑ์ NLP ๋ถ์ผ์์ ํ๋ฐํ ์ฐ๊ตฌ๋์ด ์จ ์ฃผ์ ์ด๋ค. ๊ธฐ์กด ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ ํน์ ๋ฌธ์ ์ ๋ํด ๊ฐ๋ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ค์ฑ์ ํ๊ฐํ๊ฑฐ๋, ์๋ฅผ ๋ค์ด ๋ํ ๋ชจ๋ธ์ ์ฌ์ค์ฑ ํ๊ฐ ํน์ ์งง์ ๋ต๋ณ์ ์๊ตฌํ๋ ์ง์์๋ต ๊ณผ์ ์ ์ด์ ์ ๋ง์ถ์๋ค.
๋ฐ๋ฉด ์ต๊ทผ ์ฐ๊ตฌ๋ ์งง์ ๋ต๋ณ์ ๋์ด ์ฅ๋ฌธ ์์ฑ์ ์ฌ์ค์ฑ์ ํ๊ตฌํ๊ณ ์๋ค.
๋ฐ๋ฉด, ๋ณธ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ฐจ๋ณ์ฑ์ ๊ฐ์ง๋ค.
- ๊ฒ์ ๊ธฐ๋ฐ ์ฌ๋ถ์ ๊ด๊ณ์์ด ๋ค์ํ ์ต์ LMs๊ฐ ์์ฑํ๋ ํจ์ฌ ๋ ๊ธด ํ ์คํธ๋ฅผ ํ๊ฐํ๋ค.
- ์ฌ๋ ์ ๋ฌธ๊ฐ์ ์๋ ํ๊ฐ ๋ชจ๋ธ์ ํตํด ์ ๊ตํ(fine-grained) ์ฌ์ค์ฑ ํ๊ฐ๋ฅผ ์ ๊ณตํ๋ค.
- ์ด๋ฅผ ๋๊ท๋ชจ ๋ชจ๋ธ ์งํฉ์ ์ ์ฉํ์ฌ ํ์ฅ์ฑ์ด ์๋ ๋ถ์์ ์ํํ๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ฌ์ค ๊ฒ์ฆ ์ฐ๊ตฌ(Thorne et al., 2018; Wadden et al., 2020)์ ๋ฐ์ ํ ๊ด๋ จ์ด ์๋ค. ์ฌ์ค ๊ฒ์ฆ ์ฐ๊ตฌ์์๋ ๋ฌธ์ฅ์ Wikipedia๋ ๊ณผํ ๋ฌธํ๊ณผ ๊ฐ์ ๋๊ท๋ชจ ์ง์์์ ๊ธฐ๋ฐ์ผ๋ก ์๋ ๊ฒ์ฆํ๋ค.
๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ ๋จ์ผ ์์์ ์ฃผ์ฅ(single atomic claim)์ ๋ค๋ฃจ๋ฉฐ, ๋๋ก๋ ์ฃผ๋ณ ๋ฌธ๋งฅ์ ํจ๊ป ๋ชจ๋ธ๋งํ๊ธฐ๋ ํ๋ค.
๋ํ, ๋ ๊ธด ๋ฌธ์ฅ์ด๋ ํ ์คํธ๋ฅผ ์์์ ์ฌ์ค๋ก ๋ถํดํ์ฌ ๊ฒ์ฆํ๋ ์ฐ๊ตฌ๋ ์ํ๋์ด ์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ๋ ์ด ์์ด๋์ด์์ ๋ง์ ์๊ฐ์ ๋ฐ์๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด ์ฌ์ค ๊ฒ์ฆ ์ฐ๊ตฌ์ ๋ณธ ์ฐ๊ตฌ์ ํต์ฌ์ ์ธ ์ฐจ์ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฌ๋์ด ์์ฑํ ๋ฌธ์ฅ ์์ค์ ์ฃผ์ฅ์ ๊ฒ์ฆํ์ง๋ง, ๋ณธ ์ฐ๊ตฌ๋ ๋ํ ์ธ์ด๋ชจ๋ธ์ด ์์ฑํ ์ฅ๋ฌธ์ ํ ์คํธ ์ ์ฒด๋ฅผ ๋ค๋ฃฌ๋ค.
์ด์ ์ฐ๊ตฌ์์๋ ํ์ต๋ ๋ชจ๋ธ์ ํ์ฉํด ์๋ ํ๊ฐ ์งํ๋ฅผ ์ ์ํ๊ธฐ๋ ํ๋ค(Zhang et al., 2020; Liu et al., 2023b). ํนํ ์์ฝ ๋ถ์ผ์์๋ QA ๋๋ NLI ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์์ฝ๋ฌธ๊ณผ ์๋ฌธ ๊ฐ์ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ์ด ์ฌ์ฉ๋์๋ค.
๋ณธ ์ฐ๊ตฌ ์ญ์ ์ด๋ฌํ ์ ๊ทผ์์ ์๊ฐ์ ๋ฐ์, ๋ชจ๋ธ์ด ์์ฑํ ๋ฌธ์ฅ์ ์ฌ์ค์ฑ์ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค๊ฐ ํด๋น ์ ๋ณด๋ฅผ ๋ท๋ฐ์นจํ๋์ง ์ฌ๋ถ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ๋ค.
๋ณธ ์ฅ์์๋ LM์ด ์์ฑํ ํ
์คํธ๋ฅผ ๊ตฌ์ฑํ๋ atomic fact(์์์ ์ฌ์ค)์ ์ฌ์ค ์ ๋ฐ๋๋ฅผ ํ๊ฐํ๋ ์๋ก์ด ๊ธฐ์ค์ธ FACTSCORE๋ฅผ ์๊ฐํ๋ค. ์ ์๋ ์ฌ๋ ํ๊ฐ(human evaluation)์ ํตํด ์ต์ LMs์ FACTSCORE๋ฅผ ๊ณ์ฐํ๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ๋
ผ์ํ๋ค.
FACTSCORE๋ ์๋ฐํ๊ณ ์ธ๋ฐํ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง ๋น์ฉ ๋ฐ ์๊ฐ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์, 4์ฅ์์ ์๋ ํ๊ฐ๋ฅผ ์ ์ํ๋ค.
FACTSCORE๋ ๋ค์ ๋ ๊ฐ์ง ํต์ฌ ์์ด๋์ด์ ๊ธฐ๋ฐํ๋ค.
ํต์ฌ ์์ด๋์ด 1: Atomic fact ๋จ์๋ฅผ ์ฌ์ฉํ ํ๊ฐ
์ฅ๋ฌธ ํ
์คํธ๋ ๊ฐ๊ฐ์ด ์ฐธ ๋๋ ๊ฑฐ์ง์ผ ์ ์๋ ์ฌ๋ฌ ์ ๋ณด ์กฐ๊ฐ๋ค์ ์งํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ๋ฌธ์ฅ์ ๋จ์๋ก ์ผ์์ผ๋, ํ๋์ ๋ฌธ์ฅ ์์๋ ์ฌ์ค/๋น์ฌ์ค์ด ์์ฌ ์๋ ๊ฒฝ์ฐ๊ฐ ๋งค์ฐ ๋น๋ฒํ๋ค.

๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๋ฅผ ๊ฐ๋๋ค:
ํต์ฌ ์์ด๋์ด 2: ์ฃผ์ด์ง ์ง์์์ ๊ธฐ์ค์ผ๋ก ํ factual precision
๊ธฐ์กด ์ฐ๊ตฌ๋ "์ ์ญ์ ์ผ๋ก ์ฐธ์ธ์ง"๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ผ๋, ์ ์๋ ํน์ ์ง์์(C)์ ๊ธฐ์ค์ผ๋ก ํ๋จํด์ผ ํ๋ค๊ณ ๋ณธ๋ค.
์ฆ, atomic fact๊ฐ "์ ์ญ์ ์ผ๋ก ์ฐธ์ด๋"๊ฐ ์๋๋ผ ์ง์์ C๊ฐ ๊ทธ ์ฌ์ค์ ์ง์งํ๋์ง๋ฅผ ํ๊ฐํ๋ค.
์ด๋ fact verification ๋ฌธํ์์๋ ์ฌ์ฉ๋๋ ๊ด์ ์ด๋ค(Wadden et al., 2022).
Definition
- ํ๊ฐ ๋์ LM: M
- ํ๋กฌํํธ ์งํฉ: X
- ์ง์์(knowledge source): C
- LM์ ์๋ต: y=M(x)
- y์์ ์ถ์ถ๋ atomic fact๋ค์ ์งํฉ: A
โ ๋ LM์ด ํ๋กฌํํธ์ ๋ํด ๋ต๋ณ์ ํํผํ์ง ์์ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ค.
๋จ, ์ด ์ ์๊ฐ ์ ์ ํ๋ ๊ฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ ์๋ ์คํ์์ X๋ฅผ "์ธ๋ฌผ ์๊ฐ(biography) ์์ฑ"์ผ๋ก ์ค์ ํ๊ณ , C๋ Wikipedia๋ก ์ค์ ํ๋ค.
โ ๏ธ FACTSCORE๋ precision๋ง ๊ณ ๋ คํ๊ณ recall์ ๊ณ ๋ คํ์ง ์๋๋ค.
์ด๋ฐ ๋ชจ๋ธ๋ FACTSCORE๋ ๋๊ฒ ๋์ฌ ์ ์๋ค. ํฅํ ์ฐ๊ตฌ์์ recall์ ํฌํจํ ํ๊ฐ๊ฐ ํ์ํจ์ ๋ช ์ํ๋ค.
์ ์๋ ๋ค์ ์ธ LM์ ํ๊ฐํ๋ค.
์ ์๋ FACTSCORE ์ ์์ ๊ธฐ๋ฐํ ์ฌ๋ ํ๊ฐ(human annotation)์ ์ํํ๋ค. LM์๊ฒ ์ธ๋ฌผ ์๊ฐ(biography)๋ฅผ ์์ฑํ๋๋ก ์์ฒญํ๊ณ , Wikipedia๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฌ์ค์ฑ์ ๊ฒ์ฆํ๋ค.
๐ค ์ biography์ธ๊ฐ?
- ์ฌ์ค์ ์ด๊ณ ๊ฐ๊ด์ ์ด๋ค.
- ๋ค์ํ ๊ตญ์ , ์ง์ , ์ธ์ง๋ ์์ค์ ํฌํจํ๋ค.
- Wikipedia๊ฐ ์ถฉ๋ถํ ์์ ์ ์ด๋ฉฐ ์๊ธฐ ์ผ๊ด์ ์ด๋ค.
๋ฐ์ดํฐ ์์ง ์ ์ฐจ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Step 0 : ์ธ๋ฌผ ์ํฐํฐ ์ํ๋ง
- wikidata์์ Wikipedia ํ์ด์ง๊ฐ ์กด์ฌํ๋ 183๋ช ์ํ๋ง
- Appendix A.1 ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ์ ๋ฐ๋ผ ๊ท ๋ฑ ์ํ
- Step 1 : LM์ ํ๋กฌํํธ ์ ๋ ฅ
ํ๋กฌํํธ:"Tell me a bio of <entitiy>"
โ ๋ต๋ณ ํํผ(abstain) ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ท์น๋ ์ ์ฉ
- Step 2 : Atomic fact ์์ฑ
- ์ฌ๋ annotator๊ฐ LM ์์ฑ๋ฌผ(y)์ atomic fact ๋ชฉ๋ก์ผ๋ก ๋ถํด
- ์๊ฐ ์ ์ฝ์ ์ํด InstructGPT๊ฐ ๋ถํดํ ์ด์์ ์ ๊ณตํ๊ณ ์ฌ๋์ ์ด๋ฅผ ๋ณด์
- ๊ฐ atomic fact์ ๋ํด ๋ค์ 3๊ฐ ๋ผ๋ฒจ๋ง ์ค ํ๋๋ฅผ ๋ถ์ฌ:
- Supported: Wikipedia์์ ์ง์ง๋จ
- Not-supported: Wikipedia์์ ์ง์ง๋์ง ์์
- Irrelevant: ํ๋กฌํํธ์ ๋ฌด๊ดํ์ฌ ๊ฒ์ฆ ๋์์์ ์ ์ธํด์ผ ํจ

์ฃผ์ ๋ถ์ ํฌ์ธํธ
- ๋ชจ๋ LM์ด ์ฌ์ค ์ค๋ฅ๋ฅผ ๋ง์ด ํฌํจํ๋ค.
โ ์ต์ ์์ฉ LM์กฐ์ฐจ FACTSCORE๊ฐ 42~71% ์์ค์ ๊ทธ์นจ- PerplexitiyAI๋ ์๋ฒฝํ์ง ์์
โ ๊ฒ์ ๊ธฐ๋ฐ์ด์ง๋ง Wikipdia ๋ด์ฉ์ ๊ทธ๋๋ก ๋ณต์ฌํ์ง ์์ผ๋ฉฐ, ๊ฒ์ ๊ฒฐ๊ณผ ์ค๋ฅ๋ฅผ ๊ทธ๋๋ก ๋ฐ์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.- ๋ต๋ณ ํํผ(abstain) ๋น์จ
โ ChatGPT & PerplexityAI๋ ๋ต๋ณ ํํผ ์ ๋ต์ ์ฌ์ฉํด precision ์์นํ์ง๋ง InstructGPT๋ ๊ฑฐ์ ํํผํ์ง ์์- ๋น๊ด๋ จ(Irrelevant) fact ๋น์จ
โ PerplexityAI๋ ๊ฒ์ ์ค๋ฅ ๋๋ฌธ์ irrelevant fact๊ฐ ๋ง๊ณ ChatGPT/InstructGPT๋ ๊ฑฐ์ ์์- ํฌ๊ทํ ์ธ๋ฌผ์ผ์๋ก FACTSCORE ๊ธ๊ฐ
โ ๋ชจ๋ LM์์ ๋์ผํ ํจํด์ ๋ณด์๊ณ , ChatGPT๋ ์ธ๋ฌผ rarity ์ฆ๊ฐ ์ FACTSCORE๊ฐ 80% โ 16%๋ก ํญ๋ฝํ๋ค. PerplexityAI ์ญ์ ๊ฒ์ ๊ธฐ๋ฐ์์๋ ํฐ ํญ ๊ฐ์ํ๋ค.- ์์ฑ ํ๋ฐ๋ถ์ผ์๋ก ์ค๋ฅ ์ฆ๊ฐ
โ LM ์์ฑ ๊ณผ์ ์ ์ค๋ฅ ์ ํ(error propagation) ํ์, ํ์ต ๋ฐ์ดํฐ์ ๋ง์ด ๋ฑ์ฅํ๋ ์ ๋ณด๋ ์๋ถ๋ถ์ ๋์ค๊ธฐ ๋๋ฌธ์ ์ด๋ฐ์ ์๋์ ์ผ๋ก ์ ํ
PerplexityAI์ Not-supported ์ค๋ฅ ์ ํ ๋ถ์๋ ์งํํด๋ณด์๋ค.

์ฌ๋์ด ์ํํ๋ ์ฌ์ค์ฑ(factual precision) ํ๊ฐ๋ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค(ํ ์์ฑ๋น 4๋ฌ๋ฌ). ์ด๋ ๊ฑฐ๋ํ ์ง์์์ ๊ธฐ๋ฐ์ผ๋ก atomic fact ํ๋ํ๋๋ฅผ ๊ฒ์ฆํด์ผ ํ๊ณ , ํ ๋ฒ์ ์์ฑ๋ฌผ์ด ํ๊ท 26~41 ๊ฐ์ atomic fact๋ฅผ ํฌํจํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋ฌํ ํน์ฑ ๋๋ฌธ์ LM ๊ฐ๋ฐ์๋ ์ค๋ฌด์๋ ์๋ก์ด ์ ์ฅ๋ฌธ ์์ฑ ์ฌ์ค์ฑ์ ๋๊ท๋ชจ๋ก ํ๊ฐํ๊ธฐ ์ด๋ ต๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ FACTSCORE๋ฅผ ์๋์ผ๋ก ์ถ์ ํ๋ ๋ชจ๋ธ์ ์ ์ํ๋ค. ์ด ์ถ์ ๊ธฐ๋ LM ์์ฑ๋ฌผ๋ค์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ FACTSCORE๋ฅผ ์๋ ๊ณ์ฐํ๋ฉฐ, ์ด๋ค ์๋ ์ ์ฉํ ์ ์๋ค.
๋ณธ ์ฅ์์๋ ๋ชจ๋ธ ๊ตฌ์กฐ, ์ธ๊ฐ ํ๊ฐ ๋๋น ์ถ์ ์ ํ๋, ๊ทธ๋ฆฌ๊ณ ์ด ๋ฐฉ๋ฒ์ ํตํด 12๊ฐ์ ์๋ก์ด LM์ ํ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃฌ๋ค.
์ ์์ FACTSCORE ์ถ์ ๊ธฐ๋ ๋จผ์ ์์ฑ๋ฌผ์ atomic fact ๋จ์๋ก ๋ถํดํ ๋ค, ๊ฐ atomic fact๋ฅผ ์ง์์๊ณผ ๋์กฐํด ๊ฒ์ฆํ๋ค.
์ ์๋ ์์์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ฒ๋ผ InstructGPT๊ฐ ์์ฑํ atomic fact๋ฅผ ํ์ฉํ๋ ๊ฒ์ด ์ฌ๋๊ณผ ๋งค์ฐ ์ ์ฌํ๋ฉฐ ๊ธฐ์กด ์ฐ๊ตฌ์๋ ์ผ์นํจ์ ๋ฐ๊ฒฌํ๋ค.
๋ฐ๋ผ์ ์ด ์ ์์๋ ์ด๋ป๊ฒ atomic fact๋ฅผ ์ง์์๊ณผ ๋น๊ตํด ๊ฒ์ฆํ๋๊ฐ์ ์ด์ ์ ๋๋ค.
๐ Zero-shot ๋ฐฉ์์ LMEVAL
์ ์๋ ํ๊ฐ ๋ชจ๋ธ์ LMEVAL์ด๋ผ ๋ถ๋ฅด๊ณ , ํ๊ฐ ๋์ ๋ชจ๋ธ ๊ณผ ๊ตฌ๋ถํ๋ค.
<๋ค ๊ฐ์ง ์ถ์ ๊ธฐ(Estimator) ๋ณํ>
<atomic-fact> True or False?prompt = (๊ฒ์๋ ๋ฌธ์๋ค) + (atomic fact) + โTrue or False?โํ๊ฐ์งํ(Metrics)
์ฐธ๊ณ ๋ฐ์ดํฐ๋ ์์ human-annoted ๋ฐ์ดํฐ

์ฃผ์ ๊ฒฐ๊ณผ ํด์
- Retrieval์ด ๋งค์ฐ ํฐ ํจ๊ณผ๋ฅผ ๋
Retrieval ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ No-context LM๋ณด๋ค ์๋ฑํ ๋ฎ์ ER์ ๋ณด์ธ๋ค.
โ ์ด๋ LMEVAL์ด ๋ชจ๋ ์ฌ์ค์ ์๊ธฐํ๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์, ๊ฒ์ ๊ธฐ๋ฐ ๋ฌธ๋งฅ ์ ๊ณต์ด ์ฌ์ค ํ๋จ์ ํ์์ ์์ ์๋ฏธํ๋ค.
- RetrieveโLM ๋จ๋ ์ฌ์ฉ์ ์ข ์ข FACTSCORE๋ฅผ ๊ณผ๋ํ๊ฐํจ
ํนํ InstructGPT ๋๋ ChatGPT๊ฐ ์ผ ๋ Inst-LLAMA ๊ธฐ์ค ์ต๋ 17% ๊ณผ๋ ์ถ์ ํ๋ค.
Retrieval + NP ์์๋ธ์ด ์ด๋ฐ ์ค์ฐจ๋ฅผ ํฌ๊ฒ ์ค์ธ๋ค.
- ChatGPT๊ฐ ํญ์ ์ต๊ณ ์ LMEVAL์ ์๋
ChatGPT๋ ๊ฐ๋ณ atomic fact ํ๋จ์ ๋ฐ์ด๋์ง๋ง Supported๋ฅผ ๊ณผํ๊ฒ ์ฃผ๋ ๊ฒฝํฅ์ด ์์ด FACTSCORE๋ฅผ ๊ณผ๋์ถ์ ํ์ง๋ง, Inst-LLAMA + NP๋ ๊ณผ๋/๊ณผ์ ๋ชจ๋ ๊ท ํ์ โ ์ด FACTSCORE๋ ๋ ์ ํ
- ์ต์ ์ ์ถ์ ๊ธฐ๋ ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค.
- InstructGPT - LLAMA + NP
- ChatGPT - LLAMA + NP
- PerplexityAI - ChatGPT
์ด์ ์ด ์๋ ์ถ์ ๊ธฐ๋ฅผ ํ์ฉํ๋ฉด ์ฌ๋ ๊ฐ์ ์์ด๋ ๋ง์ LMs๋ฅผ ๋๊ท๋ชจ๋ก ํ๊ฐํ ์ ์๋ค.
์ ์๋ ๋ ๋ฌ ์ฌ์ด ๋ฑ์ฅํ 10๊ฐ์ ์๋ก์ด LM์ ํ๊ฐํ๋ ์ฌ๋ก ์ฐ๊ตฌ(case study)๋ฅผ ์ํํ๋ค.

Setup
ํ๊ฐ ๋์ ๋ชจ๋ธ ๋ชฉ๋ก:
- GPT-4
- Alpaca (7B, 13B, 65B)
- Vicuna (7B, 13B)
- Dolly
- Oasst-pythia
- StableLM-tuned-alpha
- MPT Chat
- ๊ธฐ์กด 3๊ฐ(InstructGPT, ChatGPT, PerplexityAI)
- ์ฌ๋ DBPedia์ biography
โ ์ด 13๊ฐ์ โsubjectโ ํ๊ฐ.
๐ ํ๊ฐ ๋ฐฉ์
์ด 6,500๊ฐ ์์ฑ๋ฌผ์ ํ๊ฐํ๋ค. ์ฆ, ์ฌ๋์ด ํ์ผ๋ฉด ์ฝ 26,000๋ฌ๋ฌ ํ์ํ์ ์์ ์ด๋ค.
Results

๋ estimator(LLAMA + NP / ChatGPT(with Retrieve โ LM) ๋ชจ๋ ๋์ ์๊ด์ ๋ณด์ด๋ฉฐ ๋ค์๊ณผ ๊ฐ์ ํต์ฐฐ์ ์ ๊ณตํ๋ค.
์ ์๋ FACTSCORE๋ฅผ ์๊ฐํ์๋ค. FACTSCORE๋ LMs๊ฐ ์์ฑํ ์ฅ๋ฌธ ํ ์คํธ๋ฅผ ์ผ๋ จ์ atomic fact๋ก ๋ถํดํ๊ณ , ์ฃผ์ด์ง ์ง์์์ ์ํด ๋ท๋ฐ์นจ๋๋ ์ฌ์ค์ ๋น์จ์ ๊ณ์ฐํจ์ผ๋ก์จ ์ฅ๋ฌธ ์์ฑ์ ์ฌ์ค ์ ๋ฐ๋๋ฅผ ํ๊ฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ด๋ค.
๋จผ์ ๊ด๋ฒ์ํ ์ธ๊ฐ ํ๊ฐ๋ฅผ ์ํํ์ฌ, ์ต์ ์์ฉ LMs(InstructGPT, ChatGPT, ๊ฒ์ ์์ง์ ๊ฒฐํฉํ PerplexityAI)์ด ์๋นํ ์์ ์ค๋ฅ๋ฅผ ํฌํจํ๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ๋ค.
๊ทธ๋ฌ๋ ์ธ๊ฐ ํ๊ฐ์๋ ๋ง์ ๋น์ฉ๊ณผ ์๋ชจ๋์๊ธฐ ๋๋ฌธ์, ์ ์๋ FACTSCORE๋ฅผ ์๋์ผ๋ก ์ถ์ ํ ์ ์๋ ๋ชจ๋ธ์ ์ ์ํ๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ค์์ ์ ์ํ๋ค.
- FACTSCORE์ ์ ์ฉ ๋ฒ์
๋ชจ๋ ์คํ์ ์ฌ๋์ ์ ๊ธฐ(biography)์ Wikipedia๋ฅผ ์ค์ฌ์ผ๋ก ์งํ๋์๋ค.
โ ๊ทธ๋ฌ๋ FACTSCORE๋ ๋ ๋์ ์์ญ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค. (ex. ์ต์ ์ฌ๊ฑด์ ๋ค๋ฃฌ ํ ์คํธ, ๊ณผํ์ ๋ฐ๊ฒฌ์ ๋ค๋ฃฌ ํ ์คํธ)
๋ค๋ง, ์ฌ์ค์ด ๋ชจํธํ๊ฑฐ๋ ์ฃผ๊ด์ ์ด๊ฑฐ๋ ๋ ผ์์ ์ฌ์ง๊ฐ ์๋ ๊ฒฝ์ฐ, ์ง์์ ์์ฒด๊ฐ ์ํธ ๋ชจ์๋ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ฒฝ์ฐ FACTSCORE๊ฐ ์ ์ฉ๋์ง ์๋ ๊ฒฝ์ฐ๋ ์๋ค.
๋ํ FACTSCORE๋ ์๋์ (๋๋ ์๋ฌต์ ) ๊ธฐ๋ง, ๋์์ค, ๋ฏธ๋ฌํ ์ธ์ด์ ํํ์ด ํฌํจ๋ ์ธ๊ฐ ์์ฑ ํ ์คํธ์๋ ์ ํฉํ์ง ์๋ค.
- Estimator์ ํ๊ณ
ํด๋น ์คํ์ ์ถ์ ๊ธฐ๋ ์ธ๊ฐ๊ณผ ๋งค์ฐ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ณ , LMs ๊ฐ์ ์์๋ฅผ ์ผ๊ด๋๊ฒ ์ ์งํ์ง๋ง ๊ฐ๋ณ fact ์์ค์์๋ ์๋ฒฝํ์ง ์๋ค.
โ ๊ฐ์ฅ ์ข์ estimator ์กฐํฉ์ ์์ฑ๋ฌผ์ด ์ธ๊ฐ ์์ฑ๋ฌธ๊ณผ ์ผ๋ง๋ ์ ์ฌํ์ง, ์ธ์ด์ ๋ณต์ก์ฑ์ด ์ด๋ ์ ๋์ธ์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์๋ค.
ํฅํ ์ฐ๊ตฌ๋ ์์ฑ๋ฌผ์ ๋ถํฌ๊ฐ estimator ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ๋ถ์ํ๊ณ , estimator์ ์ ๊ตํจ์ ๋ ๋์ด๋ ๋ฐ ์ด์ ์ ๋ ์ ์๋ค.
- FACTSCORE์ ๋ฒ์
FACTSCORE๋ ์ด๋๊น์ง๋ precision ์ค์ฌ์ ์ฌ์ค์ฑ ํ๊ฐ ์งํ๋ค. ์ฆ, ์์ฑ๋ฌผ์ ๊ฐ ์ ๋ณด๊ฐ ์ง์์์ ์ํด ๋ท๋ฐ์นจ๋๋์ง๋ง ํ๊ฐํ๋ค.
โ ํ์ง๋ง Factual Recall(๋ชจ๋ธ์ด ๋๋ฌด ์์ฃผ ๋ต๋ณ์ ํํผํ๊ฑฐ๋ ๋งค์ฐ ์ ์ ์์ ์ ๋ณด ์์ฑ)์ ๊ฒฝ์ฐ FACTSCORE๊ฐ ๋๊ฒ ๋์ฌ ์ ์์ผ๋ฉฐ, ํ ์คํธ์ ํฌํจ๋ ์ฌ์ค์ด ๋ชจ๋ true๋ผ๋, ์ ๋ ฅ ํ๋กฌํํธ์ ์ ์ ํ ๋ตํ๊ธฐ ์ํด ๋ฐ๋์ ํฌํจ๋์ด์ผ ํ ํต์ฌ ์ ๋ณด๊ฐ ๋น ์ ธ ์์ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ด Precision๊ณผ recall์ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํด์ง๋ ๊ฒฝ์ฐ๊ฐ ์๋ค.
ํฅํ ์ฐ๊ตฌ์์๋ FACTSCORE์ ํจ๊ป abstention ๋น์จ(%), ์์ฑ๋ atomic fact ํ๊ท ๊ฐ์๋ฅผ ํจ๊ป ๋ณด๊ณ ํ๋ ๊ฒ์ ๊ถ๊ณ ํ๋ค.
- LLM์ ์ฅ๋ฌธ ์์ฑ ๋ฅ๋ ฅ์ ๋จ์ํ "์ ํํ๋ค/ํ๋ ธ๋ค"๋ก ํ๊ฐํ๋ ๊ธฐ์กด ๋ฐฉ์์์ ๋ฒ์ด๋, ํ ์คํธ๋ฅผ atomic fact ๋จ์๋ก ๋ถํดํ์ฌ ๊ฐ ์ ๋ณด ์กฐ๊ฐ์ ์ฌ์ค์ฑ์ ๊ฐ๋ณ์ ์ผ๋ก ๊ฒ์ฆํ๋ค๋ ์ ์์ ์ฐ๋ฆฌ๊ฐ ํ๋ ค๋ ์ฐ๊ตฌ์ ๊ต์ฅํ ๋ง์ด ๋ง๋ฟ์ ์๋ค๊ณ ๋๊ผ๋ค.
- ๋ํ ์ด๋ฌํ ์์ด๋์ด๋ฅผ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ๊ธฐ ์ํด, ์ค์ ๋ก ์๋ฐฑ ๊ฐ์ ์ ๊ธฐ ์์ฑ๋ฌผ์ ์ฌ๋์ด ์ง์ Wikipedia์ ๋์กฐํด ๋ผ๋ฒจ๋งํ๋ค๋ ์ ์ด ์ ๊ธฐํ๊ณ , ํด๋น ์ฐ๊ตฌ์ ๋ง์ ์ธ๋ ฅ๊ณผ ์๊ฐ, ๋น์ฉ์ด ๋ค์์ ๊ฒ ๊ฐ๋ค.