
2024 EMNLP Main
LLM의 narrative 생성 능력을 영화 데이터를 통해서 정량적으로 분석하고자 한다.
대조군: 인간이 생성한 narrative
실험군: LLM이 생성한 narrative, LLM 모델들끼리도 비교하였다.
LLM은 Gemini Pro, Claude 3 Opus, Llama3, GPT-3.5, GPT-4를 평가하였다.


논문에서는 모델이 개요를 생성할 때 TP3, TP4, TP5를 명시적으로 포함하게 하고, 이 개요를 기반으로 전체 이야기를 생성하게 하면 인간과 비슷한 narrative를 생성하는 것에 도움이 될 것이라고 하였다.
또한, 이야기의 상승과 하락 횟수를 명시적으로 지정하게 하면 좋다고 주장하였다.
인간과 LLM의 비교를 수행한 결과들 중, 절반 정도는 GPT-4의 결과만 이용되었는데, 평가에 사용되는 모든 주석은 GPT-4를 이용해서 달기 떄문에 GPT-4의 성능이 대체로 좋게 측정되었을 수도 있다는 생각이 들었다.
짧은 줄거리를 기준으로 실험이 수행되었기 때문에 긴 이야기에서는 적용하기 어려운 방법일 수도 있다는 생각이 들었다.