[논문 리뷰]Player-Driven Emergence in LLM-Driven GAme Narrative

서다연·2025년 7월 8일
post-thumbnail

2024 IEEE Confernece on Games

서론

선행 연구

  • 스크립트 기반 게임 narrative: 사전에 정해진 이야기 구조를 따른다.
  • 규칙 기반 시뮬레이션 narrative: 규칙과 제약을 설정하여 플레이어의 선택에 따라 변화한다.
  • ML/AI 기반 narrative 생성: LLM을 활용하여 문맥에 맞는 텍스트를 생성한다.

선행 연구의 한계

  • 구조가 정해져 있기 때문에 유연성이 부족하다. 따라서 플레이어의 예쌍치 못한 행동을 반영하기 어렵고, emergent narraitve를 생성하기가 어렵다.
  • 특히, NPC가 수작업으로 코딩되기 때문에 플레이어가 NPC와 상호작용을 할 때 플레이어에게 주어지는 선택지가 매우 제한적이다.
  • LLM 기반 narrative 생성에서 인간의 개입이 없을 경우에 생성된 이야기들이 제한적인 패턴으로 수렴할 가능성이 크다.

선행 연구의 한계 해결 방법

  • LLM을 활용하여 플레이어의 행동을 동적으로 반영하는 비결정론적인 narrative 생성 시스템을 제안한다.
  • LLM 기반 narrative 생성에서 인간의 개입이 없을 경우의 문제점을 해결하기 위하여, 플레이어가 직접 narrative 생성 과정에 참여하도록 하는 방법을 제안한다.
  • 텍스트로 진행되는 어드벤처 게임인 Dejaboom!을 개발하였다.

제안한 방법

  • 플레이어의 행동을 실시간으로 반영하여 동적으로 스토리를 생성할 수 있따는 것을 검증하고자 한다.
  • 기존 narrative 생성 시스템은 사전 정의된 스토리를 기반으로 진행되지만, 이 논문에서 제안하는 모델은 플레이어의 행동을 반영하여 스토리라인을 즉각적으로 변화할 수 있다. -> emergent narrative를 가능하게 하며, 게임 경험을 향상시킬 수 있다.

실험 설계

Dejaboom! 게임 설명

  • 이 게임에서 플레이어는 폭발 사고가 발생하는 하루를 반복해서 경험한다. 폭탄을 찾아서 해체하는 것이 목표다. NPC와 상호작용하여 1) 폭탄의 위치를 파악하고 2) 폭탄 해체 키트를ㄹ 획득해야 한다.

  • 게임은 TextWorld(텍스트 어드벤처 게임을 위한 오픈 소스 엔진)를 기반으로 구현되었으며 GPT-4를 이용하여 NPC와 자유로운 대화가 가능하도록 하였다.

  • 마을에는 여러 장소가 존재하고, 5명의 NPC가 배치되어 있다. NPC는 개별적인 배경 스토리, 성격, 목표, 특정 조건을 가지고 있다.

  • 플레이어 로그를 분석하여 창의적으로 추가된 narrative 요소를 식별하는 과정을 수행하였다. GPT-4를 활용하여 게임 로그를 narrative graph로 변환한다.

  • narrative graph는 DAG다. node는 플레이어가 특정 시점에서 사용한 전략, edge는 게임 내에서의 시간적 진행이다.

  • narrative graph를 생성하는 과정은 1) 플레이어 로그를 압축(day 단위로), 2) 요약된 전략을 그래프로 변환(각 day마다 graph 생성), 3) graph 병합 -> 이 과정을 통하여 하나의 플레이어에 대한 단일 그래프를 완성한다.

게임 내에서 LLM이 수행하는 역할에 관하여

  • 플레이어가 입력한 텍스트를 GPT-4가 분석하여 action인지 words인지 판별한다.
  • action인 경우 GPT-4가 동사-목적어 형식으로 변환한다. (게임 엔진이 이해할 수 있게 하기 위함이다.)
  • words인 경우, 해당 위치에 NPC가 있으면 GPT-4가 적절한 NPC 응답을 생성한다. NPC가 없으면 일반적인 게임 피드백이 출력된다.
  • 토큰 제한을 초과할 경우, 게임 히스토리를 요약하는 과정을 수행해서 프롬프트를 줄인다.

대조군과 실험군

  • 대조군: 게임 디자이너가 의도한 Gold-standard -> 사전에 설정된 이야기 구조를 따른다.

  • 실험군: LLM을 활용한 플레이어 주도형 narrative 시스템 -> LLM이 실시간으로 새로운 스토리를 생성한다.

  • 선행 연구의 문제점들은 예측하지 못한 상황에 동적으로 반응할 수 없었떤 것이다. 따라서, 상황을 예측해두고 그 외의 상황에 반응할 수 있는지 분석하는 방법은 적절하다고 생각한다.

  • 하지만, LLM의 성능, 프롬프트, 플레이어가 얼마나 예측하지 못하는 행동을 많이 하였는지가 실험에 영향을 크게 미칠 수 있다고 생각한다.

평가 지표

  • Gold-standard와 플레이어의 narrative graph를 비교한다. 파란색이 gold-standard고, 초록색이 플레이어가 게임을 진행하면서 생성하게 된 노드다.
  • 플레이어 인터뷰를 진행한다.

결과

선행 연구의 한계가 해결 되었는가?

  • 논문에서 제안한 게임과 같은 단기적이고 수행할 수 있는 행동이 적은 상황에서는 해당 방법을 적용할 수 있지만, 장기적인 플레이에는 어려움이 있을 수 있다고 생각한다.
  • 또한, 선행 연구와의 비교가 제대로 수행되지 않았다고 생각한다.
  • 플레이어의 몰입도에 관한 평가와 분석이 얕았다고 생각한다.

개선 방향

  • LLM이 생성하는 narrative의 품질을 정량적으로 측정할 수 있었어야 한다고 생각한다.
  • 이 논문에서 제안하는 게임은 장기적인 게임 플레이에 적용 가능하지 않다고 생각한다.
  • 모델을 GPT-4 한 개만 이용했기 때문에 비교가 부족하다고 생각한다.
profile
파워벨로거(희망자)입니다.

0개의 댓글