[LLM Agent] Can Large Language Model Agents Simulate Human Trust Behavior?

ese2o·2025년 2월 20일

Can Large Language Model Agents Simulate Human Trust Behavior?
https://arxiv.org/pdf/2402.04559

LLM이 인간과 유사한 인지 능력을 갖추었다는 가정 하에 여러 연구가 진행되지만, 그 가정은 충분히 검증되지 않았다.

LLM 에이전트가 실제로 인간의 행동을 시뮬레이션할 수 있는가?
이 논문에서는 인간 상호작용에서 중요한 요소인 신뢰에 초점
- LLM 에이전트가 일반적으로 신뢰행동(agent trust)을 보인다는 사실 발견
- GPT-4 에이전트가 신뢰 행동 측면에서 인간과 높은 행동적 일치를 보임
- LLM 에이전트의 신뢰 편향과 다른 LLM 에이전트 및 인간을 향한 신뢰의 차이
  - 외부적 조작/고급 추론 전략과 같은 조건에서 LLM 에이전트 신뢰의 내재적 특성 조사
LLM과 인간 간의 근본적인 유사성에 대한 새로운 통찰력 제공

Trust Game

Dictator Game
: Trust Game과 동일하지만, 신뢰받는 사람이 돈을 돌려줄 수 없다는 것이 유일한 차이점이다. 즉, 보상 기대 효과가 존재하지 않는 게임이다.

신뢰 행동이란

결과

1) 보상기대
인간

GPT-4

Trust Game 평균 $6.9
Dictator Game 평균 $6.3
p-value 0.05, 즉, 보상 기대가 지피티의 신뢰 행동을 증가시킨다 (인간과 동일)
독재 게임에서는 인간보다 보내는 금액의 평균이 높다. 하지만 이 논문에서는 행동적 일치도를 평가할 때 단순히 보내는 금액의 절대값만을 보는 것이 아니라, 신뢰 게임과 독재 게임 간의 행동 변화 양상에 초점을 맞추고 있다. 즉 상대적으로 적은 쪽으로 변화했으니 ㅇㅋ!!
지피티는 게임의 맥락에 맞는 합리적인 추론 과정을 통해 행동하고 있다.
파라미터가 적은 LLM (ex. Llama2-13b)은 Trust Game, Dictator Game에서 차이를 보이지 않았다. 즉, 보상 기대를 인식하지 못한다는걸 의미한다.
=> GPT-4: 인간과 행동적 일치도
=> 모델의 복잡성이 신뢰 행동의 표현에 영향을 미친다.

2) 위험 인식

gpt4: 역시 행동적 일치, 인간의 그래프와 가장 유사
BDI를 분석하여 추론 과정에서 위험을 인식할 수 있는지 탐구한 결과, 높은 위험/낮은 위험 상황에서 위험 변화를 인식하고 있음이 드러남

파라미터가 적은 llm은 x

3) 이타적 성향

인간

gpt-4

Vicuna-13b는 이타적 성향을 보이지 않음

네 가지 시나리오에서 에이전트 신뢰의 내재적 특성을 탐구

상대방의 인구 통계 정보가 에이전트 신뢰에 미치는 영향

여성에게 더 높은 신뢰를 보임 (편향)
상대방이 다른 LLM 에이전트일 때와 인간일 때의 신뢰 차이
다른 LLM 에이전트보다 인간을 더 신뢰하는 경향
"상대방을 신뢰해야 한다", "신뢰하면 안 된다"와 같은 명시적 지시를 통한 신뢰 조작
에이전트의 신뢰는 강화하기보다는 약화시키기 더 쉽다
LLM 에이전트의 추론 전략을 직접적 추론에서 제로샷 연쇄사고(Zero-shot CoT)로 변경
고급 추론 전략에 따라 신뢰 행동이 영향을 받는다, 하지만 추가 연구 필요
일부 LLM 에이전트는 보내는 금액에 큰 변화를 보였지만 GPT-4와 같은 고급 모델은 제한적인 변화(0.02)만 보였기 때문