Can Large Language Model Agents Simulate Human Trust Behavior?
https://arxiv.org/pdf/2402.04559
abstract
LLM이 인간과 유사한 인지 능력을 갖추었다는 가정 하에 여러 연구가 진행되지만, 그 가정은 충분히 검증되지 않았다.
- LLM 에이전트가 실제로 인간의 행동을 시뮬레이션할 수 있는가?
- 이 논문에서는 인간 상호작용에서 중요한 요소인 신뢰에 초점
- LLM 에이전트가 일반적으로 신뢰행동(agent trust)을 보인다는 사실 발견
- GPT-4 에이전트가 신뢰 행동 측면에서 인간과 높은 행동적 일치를 보임
- LLM 에이전트의 신뢰 편향과 다른 LLM 에이전트 및 인간을 향한 신뢰의 차이
- 외부적 조작/고급 추론 전략과 같은 조건에서 LLM 에이전트 신뢰의 내재적 특성 조사
- LLM과 인간 간의 근본적인 유사성에 대한 새로운 통찰력 제공
BDI(Believe-Desire-Intention) 프레임워크
Trust Game

Dictator Game
: Trust Game과 동일하지만, 신뢰받는 사람이 돈을 돌려줄 수 없다는 것이 유일한 차이점이다. 즉, 보상 기대 효과가 존재하지 않는 게임이다.
Does Agent Trust Align with Human Test?
신뢰 행동이란
- 타인에 대한 긍정적인 기대를 기반으로 자신의 이익을 위험에 처하게 하는 의도를 포함한다.
- 주요 요소로는 보상 기대, 위험 인식, 이타적 성향 등이 있다.
- BDI 프레임워크를 활용하여 LLM 에이전트의 추론 과정을 해석
결과
- GPT-4 에이전트는 인간과 높은 행동적 일치도를 보임
- 파라미터가 적은 LLM 에이전트는 상대적으로 낮은 일치도

1) 보상기대
인간
- Trust Game 평균 $6
- Dictator Game 평균 $3.6
- p-value 0.01, 즉, 보상 기대가 인간의 신뢰 행동을 증가시킨다
GPT-4
- Trust Game 평균 $6.9
- Dictator Game 평균 $6.3
- p-value 0.05, 즉, 보상 기대가 지피티의 신뢰 행동을 증가시킨다 (인간과 동일)
- 독재 게임에서는 인간보다 보내는 금액의 평균이 높다. 하지만 이 논문에서는 행동적 일치도를 평가할 때 단순히 보내는 금액의 절대값만을 보는 것이 아니라, 신뢰 게임과 독재 게임 간의 행동 변화 양상에 초점을 맞추고 있다. 즉 상대적으로 적은 쪽으로 변화했으니 ㅇㅋ!!
- 지피티는 게임의 맥락에 맞는 합리적인 추론 과정을 통해 행동하고 있다.
- 파라미터가 적은 LLM (ex. Llama2-13b)은 Trust Game, Dictator Game에서 차이를 보이지 않았다. 즉, 보상 기대를 인식하지 못한다는걸 의미한다.
=> GPT-4: 인간과 행동적 일치도
=> 모델의 복잡성이 신뢰 행동의 표현에 영향을 미친다.
2) 위험 인식

gpt4: 역시 행동적 일치, 인간의 그래프와 가장 유사
BDI를 분석하여 추론 과정에서 위험을 인식할 수 있는지 탐구한 결과, 높은 위험/낮은 위험 상황에서 위험 변화를 인식하고 있음이 드러남
파라미터가 적은 llm은 x
3) 이타적 성향

인간
- 다른 사람을 신뢰 54%
- 순수 확률을 신뢰 29%
gpt-4
- 다른 사람을 신뢰 72%
- 순수 확률을 신뢰 21%
Vicuna-13b는 이타적 성향을 보이지 않음
Probing Intrinsic Properties of Agent Trust
네 가지 시나리오에서 에이전트 신뢰의 내재적 특성을 탐구
- 상대방의 인구 통계 정보가 에이전트 신뢰에 미치는 영향

여성에게 더 높은 신뢰를 보임 (편향)
- 상대방이 다른 LLM 에이전트일 때와 인간일 때의 신뢰 차이
다른 LLM 에이전트보다 인간을 더 신뢰하는 경향
- "상대방을 신뢰해야 한다", "신뢰하면 안 된다"와 같은 명시적 지시를 통한 신뢰 조작
에이전트의 신뢰는 강화하기보다는 약화시키기 더 쉽다
- LLM 에이전트의 추론 전략을 직접적 추론에서 제로샷 연쇄사고(Zero-shot CoT)로 변경
고급 추론 전략에 따라 신뢰 행동이 영향을 받는다, 하지만 추가 연구 필요
일부 LLM 에이전트는 보내는 금액에 큰 변화를 보였지만 GPT-4와 같은 고급 모델은 제한적인 변화(0.02)만 보였기 때문