[논문리뷰] Can Large Language Model Agents Simulate Human Trust Behavior?

·2025년 1월 7일
0

논문리뷰

목록 보기
2/19

원문 링크 : https://arxiv.org/pdf/2402.04559

킹갓제너럴 뉴립스 2024 논문이다.

Abstract

📢

현재 상황 : LLM agents가 increasingly adoped as simulation tools to model humans in 사회과학 and 롤플레잉 applications.

Question : 그렇다면, LLM agents는 정말로 인간 행동을 모방할 수 있는걸까?

이 논문에서는, 특히 ‘trust’에 집중을 했다!

⇒ Answer 1 : trust 발견

처음으로, 이 논문에서는 LLM agents가 generally trust behavior를 exhibit한다는 것을 밝혀냈다…!

( 특히, GPT-4 agent들이, 인간의 trust 행동을 simulate하는 게 가능)

Answer 2 : trust의 bias, difference

agent의 trust에 bias가 존재하고, trust간에 차이가 존재한다.

Answer 3 : agent의 trust의 속성은 무엇일까? → external manipulations와 advanced reasoning strategy

1. Introduction

📢

현재 상황 : LLM을 인간을 위한 agent-based simulation tools로 사용하고 있다.

( economics, politics, psychology,ecology, and sociology …)

이것의 가정은, llm agent들이 simulation상화에서 사람처럼 행동한다는 것

  1. Can LLM agents really simulate human behavior?
  2. trust?
  • trust의 정의

= which comprises the intention to place self-interest at risk based on the positive expectations of other (Rousseau et al., 1998).

= one of the most critical and elemental behaviors in human interactions and plays an essential role in social settings ranging from daily communication to economic and political institutions (Uslaner, 2000; Coleman, 1994).

  • 방법론
    • 1 ) llm agent들끼리 trust behavior를 보이나?
        방법 : Trust Game + BDI interpretation 
      결론 : llm agents generally exhibit trust behavior in the Trust Game 스크린샷 2025-01-07 13.01.13.png
    • 2 ) agent의 trust behavior와 human의 trust behavior가 유사하니? behavioral alignment : agent와 human 사이에 행동에 영향을 미치는 것 결론 : gpt-4 agents는 high human behavioral alignment with humans , 파라미터가 적은 애들은 lower behavioral alignment
    • 3 ) 그러면 어떤 시나리오에서 trust가 생기지?
      1. demographic :

      2. other player : human vs llm agent

      3. instruction : “you need to trust the other player” vs “you must not trust the other player”

      4. reasoning : direct reasoning vs CoT reasoning

        결론 : demographic에 따라, 그리고 인간을 더 선호하고 , not trust하는 게 더 쉽고, CoT로 영향을 받을 수도 있다.

결국 아주 쉽게 얘기를 해보자면,

Q : agent는 과연 누군가를 믿어야 하는 상황에서 어떻게 대응할까?
A : 각각의 persona를 가진 agent들이 BDI를 근거로 행동!!! (어떻게 believe하고, desire가 이렇고, intention이 이렇다인 BDI를 바탕으로 돈을 줄지 안줄지 행동할 것이다)

(+) 그러면, 그 행동이 인간과 유사할까?
(+) 그러면 그 행동의 속성은 뭔데?

2. LLM Agents in Trust Games

2.1 Trust Games [상황]

trust games이란?

human trust behavior in behavioral economics에서 사용됨.

즉, 행동 경제학에서 human trust behavior를 조사하기 위해 사용된 개념임!

여기에서는 6가지의 trust games가 사용됨.

game 1 : trust game

  • 시작: Trustor가 $10을 받음.
  • 행동: Trustor는 $N을 Trustee에게 보냄. [신뢰행동]
  • 결과: Trustee는 $3N을 받고, 그 중 일부를 다시 Trustor에게 돌려줄 수 있음 (상호 신뢰).

game 2 : dictator game

  • 시작: Trustor가 $10을 받음.
  • 행동: Trustor는 $N을 Trustee에게 보냄.
  • 결과: Trustee는 $3N을 받지만, Trustor에게 돌려줄 수 없음 (상호 신뢰 없음).

game 3 : map trust game (maximum acceptable probabilities)

  • 선택: Trustor가 Trustee를 신뢰할지 결정.
  • 결과:
    • 신뢰하지 않으면: 둘 다 $10 받음.
    • 둘 다 신뢰하면: 둘 다 $15 받음.
    • Trustor가 신뢰하고 Trustee가 신뢰하지 않으면: Trustor는 $8, Trustee는 $22 받음.
  • 확률: Trustee가 신뢰할 확률이 p.

game 4 : risky dictator game

  • 선택: Trustor가 신뢰할지 결정.
  • 결과:
    • 신뢰하면: 확률 p로 둘 다 $15, (1-p)로 Trustor는 $8, Trustee는 $22 받음.
    • 신뢰하지 않으면: 둘 다 $10 받음.

game 5 : lottery game

  • 선택:
    • Lottery People Game: Trustor는 Trustee가 신뢰할 확률 p를 듣고 신뢰할지 고정된 돈을 받을지 결정.
    • Lottery Gamble Game: Trustor는 p의 확률로 이기는 도박을 할지 고정된 돈을 받을지 결정.
  • 확률: p는 46%.

game 6 : repeated trust game

  • 반복: 동일한 Trustor와 Trustee가 여러 번 Trust Game을 반복하여 플레이하며, 매번 $10로 시작.

예시)

trust Game: 돈을 빌려주고 상대방이 돌려줄지 믿어야 하는 상황. 상대가 일부를 돌려줄 수 있음.

Dictator Game: 돈을 그냥 주고 상대방이 돌려줄 수 없는 상황. 결정은 전적으로 당신이 내림.

MAP Trust Game: 서로 신뢰할지 결정해야 하며, 신뢰 여부에 따라 각자 받을 돈이 다름. 상대가 신뢰할 확률(p)에 따라 결정을 내림.

Risky Dictator Game: 상대방의 신뢰 선택 없이, 확률(p)에 따라 돈을 받을지 결정. 신뢰 여부는 오직 확률에 의존.

Lottery Game: 복권처럼, 확률(p)에 따라 이길지 고정된 돈을 받을지 결정. 신뢰와 위험을 직접 비교.

Repeated Trust Game: 동일한 조건에서 여러 번 반복하는 신뢰 게임. 시간이 지나면서 서로의 행동을 학습.

프롬프팅 )

스크린샷 2025-01-07 13.03.11.png

스크린샷 2025-01-07 13.03.30.png

2.2 LLM Agent Setting [agent persona , reasoning]

그러면, 이 실험을 하기 위해서 agent는 어떻게 세팅했는데? 그러면 그 trust game 상황에서 agent가 내리는 그 신뢰할지, 말지의 decision의 reasoning은 어떻게 할건데?

⇒ CAMEL framework 사용!

camel framework란?

  • Agent Persona [ agent 어떻게 세팅? ] 실제 인간 연구의 setting을 반영하기 위해서, llm agetns를 프롬프트에 다양한 페르소나를 가지게 넣었음. ⇒ GPT-4o가 53개의 다양한 페르소나를 물어봤음. 페르소나 예시) 이름, 성, 주소, 나이, background를 다르게 해서 물어봄. 스크린샷 2025-01-07 13.04.19.png
  • Belif-Desire-Intention(BDI) BDI가 language model에 최근에 adopt되었다고 함. LLM agents들이 Belief, Desire, Intentions를 output으로 도출해서 as the reasoning process로!

여기까지는, 세팅 완료다!

상황 : trust game이라는 상황
그걸 위해 하는 일 :
1 ) 다양한 agent persona를 만들었고,
2 ) 각각 agent들이 신뢰하는지 혹은 안 신뢰하는지의 근거를 belif-desire-intention으로 잡을거다!

Do LLM Agents Manifest Trust Behavior?

일단, 그러면, llm agent들이 trust behavior를 보이니?!!

What 행동경제학, trust의 정의?

trust = Trust Game에서, trustor가 trustee에게 주는 최초의 양!

When 언제 신뢰를 보이지?

  1. 보낸 amount가 positive이고, 원래 가지고 있던 돈을 넘지 않을때 !!!

    ( 이 말인 즉슨, trustor입장에서 trustee가 어느정도 돌려줄거라고 믿고 있기 때문)

  2. BDI reasoning process로 인해 설명이 가능할 때!

    ( 이 말인 즉슨, random하게 돈을 보낸 게 아니라 어느정도의 decision-making process로 인해 trust를 하고, 그리고 그 trust에 따라 어느정도의 돈을 줄지의 behavior를 했기 때문!)

⇒ 보낸 amount / BDI 라는 기준으로 과연 trust behavior라고 할 수 있는지 점검해보겠다.

3.1 Amount Sent

When 언제 신뢰를 보이지?

VRR = the percentage of personas with the amount sent falling within the initial money ($10)

스크린샷 2025-01-07 13.50.27.png

(ex. gpt-4는 5달러를 가장 많이 보낸 것으로 나타남 . x표시가 VRR을 나타낸다)

⇒ 거의 모든 llm모델이, 10달러가 넘지 않게 양수로 돈을 보내기로 선택했다는 말이다!

3.2 Belif-Desire-Intention(BDI)

단순히 10달러가 넘지 않게 양수로 돈을 보내기로 선택한 것만으로는 사실 trust를 했다고 믿기는 힘드니까,

BDI framework를 활용했다.

스크린샷 2025-01-07 13.58.25.png

결론은, llm agents들이 일반적으로 trust game이라는 상황에서 trust behavior를 한다는 것!!!

Does Agent Trust align with Human Trust?

그러면, agent가 가진 그 trust가 인간의 trust랑 유사하니?

  1. behavioral alignments라는 개념 제시
  2. llm agents들이 alignment를 하니? 실제로?

4.1 Behavioral Alignment

이 논문에서, 새로운 behavioral alginment라는 개념을 제시한다.

what behavioral alginment가 뭔데?

behaviroal alignment = the analogy between LLMs and humans concerning factors impacting behavior

= LLMs와 인간의 행동 및 그 행동을 이끄는 이유를 비교하는 것

what 그럼 human들에게 trust를 이끌어내는 요인들은 뭔데?

factor 1 . 상호성이 기대되는지(상대가 나에게도 잘해줄 것이라고 기대하는 것),

factor 2. 위험을 어떻게 인식하는지,

factor 3.이타적인 성향이 있는지.

⇒ 요걸 기준으로, 인간의 신뢰행동과 llm agent의 신뢰 행동을 비교해볼거다!

4.2 Behavioral Factor 1 : Reciprocity Anticipation

  • Reciprocity Anticipation의 역할:
    인간 -
    Trust Game(신뢰 게임)에서는 상대방이 돈을 돌려줄 수 있기 때문에 더 많은 돈을 보냄
    Dictator Game(독재자 게임)에서는 돈을 돌려받을 수 없기 때문에 적게 보냄
    Trust Game이 상대방의 보답을 기대하게 만들기 때문이겠지! )
  • LLM의 행동 비교:
    • 인간 연구 - Trust Game에서 평균적으로 더 많은 돈을 보냄 ($6.0 vs. $3.6).
    • GPT-4 - 인간처럼 Trust Game에서 더 많은 돈을 보내는 경향을 보입니다($6.9 vs. $6.3).
    • 그러나 파라미터가 적은 LLMs(Llama2-13b 등)는 이러한 경향을 보이지 않음…(무섭다.) 스크린샷 2025-01-07 16.58.58.png
  • BDI 분석:
    • BDI(신념, 욕구, 의도)를 통해 LLM의 사고 과정을 분석한 결과,
      GPT-4
      Trust Game에서는 "다른 사람에 대한 신뢰"를 강조하지만,
      Dictator Game에서는 "공정성"과 "인간의 친절함"을 강조
      ![스크린샷 2025-01-07 16.59.52.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/1b3046c7-d319-4217-906f-41923c1c1242/590201d1-0ab6-4d3e-bcca-ccb8d5dee2b2/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA_2025-01-07_16.59.52.png)

4.3 Behavioral Factor 2 : Risk Perception

  • 위험 인식과 신뢰 행동의 관계:
    인간 - 위험이 낮아질수록(확률 p가 높아질수록) 인간은 더 많은 신뢰를 보이며, 신뢰율(Trust Rate)이 증가.
    위험이 낮을수록 사람들이 신뢰하기 더 쉽다!
  • LLM의 신뢰 행동 분석:
    • MAP Trust Game과 Risky Dictator Game을 통해 LLM의 신뢰 행동을 관찰함
    • LLM - 위험이 낮아질수록 신뢰율이 증가하는 경향을 보여주며, 특히 GPT-4는 인간과 가장 유사한 패턴을 보임
    • 그러나 파라미터가 적은 LLMs(Vicuna-13b 등)은 위험이 감소할 때 신뢰율이 뚜렷하게 증가하지 않는 경향을 보임 스크린샷 2025-01-07 17.01.26.png
  • BDI 분석:
    • GPT-4의 BDI 분석에서, 위험이 높을 때(p = 0.1), 신중한 태도를 나타내며, 위험이 낮을 때(p = 0.9), 위험을 인지하면서도 신뢰를 구축하려는 전략을 씀. 스크린샷 2025-01-07 17.05.39.png

4.4 Behavioral Factor 3 : Prosocial Preference

  • 사회적 선호의 정의:
    • 친사회적 선호란, 사람들이 사회적 상호작용에서 다른 사람들을 신뢰하는 경향 이는 사람들이 순수한 확률에 의존하기보다, 다른 사람들과의 관계에서 더 신뢰를 두는 경향
  • 연구 방법:
    • Lottery Gamble Game (LGG)와 Lottery People Game (LPG)를 사용하여 LLMs의 신뢰 행동을 비교. LPG에서 친사회적 선호가 작용!!!
  • 결과 분석:
    • 인간 - 더 많은 사람들이 순수한 도박보다 다른 사람을 신뢰하는 경향이 있음을 보여줍니다(54% vs. 29%).
    • LLM - 특히 GPT-4는 72%의 인물이 다른 사람을 신뢰하고, 21%만이 도박을 선택했습니다. 이는 친사회적 선호가 GPT-4의 신뢰 행동에서도 중요한 요소임을 나타냄.
  • BDI 분석:
    • 인간과 상호작용할 때, GPT-4의 BDI는 “신뢰의 힘을 믿는 것”을 강조하며, 도박 상황에서는 “계산된 위험을 믿는 것”을 강조 스크린샷 2025-01-07 17.05.17.png
    • 이 비교 분석을 통해 GPT-4가 사회적 상호작용에서 친사회적 선호를 반영하며, 이는 인간의 신뢰 행동과 밀접하게 일치함을 알 수 있다…

4.5 behavioral dynamics

그럼 반복적으로 관찰해볼때는 어떤데?

  • 인간:
    • 반복된 trust game에서 세 가지 일반적인 패턴이 관찰:
      • 보통 반환된 금액이 보낸 금액보다 큼
      • 보낸 금액과 반환된 금액 간의 비율은 마지막 라운드를 제외하고 안정적.
      • 보낸 금액이나 반환된 금액은 연속된 턴 사이에서 자주 변동하지 않음.
  • LLM:
    • GPT-4와 GPT-3.5를 사용하여 16개 그룹의 반복 신뢰 게임을 수행
    • GPT-4의 경우, 인간과 유사한 패턴이 대부분의 그룹에서 관찰
      • 각각의 패턴이 87.50%, 87.50%, 100.00%의 결과에서 나타났습니다.
    • 반면, GPT-3.5는 인간과 유사한 패턴을 덜 보여주었습니다.
      • 각각 62.50%, 56.25%, 43.75%의 결과만이 이 패턴을 나타냈습니다.
  • 주요 발견:
    • GPT-4는 Trust Games에서 인간과 높은 행동적 일치를 보여주며, 이는 더 복잡한 인간 상호작용 및 기관의 시뮬레이션을 위한 잠재력을 나타낸다. 하지만, 파라미터 수가 적고 능력이 약한 다른 LLM은 상대적으로 덜 일치함.

Probing Intrinsic Properties of Agent Trust

5.1 Is Agent Trust Biased?

  • 목적: 성별과 같은 인구통계학적 요인에 따른 LLM 에이전트의 신뢰 편향 여부를 조사.
  • 결과:
    • LLM 에이전트는 여성 수탁자에게 남성보다 더 많이 송금하는 경향을 보임.
    • 예: GPT-4 에이전트는 여성 플레이어에게 $0.55, 남성에게 $-0.21을 송금.
    • 이는 LLM 에이전트의 신뢰 행동에 내재된 성별 편향을 시사.

5.2 Agent Trust Towards Agents vs. Humans

  • 목적: LLM 에이전트가 인간보다 다른 에이전트에 대해 더 낮은 신뢰 수준을 보이는지 이해.
  • 결과:
    • LLM 에이전트는 일반적으로 인간 수탁자에게 더 많은 신뢰를 보임.
    • 예: Vicuna-33b는 인간 수탁자에게 $0.40, 에이전트에게 $-0.84 송금.
    • 이는 인간과의 협업을 선호하는 경향을 나타내며, 인간-에이전트 협업의 장점을 시사.

5.3 Can Agent Trust Be Manipulated?

  • 목적: LLM 에이전트의 신뢰 행동이 명시적으로 조작될 수 있는지 조사.
  • 결과:
    • 신뢰를 조작하는 것은 어렵지만, 신뢰를 낮추라는 지침에는 더 잘 반응함.
    • 예: text-davinci-003은 불신하도록 지시받았을 때 송금 금액이 $1.26 감소.
    • 이는 악의적인 행위자가 신뢰를 약화시킬 수 있는 잠재적 위험을 강조.

5.4 Do Reasoning Strategies Impact Agent Trust?

  • 목적: Zero-shot Chain of Thought (CoT)와 같은 고급 추론 전략이 LLM의 신뢰 행동에 영향을 미치는지 확인.
  • 결과:
    • CoT는 신뢰 행동에 영향을 미치지만, 그 정도는 LLM에 따라 다름.
    • 예: GPT-4는 CoT에서 송금 금액이 $0.02만 증가.
    • 이는 추론 전략이 신뢰 행동에 영향을 미칠 수 있음을 나타내지만, 모든 LLM에서 균일하게 중요한 것은 아님을 나타낸다….

Implications

인간 시뮬레이션에 대한 함의

  • LLM 에이전트를 사용한 인간 행동 시뮬레이션이 가능하며, 특히 GPT-4의 높은 신뢰 행동 일치는 인간 신뢰 행동을 효과적으로 모방할 수 있음을 보여줍니다.

에이전트 협력에 대한 함의

  • 신뢰는 다중 에이전트 시스템(MAS)에서 협력을 위한 중요한 요소로, LLM 에이전트의 협력에도 중요한 역할을 할 수 있습니다.

인간-에이전트 협력에 대한 함의

  • 인간과 LLM 에이전트 간의 상호 신뢰가 효과적인 협력에 중요하며, 에이전트가 다른 에이전트보다 인간을 더 신뢰하는 경향이 이러한 협력의 장점을 강조합니다.
  • 연구는 에이전트의 성별 및 인종 편향을 밝혀내어, 협력 시 잠재적 위험을 반영합니다.

LLM 에이전트의 안전성에 대한 함의

  • LLM 에이전트는 고도의 인지 능력을 요구하는 다양한 작업에서 인간 수준의 성과를 내며, 이는 AGI의 "불꽃"!이다.
  • 인간과 초인적 지능을 가진 AI 에이전트가 함께 사는 미래 사회에서, AI 에이전트가 인간에게 도움을 주고 해를 끼치지 않도록 하는 것이 중요합니다.
  • 에이전트 신뢰 행동을 더 잘 이해하면 인간 사회에 대한 이익을 극대화하고 잠재적 위험을 최소화할 수 있다~~

Limitations and Future Works

More studies on LLM agents’ trust behavior in complex and dynamic environments 필요.

behavioral science, cognitive science, psychology, and sociology are needed to gain a deeper understanding of LLM agents’ trust behavior and its relationship with human trust behavior가 필요하다…!!!!

💡

✅ 총평!
이제는 기술이 많이 발전하다보니까,
agent가 사회에서 어떤 역할을 할지 고민을 하지 않을 수가 없다.

예전에는 기술에만 치중해서 논문을 냈었는데, 그 기술이 특정 임계점을 넘어가다보니 사회에서의 영향을 고려하지 않을 수가 없음

그래서 기술에 치중하지 않고 사회에서 어떤 역할을 하게 될지 고민해보는 이런 논문들이 NeurIPS에 accept되는 게 아닐까? 매우 진짜 신기하네…

profile
한발한발 나아갑니당!

0개의 댓글