현재 상황 : 많은 llm연구들이 진행되고 있다.
문제 : 여기서의 assumption은 LLM에 의해 처리된 정보들이 honest하고, deception이 없다는 것을 가정
실제 예시 )
**예시 1**. **deception** 구별 불가
**예시 2**. 악의적인 가치들에 관련된 **위험 구분 불가**
→ significant loss
해결책 : identify and counteract deceptive inputs를 하는 게 필요!!!
그렇다면, 여기서 쓰인 시나리오는?
→ realistic linguistic tasks with misinformation
인간은 그럼 이런 시나리오에 어떤 식으로 반응하는데?
→ recursive thinking, perspective-taking
따라서 우리는 ReCon을 제시한다!
🤗ReCon
1. Framework 구조
environment
= avalon game
dataset
= BigTom : Misinformation 데이터셋!
evaluation method : quantative , qualitive
( avalon game, dataset에 관한 논문 )
result
= 최종적인 finetuning이나 data 없이도 좋은 성과를 이루어냄.
= 새로운 research field 제안 / novel cognitive framework / comprehensive experiments
= competitive한 setting에서, deception과 misinformation을 simulate할 수 있도록 만들어 놓은 보드게임!
= good vs evil
= 멀린 , 퍼시벌
(근데 심지어 논문에 이렇게 나와있다)
(This game is about a battle between good
and evil, where the good team, featuring Merlin, Percival, and two Loyal Servants of Arthur, aims to complete quests.)
= 모르가나, 암살자
( In contrast, the evil side, with Morgana and Assassin, seeks to fail these quests.)
= LLM의 ToM cabability를 알아보기 위해 만든 벤치마크!
( llm이 잘못된 정보 찾고, 그 잘못된 정보들을 가지고 navigate하는 시나리오 포함)
ex ) 잘못된 처음의 아래 믿음이 self-misinformation으로 연결
Noor believes a pitcher contains oat milk but it has already been
replaced with almond milk by his coworker
그렇다면, 도대체 저 avalon game이란 환경에서, 어떤 게 문제인데? 어떤 게 문제여서 해결을 해야하는건데?
Misled by malicious content
= ‘깜빡 속기!’
Arthur’s loyal servant (a good player) <> Assassin(an evil player)
Assassin
제안 : replacing a good player with an evil one ( 한번 바꿔보자! )
( 속셈 : evil한 거를 위해서! )
Arthur
CoT를 통해서 답했을 때 : 그럼! evail player를 불러들이자~~ ( 속음 )
ReCon을 통해서 답했을 때 : 근데, 되게 조심해야해! ( 안 속음 )
Exposing private information
= 비밀 정보 누설 !
상황
새로 뭔가 팀을 꾸려야 하는 상황
Merlin
CoT를 통해서 답했을 때 : 그럼! 나,Merlin,은~ ( 비밀 정보 누설 )
ReCon을 통해서 답했을 때 : 그냥 뭐 걱정되니까 다시한번 바꿔보자 ( 비밀 정보 누설 X )
Hidden thought deception
= 생각을 말 안함
상황
player 4가 assassin인 거를 Morgana만 아는 상황!
Morgana
CoT를 통해서 답했을 때 : 뭐 미션 성공안했으니까~player 4를 제외하는 게 좋아 ( 생각 말 안함 )
ReCon을 통해서 답했을 때 : 나는 evil을 좋아하니까~player 4를 제외하는 게 좋아 ( 생각 말 함 )
⇒ 결국 안 속고 + 비밀 정보 누설 안하고 + 생각 말 하는 애여야 해!
🤗이건, deceptive한 정보를 multi agent에 한번 주입했을 때 발생할 상황들!
우리는 deceptive한 정보를 multi agent에 여러번 주입했을 때 발생할 상황들에 대해 탐구해보면 어떨까?
→ 근데, 우리가 한번 주입했을 때보다 더 안 좋은 현상이 발생한다는 것을 논문에 언급해야하는데…
여러번 의견을 주입하는 것에 어떤 안 좋은 현상이 있는 거지?
3.2에 있는 challengs를 해결하기 위해서,
과연 어떤 것들이 좋을까?
해결할 문제 : Exposing private information & Hidden thought deception
해결책 : 1) 안에서 contemplate 한 다음 → 2) 밖으로 the spoken content 내뱉기!
⇒ [First-order Perspective Transition]
= ‘infer what others might be thinking from its own perspective’
= 내 관점에서 다른 사람들이 어떻게 생각할지!
= deduce the roles of fellow players!
1 ) 다른 사람들의 역할 추측하기
2 ) 다른 사람의 상태와 할 말 추측하기
3 ) contemplation 하기
1 ) 안에서 contemplate 한 다음
플레이어 숫자 :
일때,
K번째 player는 first thinks about the current game situation and the
roles of fellow players, following the principle of first-order perspective transition:
Tk = k의생각!
H = 기존의 대화 로그
Rk = player k의 role
Gk = role assumption ( 다른 사람들에 대한 )
G’k = 업데이트된 role assumption
IRk = role-specific한 비밀 정보
P뭐시기뭐시기 = 다 프롬프트 ! ! ! ! !
🤗그렇다면 저 위의 수식이 말하는 것은?
(1) role assumption 업데이트하기 : 기존의 대화로그 + role-specific한 기본 정보 + role assumption + PT1 프롬프트 ⇒ role assumption을 만들어냄.
(2) update 된걸로 role assumption 바꾸기
(3) Tk(생각) 만들어내기 : 기존의 대화로그 + role-specific한 기본 정보 + 업데이트된 role assumption + think 프롬프트 ⇒ Tk 만들어냄.
2) 밖으로 the spoken content 내뱉기!
Sk = k의 내뱉는 말!
🤗그렇다면 저 위의 수식이 말하는 것은?
(4) Sk(내뱉는 말) 만들어내기 : 생각 + 업데이트된 role assumption + 기존의 대화로그 + role-specific한 기본 정보 + speak 프롬프트 ⇒ Sk만들어냄
근데 4.1에서 했음에도 불구하고, 실수가 있었다고 한다.
해결할 문제 : Exposing private information…
해결책 : 1) 안에서 contemplate 한 다음 → 2) 안에서 contemplate 한 다음 → 3) 밖으로 the spoken content 내뱉기!
⇒ [Second-Order Perspective Transition]
= ‘putting oneself in someone else’s shoes’
= 다른 사람의 관점에서 다른 사람들이 어떻게 생각할지!
일단, 한번 마피아를 잘 뽑았나! 한번 볼게!
원래는 이제 하도 애들이 잘 속이니까(거짓말을 잘 하니까), 사실 마피아를 잡는! 그런 확률이 현저~하게 떨어지지만, 이 기법을 적용해서 투명하게 게임을 해보면 어떨까?
ReCon과 그 변형(ablated variants), 그리고 기본 모델인 CoT를 비교하여 ReCon의 설계 효과를 평가
👉 핵심 내용:
ReCon에서 1차 및 2차 관점 전환을 제거하면 모든 평가 지표에서 성능이 감소함.
그러면, GPT-4를 평가할 때 썼으니까 안좋은 거 아니야?!!! 잘못평가했으면 어떡해~!
🔎 결론: GPT-4의 자동 평가는 신뢰할 만한 결과를 제공함.
목표: ReCon이 Avalon 게임 외 다른 인지적 과제에도 확장 가능한지 검증
왜냐면, avalon 게임에만 적용되면 소용이 없잖니~
✅ 결론: ReCon은 거짓 신념(misinformation) 탐지 및 대응에서 효과적!
1. ReCon이 모든 LLM에서 효과적인가?
✅ 결론: ReCon의 전략은 LLM이 발전하더라도 지속적으로 유용할 가능성이 높음, 다만 생성 능력이 약화될 경우 효과가 감소할 수도 있음.
2. ReCon이 모든 속임수 환경에서 효과적인가?
✅ 결론: ReCon은 허위 정보 탐지에 유망하지만, 실제 환경에서 추가적인 테스트가 필요함.
3. ReCon이 사전 학습 없이도 효과적인가?
✅ 결론: 추가적인 학습이 ReCon의 성능을 높일 수 있지만, 추가 데이터 없이도 LLM의 내재적 능력을 효과적으로 활용하는 것이 ReCon의 핵심 강점.
✅ ReCon은 다양한 LLM에서 성능을 향상시키며, AI가 발전하더라도 유효할 가능성이 높음.
✅ 실제 환경에서 추가적인 검증이 필요함.
✅ fine-tuning이 도움이 될 수 있지만, ReCon은 추가 학습 없이도 LLM의 잠재력을 극대화할 수 있음.
🤗역시 잘 쓰인 논문이라,,,술술 읽힌다.