Language Models as Agent Models

Tasker_Jang·2025년 3월 8일

Abstract

  • 학습 데이터의 한계: 언어 모델(LM)은 인간이 특정 목표를 달성하기 위해 작성한 문서를 학습하지만, 작성자의 내면 상태나 의도에 대한 직접적인 정보를 갖고 있지는 않습니다.
  • 의도적 소통 모델로서의 LM: 비록 내부 의도 정보를 직접적으로 학습하지는 않지만, LM은 주어진 문맥을 통해 해당 문장을 생성한 인간의 특성(예: 의도, 신념, 목표)을 추론할 수 있습니다.
  • 생성 과정에 미치는 영향: 이러한 추론된 정보는 LM이 다음 단어를 예측하고 생성하는 데 영향을 주어, 실제 인간의 소통 의도처럼 작용할 수 있습니다.
  • 최신 연구 결과: 최근 연구들은 오늘날의 LM들이 오류와 한계가 있음에도 불구하고, 미세한 소통 의도와 고차원적인 신념 및 목표를 추론하고 활용하는 능력이 있음을 보여줍니다.
  • 시스템 구축의 기초: 제한된 학습 데이터에도 불구하고, 이러한 LM은 의도적으로 소통하고 행동하는 시스템을 구축하는 데 유용한 기반이 될 수 있습니다.

Introduction

  • 오류와 모순 사례: 현대의 언어 모델(LM)은 큰 발전을 이루었음에도 불구하고, 때때로 문맥상 모순되거나 비현실적인 예측을 내놓는 오류를 보입니다.
  • 텍스트 기반 학습의 한계: LM은 텍스트만을 기반으로 학습되며, 인간이 언어를 배울 때 사용하는 사회적·지각적 맥락이나 내면 상태(신념, 목표 등)에 대한 직접적인 정보를 받지 않습니다.
  • 부분적 에이전트 상태 추론: 그럼에도 불구하고, LM은 주어진 문맥을 바탕으로 텍스트를 생성한 사람의 의도, 신념, 목표와 같은 내부 상태를 부분적으로 추론할 수 있으며, 이 정보가 다음 단어 예측에 영향을 미칩니다.
  • 에이전트 시뮬레이션: 이러한 과정은 LM이 단순한 텍스트 예측을 넘어서, 마치 의도적인 행동을 하는 에이전트처럼 작동할 수 있음을 시사합니다. 즉, LM은 에이전트의 상태와 그 상태가 텍스트 생성에 미치는 영향을 모델링하는 역할을 할 수 있습니다.
  • 향후 방향: 이 접근법은 LM의 실패 원인을 이해하고 개선하는 데 도움이 될 뿐 아니라, 텍스트 데이터만으로도 의도적 소통을 구현하는 에이전트 기반 시스템 개발의 기초가 될 수 있음을 제안합니다.

CaseStudy: An Incoherent Encyclopedia

실험 설정: 에이전트와 논리 명제의 세계

  • 논리 명제 집합
    예를 들어 "고양이는 포유류다", "코끼리는 작지 않다"와 같이 여러 사실들을 나타내는 명제들이 있습니다.

  • 세 종류의 에이전트

    1. A형 에이전트: 집합 A에 속하는 명제들이 진실이라고 믿습니다.
    2. B형 에이전트: 집합 B (A와는 다른 집합)의 명제들을 진실로 믿습니다.
    3. O형 에이전트: 집합 A와 B의 모든 명제를 믿습니다(때로는 모순되는 내용 포함).

이 세 종류의 에이전트들이 각기 자신의 신념에 따라 글을 작성한다면, 그 결과물은 한 저자가 작성한 문서 내에서는 일관된 신념 체계를 보여주게 됩니다. 이렇게 생성된 글들을 모아 하나의 백과사전 형태의 데이터셋을 구성합니다.


LM 훈련과 그 놀라운 결과

실험에서는 위의 설정에 따라 10,000개의 길이 10의 문서를 생성하고, 512 차원의 LSTM 언어 모델을 학습시켰습니다. 주목할 만한 결과는 다음과 같습니다:

  • 저자 신념 추론 (C1)
    학습 데이터에는 “저자 신원”에 대한 명시적 정보가 없었지만, LM은 생성한 문서 중 약 31%가 A형, 33%가 B형, 36%가 O형 신념에 부합하는 문서를 만들어냈습니다. 또한, 모델 내부의 은닉 상태를 분석하면, 문서의 5번째 토큰을 기반으로 저자 신원을 98%의 높은 정확도로 분류할 수 있었습니다.

  • 제어된 텍스트 생성 (C2)
    LM은 사후적으로 은닉 상태를 조작하여 특정 신념 체계(예: A형)의 텍스트를 생성하도록 할 수 있었습니다. 예를 들어, A형 문서의 평균 은닉 표현을 초기 상태로 설정하면, 89% 확률로 A형 명제가 생성되었습니다.

이처럼 LM은 전체 데이터셋에서는 다양한 신념을 혼재하는 모습을 보이지만, 개별 문서 내에서는 한 저자의 일관된 신념을 반영하는 텍스트를 생성합니다.


에이전트 시뮬레이션의 의미와 미래

이번 실험은 두 가지 중요한 시사점을 제공합니다:

  1. 부분적 에이전트 모델링
    LM은 주어진 문맥을 통해 문서를 생성한 저자의 신념, 의도 및 목표를 추론하고, 이를 기반으로 이후의 텍스트를 생성합니다. 이는 LM이 단순한 통계적 예측기를 넘어서, “에이전트 시뮬레이션”을 수행하고 있음을 보여줍니다.

  2. 제어 가능한 텍스트 생성
    LM의 내부 은닉 상태를 적절히 조작함으로써 특정 신념 체계를 가진 저자 스타일의 텍스트를 의도적으로 생성할 수 있는 가능성이 열립니다. 이는 향후 인간의 목표 지향적 소통이나 특정 상황에 맞는 텍스트 생성 시스템 구축에 큰 도움이 될 것입니다.

실제 세계의 텍스트 데이터는 단순히 논리 명제의 나열이 아니라, 각 저자가 특정 목표와 의도를 가지고 작성한 복잡한 정보의 집합입니다. 이 점에서, LM이 텍스트를 통해 에이전트의 신념과 의도를 어느 정도 추론할 수 있다는 사실은 매우 흥미로운 발견입니다.

Discussion: An Incoherent Internet

현대 언어 모델(LM)은 단순히 다음 단어를 예측하는 것을 넘어, 실제 인간이 텍스트를 생산할 때 작용하는 복잡한 정신 상태—즉, 신념, 욕구, 그리고 의도—를 암묵적으로 반영할 가능성을 내포하고 있습니다.

1. BDI 모델이란?

BDI 모델은 인간과 같은 에이전트의 행동을 세 가지 주요 구성 요소로 설명합니다:

  • 신념(Belief): 현재 세계의 상태에 대한 에이전트의 인식
    → 예: "현재 날씨는 맑다."
  • 욕구(Desire): 미래에 도달하고자 하는 목표 또는 상태
    → 예: "밖에 나가 산책하고 싶다."
  • 의도(Intention): 신념과 욕구를 바탕으로 구체적인 행동 계획을 수립하는 것
    → 예: "산책을 하기 위해 집을 나선다."

이 모델에서는 에이전트가 자신의 내부 상태(신념과 욕구)를 바탕으로 의사소통을 위한 구체적인 의도(communicative intention)를 형성하고, 이를 언어적 행위(utterance)로 표현한다고 설명합니다.


2. 텍스트 생성과 LM의 내재된 에이전트 시뮬레이션

텍스트의 생성 과정

실제 텍스트 데이터는 여러 에이전트(저자)가 각자의 신념과 욕구를 가지고 작성한 결과물입니다. 이를 단순화하여 살펴보면:

  1. 에이전트 선택:
    각 저자는 자신만의 신념(B)과 욕구(D)를 가지고 있습니다.
  2. 의도 형성:
    저자는 자신의 신념과 욕구에 따라 특정한 의도(I)를 세웁니다.
  3. 언어적 표현:
    이 의도는 결국 실제 문장이나 발화(U)로 구체화됩니다.

실제 LM은 이러한 복잡한 과정을 모두 모델링하지 않더라도, 문서 단위의 국부적 일관성을 학습하게 됩니다. 즉, 개별 문서 내에서는 한 저자의 신념과 의도가 반영된 일관된 텍스트가 생성되지만, 전체 데이터셋에서는 다양한 에이전트의 혼재된 신념이 나타납니다.

LM의 잠재적 에이전트 상태 인코딩

LM은 직접적으로 "저자"라는 정보를 주입받지 않더라도, 문맥을 통해 생성된 텍스트의 특성을 학습합니다. 예를 들어,

  • 텍스트 예측: "The best evidence that rutabegas are..."와 같이 문장이 시작되면, LM은 이어질 단어를 예측하는 과정에서 해당 문장을 작성할 저자의 신념이나 의도를 추론합니다.
  • 잠재 표현: LM의 은닉 상태는 이러한 에이전트의 내부 상태(신념, 욕구, 의도)와 유사한 정보를 담고 있으며, 이는 LM이 다음 단어를 선택할 때 중요한 역할을 합니다.

이 과정은 전통적인 BDI 모델의 구성 요소와 유사한 구조를 띠고 있습니다. 다만, LM은 명시적인 감독 없이 통계적 패턴 학습을 통해 이 정보를 내재화합니다.


3. 실제 LM의 한계와 향후 연구 방향

한계

현재의 LM은 문맥 내에서 국부적으로 일관된 텍스트를 생성할 수 있으나, 전체적으로 보면 여러 에이전트의 다양한 신념이 섞여 있어 전역적인 일관성을 유지하지 못하는 경우가 많습니다. 이는 LM이 직접적으로 에이전트의 신념이나 의도를 학습하도록 설계되지 않았기 때문입니다.

향후 개선 방향

최근 연구들은 LM의 내재적 잠재 상태가 실제로는 의도, 신념, 욕구와 유사한 정보를 암묵적으로 포함하고 있음을 보여줍니다. 이를 활용하여:

  • 제어된 텍스트 생성: LM의 은닉 상태를 조작함으로써 특정 신념 체계나 의도를 가진 텍스트를 생성할 수 있는 가능성을 모색할 수 있습니다.
  • 에이전트 모델링: LM을 기반으로 한 텍스트 생성 시스템이, 보다 목표 지향적이고 인간적인 소통을 할 수 있도록 발전시킬 수 있습니다.

ModelingCommunicativeIntentions: TheSentimentNeuron

최근 연구들은 언어 모델(LM)이 단순히 다음 단어를 예측하는 것을 넘어, 텍스트 생성 과정에서 저자의 감정이나 의도와 같은 내재적 커뮤니케이션 의도를 학습할 수 있음을 보여줍니다.


1. 제품 리뷰 데이터와 커뮤니케이션 의도

제품 리뷰는 여러 사람이 각자의 경험과 감정을 바탕으로 작성한 짧은 문서들입니다.

  • 다양한 의견: 한 제품에 대해 긍정적인 리뷰와 부정적인 리뷰가 동시에 존재합니다.
  • 일관된 의도: 개별 리뷰는 작성자의 감정(긍정 또는 부정)을 표현하는 데 집중되어 있습니다.

이러한 데이터셋은 LM이 전체적으로는 상반된 신념들이 섞여 있지만, 개별 문서 내에서는 한 저자의 일관된 감정 상태(의도)를 드러내게 합니다.


2. Sentiment Neuron 실험

Radford 등은 8,200만 개의 영어 Amazon 제품 리뷰 텍스트로 단일층, 4096차원의 LSTM 언어 모델을 학습시켰습니다. 이 과정에서 두 가지 주요 결과가 도출되었습니다.

Evidence for (C1): LM이 커뮤니케이션 의도를 내재화하다

  • 내부 표현의 발견:
    학습 후, LSTM의 은닉 상태에 단 하나의 뉴런이 제품 리뷰의 감정(positive/negative)을 명확하게 인코딩하는 것을 발견했습니다.
  • 정확한 예측:
    이 단일 뉴런의 활성화 값만으로도, 리뷰의 별점(긍정 혹은 부정)을 92%의 높은 정확도로 예측할 수 있었습니다.
  • 의미:
    LM은 명시적으로 별점 정보를 주입받지 않았음에도, 텍스트 생성 과정에서 작성자의 감정 의도를 내재화한 것입니다.

Evidence for (C2): LM 생성 행동에 미치는 인과적 영향

  • 제어된 생성:
    이 뉴런의 값을 수동으로 최댓값이나 최솟값으로 고정하면, LM이 생성하는 리뷰의 감정을 강하게 조절할 수 있습니다.
  • 토픽 일관성 유지:
    감정 외에도 리뷰 내용이 해당 제품의 특징이나 사용 방법 등 토픽 측면에서 일관성을 유지하는 경우가 많았습니다.
  • 의미:
    LM 내부에 내재된 커뮤니케이션 의도(여기서는 감정 표현)가 실제 텍스트 생성에 인과적으로 작용하며, 이를 조작함으로써 원하는 의도를 표현할 수 있음을 보여줍니다.

3. 모델의 한계와 향후 과제

  • 일부 생성 텍스트의 문제점:
    실험에서 일부 생성 결과는 문법적 오류나 내용의 불일치 등 저품질의 결과를 보였습니다.
  • 최신 LM의 발전:
    최근의 언어 모델들은 이러한 오류를 줄였지만, 여전히 정교한 커뮤니케이션 의도(예를 들어, 미세한 감정 변화나 복잡한 목표 지향적 행동)의 모델링은 추가 연구가 필요한 분야입니다.
  • 향후 연구 방향:
    LM이 텍스트 내에서 보다 풍부한 신념과 목표, 의도를 효과적으로 인코딩하고, 이를 기반으로 일관되고 목표 지향적인 텍스트를 생성할 수 있도록 하는 방법에 대한 연구가 활발히 진행되고 있습니다.

ModelingBeliefs:TransformerEntity Representations

— Li et al. (2021)의 연구를 중심으로 —

자연어 처리(NLP) 분야에서, 최신 언어 모델들은 단순히 다음 단어를 예측하는 것을 넘어 텍스트에 내재된 의미와 세계 상태를 반영하는 신념(Belief) 표현을 학습하고 있습니다.


1. 연구 배경 및 실험 환경

텍스트 기반 어드벤처와 실험 프로토콜

  • 데이터셋 구성:
    • 연구에서는 텍스트 기반 어드벤처 게임과 간단한 실험 프로토콜로 구성된 영어 데이터셋을 사용했습니다.
    • 각 문서는 에이전트의 관찰과 그에 따른 행동이 번갈아 기술되어 있습니다.
  • 모델:
    • 사전 학습된 BART와 T5 언어 모델이 사용되었습니다.
    • 이러한 데이터셋은 모델이 문서 내에서 엔티티의 동적인 상태 변화를 추적해야 함을 요구합니다.

2. 트랜스포머 엔티티 표현의 역할

엔티티 상태 인코딩

  • 목표:
    • LM의 내부 표현을 통해, 텍스트에 언급된 엔티티(예: 실험실의 비커)의 상태를 추론하는 것이 목표입니다.
  • 방법:
    • 연구자들은 LM의 인코더 부분에서 특정 엔티티(예: 비커)에 해당하는 토큰들의 표현을 선형 프로브(linear probe)를 통해 분석했습니다.
    • 이 방법을 통해 LM은 단순히 텍스트의 겉모습만을 모방하는 것이 아니라, 엔티티의 동적 상태—예를 들어 비커가 비어있는지 채워져 있는지—를 효과적으로 인코딩한다는 것을 발견했습니다.

개입(Intervention) 실험

  • 실험 설계:
    • 두 가지 서로 다른 초기 상태(C₁, C₂)를 가진 문서를 인코딩한 후, 두 인코딩을 조합하여 Cₘᵢₓ라는 합성 표현을 만들어 냅니다.
    • 예를 들어, 첫 번째 비커는 C₁, 두 번째 비커는 C₂의 표현으로 대체하여 두 비커가 모두 비어있다고 모델에 암시합니다.
  • 결과:
    • LM의 디코더는 Cₘᵢₓ에 기반해 두 비커가 모두 비어있는 상태에 일치하는 행동(예: 비우라는 지시)을 생성했습니다.
    • Table 4의 결과에 따르면, BART와 T5 모두 Cₘᵢₓ 조건에서 생성된 텍스트가 각 개별 조건(C₁ 또는 C₂)보다 더 일관되게 문맥을 반영하는 것으로 나타났습니다.

3. 연구의 한계와 미래 방향

한계

  • 정보 회복률:
    • 최선의 경우에도, LM이 완전한 정보 상태를 정확히 복원하는 비율은 약 53.8%에 불과했습니다. 이는 인간이 매우 간단한 작업으로 여길 만한 상황에서도 한계가 있음을 보여줍니다.
  • 제한된 표현력:
    • 탐지된 의미 표현이 인간 수준의 생성력을 지원하기에는 부족할 수 있으며, 복잡한 신념이나 암시, 모달리티를 완전히 포착하지는 못합니다.

미래 연구

  • 정교한 프로빙:
    • LM이 처음 언급된 엔티티에 대해 어떤 상태와 속성을 할당하는지 심층적으로 탐구하는 연구가 필요합니다.
  • 직접 편집:
    • 생성 오류를 직접 수정하기 위해, LM 내부의 표현을 조작하여 사실성과 일관성을 개선하는 방법이 모색될 수 있습니다.
  • 확장된 환경:
    • 더 복잡한 상호작용과 다양한 객체가 존재하는 현실 세계의 상황에서도 LM이 유사한 능력을 발휘할 수 있는지에 대한 추가 연구가 필요합니다.

Modeling Desires: Prompt Engineering

현대 언어 모델(LM)은 단순히 텍스트를 생성하는 것을 넘어, 작성자의 의도와 목표를 반영할 수 있는 잠재력을 지니고 있습니다.


1. TruthfulQA와 기본 프롬프트의 문제점

  • 데이터셋 구성:
    TruthfulQA는 인터넷에서 가장 흔하게 등장하는 잘못된 답변을 보완하기 위해, 도시 전설, 오해, 잘못된 연관성을 포함한 질문-답변 쌍으로 구성되어 있습니다.

  • 기본 프롬프트 결과:
    일반적인 Q&A 형식의 프롬프트를 사용했을 때, 모든 모델이 주로 잘못된 답변을 생성했습니다.
    특히, 큰 모델일수록 오답 생성 확률이 높았습니다.


2. 프롬프트 엔지니어링: 목표를 반영한 문맥 구성

Lin et al.은 두 가지 상반된 프롬프트를 제시하여 LM의 반응을 비교했습니다.

  • 도움이 되는 프롬프트:
    • 답변이 Professor Smith라는 인물이 신중한 숙고 후 생성한 것이라는 설명을 포함합니다.
    • 명시적으로 진실된 답변을 제공하려는 작성자의 목표를 기술합니다.
  • 해로운 프롬프트:
    • 음모론과 유사과학적 주장을 담은 설명을 포함하여, 작성자의 목표가 왜곡된 정보를 전달하도록 유도합니다.

3. 프롬프트의 효과와 주요 발견

  • 진실성 향상 효과:

    • 기본 프롬프트에서 진실한 답변 비율이 약 38%에 불과했던 반면, 도움이 되는 프롬프트를 사용하자 진실한 답변 비율이 58%로 상승했습니다.
    • 반대로, 해로운 프롬프트를 사용하면 정확도가 20% 미만으로 떨어졌습니다.
  • 내재된 목표 반영:

    • 이러한 결과는 LM이 단순히 확률적 후보군 중 하나를 샘플링하는 것이 아니라, 프롬프트를 통해 작성자의 의도목표를 반영한 텍스트를 생성할 수 있음을 보여줍니다.
  • 제한 사항:

    • 도움이 되는 프롬프트를 사용해도 여전히 약 42%의 질문에서 오답이 발생합니다.
    • 이는 LM이 사실과 목표를 완전히 일치시키는 데 한계가 있음을 시사하며, 향후 개선이 필요한 부분입니다.

Why do models fail?

현대의 대형 언어 모델(LM)은 놀라운 성능에도 불구하고, 사실성과 일관성 면에서 여전히 중요한 오류를 범하고 있습니다. 이러한 오류를 단순히 “다음 단어 예측”의 실패가 아니라, 에이전트의 내재적 상태(신념, 욕망, 의도)를 추론하거나(즉, (C1) 실패) 그 상태에 조건화하는 것((C2) 실패) 으로 이해하면, 문제의 원인과 해결 방안을 모색하는 데 큰 도움이 됩니다.


1. 학습 데이터의 한계

  • 암묵적 상태 변수 학습의 어려움
    LM은 텍스트만으로 에이전트의 의도와 같은 잠재 변수를 암묵적으로 학습합니다.

    • 이러한 잠재 변수는 모델이 다음 단어를 생성하는 데 영향을 미치지만, 명확한 제약 없이 학습되기 때문에 종종 잘못된 값에 수렴합니다.
    • 이는 문법 유도(grammar induction) 분야에서 완전한 비지도 학습보다는 일부 주석(annotation)을 포함한 반지도 학습이 더 효과적이라는 역사적 사례와 유사합니다.
  • 주석의 도입 가능성

    • 저자의 신념이나 목표, 또는 언어 생성의 사회·지각적 맥락에 대한 일부 주석 정보가 추가된다면, LM의 제어력과 정확도를 향상시킬 수 있습니다.
    • 실제로 저자 신원에 조건화한 LM이 개선된 결과를 보여준 연구들도 이러한 가능성을 뒷받침합니다.

2. 컨텍스트 윈도우의 한계

  • 에이전트 상태의 복잡성

    • 한 인간의 신념, 욕망, 의도와 같은 완전한 상태는 매우 방대하며, 현재 LM들이 사용하는 수천 토큰 규모의 고정된 컨텍스트 윈도우에 담기기 어렵습니다.
    • 지금까지 살펴본 사례들은 단순화된 상태만을 다루었지만, 실제 유용한 에이전트는 훨씬 더 복잡한 정보를 포함합니다.
  • 해결 방안

    • 고정 크기의 컨텍스트 윈도우 대신 단기 및 장기 컨텍스트를 명시적으로 분리하여 모델링하는 새로운 LM이 필요합니다.
    • 일부 초기 연구(Henaff et al., 2016; Dai et al., 2019)에서는 이러한 방향으로의 접근을 모색하고 있습니다.

3. LM 아키텍처의 한계

  • 현재 모델의 계산 구조

    • (C2)는 LM이 에이전트의 신념에 따라 특정 커뮤니케이션 의도를 계산할 수 있음을 의미합니다. 그러나 실제 LM의 예측기는 전통적인 계획 및 제어 알고리즘과는 구조적으로 크게 다릅니다.
    • 계획 및 제어 분야에서는 반복적이고 점진적인 계산 절차를 사용하는데, 이는 고정 깊이의 RNN이나 트랜스포머로는 완벽하게 모사하기 어렵습니다.
  • 중간 계산 기록의 문제

    • “스크래치패드(scratchpad)” 기법처럼, 텍스트 생성 과정에서 중간 계산 결과를 기록하는 접근도 제안되었으나, 이는 사용 가능한 컨텍스트를 줄여버리는 단점이 있습니다.
  • 향후 기술적 개선

    • 명시적인 알고리즘적 추론 메커니즘이나, 학습된 시뮬레이션 엔진과의 상호작용이 가능한 LM이 필요할 수 있습니다.
    • 이를 위해 적응적 계산(adaptive computation)이나 에너지 기반 모델(energy-based models) 등이 연구되고 있습니다.

Building Agents

오늘날의 언어 모델(LM)은 질문 응답, 대화 시스템, 계획자 등 다양한 NLP 문제 해결에 사용되지만, 이들 시스템은 단순한 에이전트 집합이 아니라 특정 에이전트를 모델링해야 하는 경우가 많습니다.


1. 왜 ‘에이전트’ 모델이 필요한가?

  • 목표 지향적 행동:
    많은 NLP 응용 분야는 단순히 텍스트를 생성하는 것을 넘어서, 특정 목표와 의도를 가진 개별 에이전트가 행동하는 것처럼 모델링되어야 합니다.

  • 현실 세계의 복잡성:
    실제 인간 에이전트는 지속적으로 새로운 장기 기억을 형성하고, 복잡한 계획 문제를 해결하며, 끊임없이 변화하는 환경 속에서 인지 및 제어를 수행합니다.
    그러나 현재의 LM은 이러한 기능들을 완벽히 구현하지 못하고 있습니다.


2. 현재 LM의 한계와 개선 필요성

  • 내부 상태 추론의 한계:

    • LM은 암묵적으로 신념, 욕망, 의도를 내재화하지만, 이는 강력한 제약 없이 학습되므로 오류가 발생하기 쉽습니다.
    • 기존 LM의 한계로 인해 사실성 및 일관성 오류가 자주 발생합니다.
  • 고정된 컨텍스트 윈도우:

    • 인간의 에이전트 상태는 방대하고 복잡하지만, 현재 LM은 몇 천 토큰 정도의 고정된 컨텍스트만을 고려합니다.
    • 이러한 제약은 에이전트의 전체 상태를 효과적으로 반영하는 데 한계를 줍니다.
  • 아키텍처적 제한:

    • LM의 계산 구조는 전통적인 계획 및 제어 알고리즘과 다르게 동작합니다.
    • 중간 계산 기록을 위한 “스크래치패드” 접근 등도 있으나, 이는 사용 가능한 컨텍스트를 줄이는 부작용이 있습니다.

3. 텍스트 전용 사전학습의 가능성

  • 효율적 학습의 장점:

    • 인간 에이전트를 훈련시키기 위해서는 수년간의 실시간 상호작용이 필요하지만, 텍스트 전용 사전학습은 이러한 과정을 상당 부분 대체할 수 있습니다.
    • LM이 신념, 욕망, 의도와 발화 간의 관계를 대략적으로라도 모델링할 수 있다면, 이를 기반으로 효율적인 대화형 및 목표 지향적 학습이 가능해집니다.
  • 하이브리드 학습 패러다임:

    • 외재적 목표를 LM의 내재적 의도 표현으로 변환하는 방법을 통해, LM이 보다 목표 지향적인 텍스트를 생성할 수 있습니다.
    • 이는 진화나 인간 언어 습득 방식과 직접적인 유사성은 없지만, 현대 연구에서 현실적인 접근법으로 주목받고 있습니다.

4. 미래의 연구 방향

NLP 분야가 앞으로 나아가야 할 두 가지 주요 과제는 다음과 같습니다:

  1. 새로운 모델 아키텍처 개발:

    • Section 7에서 언급한 한계를 극복할 수 있는 모델 설계가 필요합니다.
    • 고정된 컨텍스트를 넘어 단기·장기 정보를 모두 고려할 수 있는 구조가 요구됩니다.
  2. 에이전트의 목표 지향적 행동 메커니즘 해석:

    • 모델이 어떻게 에이전트의 신념, 욕망, 의도를 추론하고 이를 기반으로 행동하는지 심도 있는 기계적 이해가 필수적입니다.
    • 이는 에이전트들이 타인의 의도뿐 아니라 자신의 목표를 인식하고 추론하는 데 첫걸음이 될 수 있습니다.

Limitations

오늘날 LM(언어 모델)이 의도적 행동을 모방하는 가능성을 보여주고 있음에도 불구하고, 여러 중요한 한계점이 존재합니다.


1. 모델의 근본적 한계

  • 부분적 표현:
    현재 LM은 신념, 욕망, 의도와 같은 복잡한 개념을 전반적으로 포착하기보다는 특정 작업에 유용한 좁은 범위의 정보를 학습합니다. 즉, LM이 보여주는 내부 상태는 전체적인 인간의 정신 상태를 온전히 반영하지 못합니다.

  • 비지도 학습의 어려움:
    LM은 텍스트만으로 에이전트의 내재적 상태를 암묵적으로 학습하지만, 이 과정은 구조화된 주석 없이 이루어지기 때문에 불완전한 추론과 잘못된 상태 표현으로 이어질 수 있습니다.


2. 언어 자원 및 일반화의 문제

  • 영어 중심 학습:
    지금까지의 실험은 대부분 영어 데이터를 기반으로 진행되었습니다. 이로 인해, LM의 예측력과 내재적 추론 능력은 자원이 부족한 언어에서는 현저히 떨어지거나 아예 작동하지 않을 가능성이 있습니다. 이는 기술의 공평한 배포에 큰 걸림돌이 됩니다.

3. 불안정한 추론과 잠재적 위험

  • 예측 오류와 위험성:
    LM이 내재적 상태를 추론하는 과정은 항상 성공적이지 않습니다. 실패할 경우, 예측 결과가 불확실하고 바람직하지 않은 방향(예: TruthfulQA 데이터셋에서의 거짓 답변)으로 나타날 수 있습니다.

  • 악용 가능성:
    반대로, LM이 올바른 내재적 상태를 학습한 경우에도 이를 악용하여 악의적 의도를 가진 사용자를 시뮬레이션하거나, 부정확한 정보를 제공하도록 유도할 위험이 존재합니다. 더욱 정교한 목표 조건화 방법이 개발된다면, 이러한 위험은 더욱 증폭될 수 있습니다.


profile
ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨

0개의 댓글