https://arxiv.org/pdf/2501.00663
최근 인공지능 분야에서는 거대 언어 모델(LLM)의 발전과 함께, 긴 문맥(Long Context)을 효과적으로 처리하는 능력에 대한 관심이 높아지고 있습니다. 기존 트랜스포머(Transformer) 모델은 뛰어난 성능을 보여주지만, 문맥 길이 증가에 따른 계산 비용 증가와 장기 의존성 포착의 어려움이라는 한계를 가지고 있습니다. 이러한 문제점을 해결하기 위해 구글 리서치(Google Research)에서 제안한 "Titans: Learning to Memorize at Test Time" 논문은 테스트 시간 학습(Test-Time Learning)을 통해 기억 능력을 극대화하는 새로운 아키텍처를 제시합니다.
본 글에서는 해당 논문을 심층적으로 분석하여 Titans 모델의 핵심 아이디어, 특징, 다양한 구조적 변형, 그리고 실험 결과를 상세히 살펴보고자 합니다.
트랜스포머 모델은 어텐션(Attention) 메커니즘을 통해 문맥 내 토큰 간의 관계를 효과적으로 포착하지만, 다음과 같은 문제점을 안고 있습니다.
이러한 한계를 극복하기 위해, Titans 모델은 다음과 같은 세 가지 주요 구성 요소를 도입하여 장기 기억 능력을 강화합니다.
Titans 모델은 이러한 구성 요소를 유기적으로 결합하여, 긴 문맥을 효과적으로 처리하고 다양한 태스크에서 뛰어난 성능을 보이는 것을 목표로 합니다.
Titans 모델의 핵심은 장기 신경 메모리(LTM)입니다. LTM은 다음과 같은 특징을 가집니다.
Titans 모델은 트랜스포머와 유사하게 어텐션 메커니즘을 사용하여 현재 문맥 내의 토큰 간 관계를 포착합니다. 어텐션 메커니즘은 각 토큰에 대한 가중치를 계산하여, 현재 문맥 내에서 중요한 정보를 강조합니다.
지속적 메모리는 학습 가능한 파라미터로 구성되며, 입력 데이터에 독립적으로 태스크 관련 지식을 저장합니다. 지속적 메모리는 입력 시퀀스의 시작 부분에 추가되어, 어텐션 가중치를 재분배하고 모델의 초기 학습을 돕는 역할을 합니다.
Titans 모델은 LTM을 아키텍처에 통합하는 세 가지 방법을 제시합니다.
MAC 구조는 LTM을 현재 문맥과 함께 사용하여 정보를 처리합니다.
MAC 구조는 어텐션이 과거 및 현재 문맥을 모두 고려하여 필요한 장기 메모리 정보를 선택적으로 활용할 수 있도록 합니다.
MAG 구조는 슬라이딩 윈도우 어텐션(SWA)과 LTM을 결합하여 정보를 처리합니다.
MAG 구조는 단기 및 장기 메모리를 병렬적으로 처리하여 효율성을 높입니다.
MAL 구조는 LTM을 어텐션 레이어 앞에 추가하여 정보를 처리합니다.
MAL 구조는 단순하지만, 어텐션과 LTM의 상호작용을 효과적으로 활용하지 못할 수 있습니다.
Titans는 LTM 단독으로도 성능을 평가하기 위해, LTM을 단독으로 사용한 모델도 제시합니다. 이를 통해 LTM 자체의 학습 능력과 효과를 검증합니다.
Titans 모델의 성능을 검증하기 위해 다양한 태스크에서 실험을 진행했습니다.
Titans 모델은 언어 모델링(Wikitext, LMB) 및 상식 추론(PIQA, HellaSwag, WinoGrande, ARC-e, ARC-c, SIQA, BoolQ) 태스크에서 기존 모델 대비 뛰어난 성능을 보였습니다. 특히 LTM 모듈은 깊이(Depth)가 깊어질수록 더 나은 성능을 보여주었으며, 장기 문맥에서 더욱 강력한 성능을 나타냈습니다.
니들 인 헤이스택(NIAH) 태스크는 긴 문맥에서 특정 정보를 찾는 능력을 평가하는 벤치마크입니다. Titans 모델은 NIAH 태스크에서 긴 문맥에서도 정확하게 정보를 찾을 수 있으며, 기존 모델 대비 뛰어난 성능을 보였습니다.
BABILong 벤치마크는 매우 긴 문서에서 여러 사실을 추론하는 능력을 평가하는 벤치마크입니다. Titans 모델은 BABILong 벤치마크에서 다른 모델들을 압도적으로 능가하는 성능을 보여주었으며, 장기 문맥 처리 능력의 우수성을 입증했습니다.
Titans 모델은 시계열 예측(ETT, ECL, Traffic, Weather) 및 DNA 모델링 태스크에서도 좋은 성능을 보이며, 다양한 분야에 적용 가능성을 입증했습니다.
Titans 모델은 기존 모델에 비해 학습 효율성이 뛰어나며, Ablation 연구를 통해 각 구성 요소가 모델 성능에 긍정적인 영향을 미친다는 것을 확인했습니다. 특히 망각 메커니즘, 모멘텀, 지속적 메모리 등이 모델 성능에 큰 영향을 미치는 것으로 나타났습니다.
Titans 모델은 트랜스포머의 한계를 극복하고 장기 기억 능력을 극대화하는 새로운 아키텍처입니다. 테스트 시간 학습, 놀라움 기반 학습, 모멘텀 및 망각 메커니즘을 통해, Titans 모델은 긴 문맥을 효과적으로 처리하고 다양한 태스크에서 뛰어난 성능을 보여줍니다.
Titans 모델은 기억 메커니즘을 강화한 머신러닝 모델 설계의 새로운 방향을 제시하며, 앞으로 더 많은 연구를 통해 발전할 가능성을 보여주고 있습니다. 이 모델은 단순히 정보를 기억하는 것을 넘어, 정보를 선택적으로 기억하고 추상화하는 새로운 학습 패러다임을 제시하고 있다는 점에서 큰 의미를 가집니다.
향후 연구 방향:
이 글이 Titans 모델에 대한 이해를 높이는 데 도움이 되었기를 바랍니다.
참고 자료: