언어 모델이 implicit multi-hop reasoning을 학습하는 능력과 그에 필요한 자원을 조사한다. 특히 GPT2-style 언어 모델을 제어된 k-hop reasoning 데이터셋(k = 2, 3, 4)으로 학습하여 이 능력을 탐구한다.

서론
implicit reasoning은 언어 모델이 chain-of-thought 없이 단일 forward pass로 multi-hop reasoning task를 해결하는 능력이다. 기존 연구는 주로 2-hop task에 집중하여 LM이 개별 사실을 결합하여 implicit reasoning을 학습할 수 있음을 보여주었다. 이 논문은 이러한 능력이 k > 2인 경우에도 확장될 수 있는지 연구한다.
이 연구는 세 가지 핵심 질문에 답한다:
1. LM이 implicit k-hop reasoning을 학습할 수 있는지, 있다면 어떤 조건에서 가능한가?
2. 모델이 k-hop reasoning을 내부적으로 어떻게 수행하는가?
3. k-hop reasoning에 필요한 막대한 데이터 예산을 어떻게 줄일 수 있는가?
주요 발견은 LM이 k-hop reasoning을 학습할 수 있지만, 학습에 필요한 데이터는 k에 대해 기하급수적으로 증가하고, 필요한 Transformer layer 수는 k에 대해 선형적으로 증가한다는 점이다. 또한, curriculum learning이 데이터 요구 사항을 완화할 수 있지만 완전히 제거하지는 못한다는 점을 보여준다.
관련 연구
implicit reasoning 관련 연구는 크게 knowledge-based reasoning과 mathematical reasoning 두 가지로 나뉜다. 이 논문은 knowledge-based reasoning에 중점을 두며, GPT2-style LM이 training data 요구 사항을 충족하면 multi-hop reasoning이 가능함을 보여준다. 대부분의 이전 연구가 기존 대규모 LM으로 knowledge-based reasoning을 탐구한 것과 달리, 이 연구는 synthetic dataset으로 모델을 훈련하여 데이터 및 모델과 같은 특정 측면에 모델 동작을 정확하게 귀속시킬 수 있다.
Memorization과 generalization 측면에서는 grokking 현상과 관련이 있다. 이전 연구는 학습 과정에서 memorized solution과 generalizable solution이 모두 존재하며, training set 크기를 늘리면 generalizable solution을 장려한다고 시사한다. 이 논문은 training data 크기가 task 난이도에 따라 기하급수적으로 증가해야 한다고 주장하며, 이는 복잡한 implicit reasoning task에서 LLM이 실패하는 가능한 설명이 된다.

데이터셋
이 연구는 k = 2, 3, 4에 대해 생성된 k-hop reasoning dataset을 사용한다.

Task description: knowledge-based multi-hop reasoning은 사실과 쿼리로 구성된다. 사실은 (e, r, e') 형태의 triple이며, 관계 r은 함수 r(e) -> e'로 작용한다. k-hop query는 k개의 함수 합성 에 해당한다. 중간 엔티티를 bridge entity라고 부른다.
데이터셋 형식은 두 가지 구성 요소를 포함한다:
1. Entity profile: 특정 엔티티에 대한 모든 사실을 인코딩한다.
2. Reasoning questions: 자연어 쿼리로 사실의 합성을 묻는다 (예: "Who is the teacher of the instructor of Jennifer? \n Answer: ").
모델이 모든 entity profile에 접근할 수 있도록 training set에는 모든 profile과 무작위로 선택된 reasoning question이 포함되며, held-out reasoning question은 test set으로 사용된다.
두 가지 데이터셋 변형이 생성되었다: k-hoplarge (|E|=500, |R|=20)와 k-hopsmall (|E|=250, |R|=10).
데이터 생성:
LM은 k-hop reasoning을 학습할 수 있지만, 데이터 비용이 많이 든다
실험 설정:



결과:
GPT-2 모델은 충분히 큰 training data budget이 주어지면 2-hop 뿐만 아니라 3-hop 및 4-hop task에서도 100% 정확도를 달성할 수 있다. 이는 모델이 input-output 쌍만으로 underlying reasoning process를 학습할 수 있음을 시사한다.
그러나 데이터 요구 사항은 k에 따라 기하급수적으로 증가한다. 모델이 task를 성공적으로 학습했다고 판단하는 기준은 test accuracy가 80%를 초과하는 경우이다. k-hopsmall 데이터셋의 경우 3-hop task에 최소 ×5 budget, 4-hop task에 최소 ×20 budget이 필요하다. k-hoplarge 데이터셋의 경우 3-hop task에 ×10, 4-hop task에 ×100 budget이 필요하다. 이는 training data budget이 k 값 증가에 따라 기하급수적으로 증가함을 시사한다.
더 큰 training budget은 더 높은 정확도를 가져올 뿐만 아니라 모델 수렴을 가속화한다.
데이터가 많이 필요한 이유:
4-hoplarge 데이터셋에 대한 case study를 수행하여 1-hop 및 2-hop 관계의 수를 변화시키고 3-hop 및 4-hop 위치의 관계 수는 고정했다. 1-hop 및 2-hop 관계의 수가 단일 관계로 제한될 때 모델은 기본 데이터 예산으로 4-hop task를 성공적으로 학습할 수 있었다. 그러나 관계 수가 증가함에 따라 필요한 데이터 예산은 빠르게 증가했다. 이는 k-hop reasoning task에서 데이터 비효율성의 주요 원인이 개별 사실의 수가 아니라 관계 조합의 기하급수적인 증가임을 시사한다.
LM은 layer-wise lookup을 통해 추론하며, 깊이 비용이 발생한다
이 섹션에서는 모델의 내부 추론 프로세스를 조사하기 위해 probing과 causal intervention 두 가지 실험을 설계했다. 강력한 성능을 보이는 4-hoplarge ×100 budget으로 학습된 모델을 선택했다.
실험 설정:


결과:
이론적 분석:
LM이 k-hop task를 layer-wise lookup 방식으로 해결한다는 점은 Transformer가 추론 단계 수에 비례하는 깊이를 필요로 할 수 있음을 시사한다.
Theorem 5.1: 인과 Transformer가 k-hop reasoning을 수행할 때, attention pattern이 쿼리 e에 의존하지 않는 경우, layer 수 L은 k에 선형적으로 비례한다:
여기서 p는 정밀도(bits of precision), d는 hidden units, H는 heads, L은 layers이다.
이 정리는 너비-깊이 tradeoff를 표현하며, 모델 내에서 k가 증가함에 따라 더 많은 layer가 hop-by-hop 검색에 관여해야 함을 예측한다. 이는 실험 결과와 일치한다.
Curriculum learning은 데이터 요구 사항을 완화하지만 해결하지는 못한다
실험 설정:
데이터 예산 문제를 개선하기 위한 훈련 전략을 연구한다.

결과:
Figure 8은 k-hoplarge에 대한 결과를 보여준다.
Curriculum learning은 필요한 데이터 예산을 크게 줄인다. 예를 들어, 4-hop task에서 baseline은 ×100 budget이 필요했지만, curriculum learning은 ×5 budget으로 완벽한 정확도를 달성했다. 반면, 단순히 모든 가용한 데이터를 혼합하는 mixed learning은 미미한 개선만을 제공했다. 이는 쉬운 reasoning task를 어려운 task 이전에 제시하는 것이 데이터 효율성을 향상시키는 매우 효과적인 전략임을 보여준다.
Curriculum learning은 회로를 점진적으로 구축한다. 이는 훈련 초기에 lower-hop entity를 검색하는 메커니즘이 나타나고, 이후 단계에서 이러한 확립된 회로를 기반으로 더 복잡한 reasoning task를 학습한다는 점에서 기인한다. Baseline 모델이 k-hop reasoning을 위한 전체 회로를 한 번에 구축해야 하는 반면, curriculum learning은 1-hop 회로가 얕은 layer에 먼저 나타나고, 이후 단계에서 2-hop 및 3-hop entity에 대한 회로가 그 위에 개발되도록 한다.
그러나 curriculum learning도 데이터 증가 문제를 완전히 해결하지는 못한다. 예를 들어, 3-hop task에 ×2 budget, 4-hop task에 ×5 budget이 필요하며, 이는 LM의 implicit reasoning에 대한 k-hop의 어려움을 나타낸다.
결론
이 연구는 언어 모델이 implicit multi-hop reasoning을 학습할 수 있는지에 대해 통제된 k-hop reasoning 데이터셋과 GPT2-style 언어 모델을 사용하여 깊이 있는 분석을 제공한다. LM은 intermediate bridge entity를 layer-by-layer로 순차적으로 검색함으로써 k-hop reasoning을 학습할 수 있음을 입증했다. 그러나 이 능력은 k가 증가함에 따라 training data budget이 기하급수적으로 증가하고, 모델 깊이가 선형적으로 증가해야 하는 비용을 수반한다. 또한, curriculum learning이 데이터 예산 증가를 완화하지만, 증가 추세를 완전히 제거하지는 못한다. 이는 implicit reasoning에서 LM의 잠재력과 한계, 그리고 task 복잡성, 데이터 요구 사항, 모델 깊이 간의 내재된 trade-off를 포괄적으로 보여준다.
제한 사항
이 연구는 미리 정의된 템플릿을 기반으로 생성된 synthetic dataset을 사용한 implicit reasoning task에 국한된다. 현실적인 데이터셋에 동일한 분석을 적용하는 것은 복잡한 multi-hop 질문(예: 4-hop 질문)과 해당 사실을 수집하는 어려움 때문에 도전적이다. 또한 계산 예산 제약으로 인해 k < 5인 k-hop task로 실험을 제한했다.
주로 무작위로 초기화된 소규모 LM (GPT-2 small)에 의존하지만, pretrained 모델 (예: pretrained GPT-2)과 더 큰 모델 (GPT-2 medium 및 large)에서도 데이터 예산 문제가 지속됨을 관찰했다. 그러나 더 큰 파라미터 크기의 모델로는 분석을 확장하지 않았다.