이번 글에서는 “causal scrubbing”, 즉 어떠한 mechanistic interpretation의 타당성을 실험하기 위해 고안된 체계적인 방법론을 다룬다. Causal scrubbing의 핵심은 모델의 행동 특성을 보존하는 방식으로 resampling을 하면서 ablation을 진행하는 것이다. 우리는 이 방법론을 가지고 어떻게 작은 언어모델이 induction (귀납적 추론)을 행하고, 구체적인 예시로 어떻게 괄호들로 이루어진 sequence가 주어졌을 때 괄호가 제대로 닫혀있는지 판별할 수 있는지를 규명한다.
Causal Scrubbing a method for rigorously testing interpretability hypothesis [Redwood Research]
Causal Scrubbing a method for rigorously testing interpretability hypothesis [Redwood Research] 이해하기