[논문리뷰] Sparse Autoencoders find highly interpretable features in language models

Minjung Kim·2025년 3월 26일

논문리뷰

목록 보기

5/6

Objective : Solving the problem of ambiguity
- 하나의 뉴런이 여러개의 의미로 구분되는 상황
- 인간이 신경망 내부를 이해하기 어렵게 만든다
Solution : Sparse encoder를 통해, 인코딩되는 과정에서 활성화되는 뉴런 수를 제한 → 많은 뉴런이 동시에 활성화되지 않도록

AI의 발전으로 인간이 이해하기 어려운 결정 과정을 가진 AI 시스템이 개발되고 있음
시스템의 불투명성 ⇒ 신뢰성, 안전성에 대한 우려 발생
신경망 이해/해석의 주요 장애물 → polymorphism : 개별적인 뉴런이 여러 의미로 활성화되는 현상
- 원인 : Superposition
  - 신경망이 개별 뉴련이 표현할 수 있는 것보다 더 많은 특징을 표현하는 현상
  - 하나의 뉴런이 여러가지 특징을 동시에 표현하려고 시도, 고차원공간에서 여러 방향성을 갖게 됨
Sparse autoencoder를 통해, polysemanticity를 줄이고 interpretability를 강화하고자 함

Feature dictionary : 신경망이 input data를 표현하기 위해 사용하는 특징들의 모음
소수의 뉴런들이 특정 패턴을 나타내도록 선형적으로 조합
- 독립적인 방향을 갖도록 reconstruct하여 하나의 뉴런이 여러 의미를 동시에 갖지 않도록 함
- activation space를 개별적인 특징으로 분해한 feature dictionary를 통해 모델의 내부 동작을 더 잘 이해할 수 있음
  - 뉴런 → 하나의 특징만을 가짐
  - 특징 → 하나의 의미 또는 역할을 가짐

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html 에서 제안한 자동화된 해석 가능성 측정 방식을 활용
LLM을 이용하여 각 feature에 대해 사람이 읽을 수 있는 설명을 생성, 이 설명을 통해 다른 text sample에서의 feature activation을 예측
예측한 activation ↔ 실제 activation 간의 관계를 통해 각 feature의 interpertability score 반환
score가 높을수록, 해당 뉴런이 특정 상황에서 일관되게 활성화됨을 확인

Related work
- 기존 : 훈련 중에 데이터를 학습 + 가중치를 최적화. 이 과정에서 sparsity를 넣으려면 훈련 과정 자체를 변경하거나 특별한 제약을 추가해야 함
- 본 연구 : 모델이 완전히 훈련된 후, 훈련된 가중치나 뉴런의 활성화 값들을 분석하여 불필요한 부분을 제거하거나 특정 뉴런만 활성화되도록 하는 방법을 사용함
Limitation & Future work
- layer 간의 정보 손실이 발생 → 다른 유형의 autoencoder 사용 / 훈련 과정에서의 조정 고려
- residual stream 이외의 다른 아키텍쳐에 대한 적용 어려움
  - Transformer의 MLP에 적용한 결과 : interpretability가 높은 feature도 발견할 수 있었지만, dead features 라는 문제가 발생 → 추가 연구 필요
conclusion
- Sparse autoencoder를 활용하여 superposition 문제를 해결할 수 있고, 모델의 interpretability를 향상시킬 수 있음
- 학습된 feature는 더 해석하기 쉽고, monosemantic하기 때문에 모델이 동작하는 데 있어 세밀하게 분석하고 조정할 수 있음