강의에서는 모델 내부에서 발견된 세 가지 일반적인 작동 방식 모티프를 소개한다.
-
Q: 수도-댈러스 예시에서, 오스틴과 같은 단어들이 인터넷 텍스트에 자주 함께 등장한다면, 이는 단순한 통계적 상관관계(statistical correlations) 아닌가? 모델이 복잡하게 추론한다고 보는 것은 과잉 해석 아닌가요?
- A: 텍사스의 휴스턴 역시 훈련 데이터에서 댈러스와 함께 등장하지만, 모델은 휴스턴을 말하지 않습니다. 모델은 수도(capital)의 개념과 댈러스를 함께 사용해야 합니다.
- 실제로 수도(capital)과 댈러스가 근접해 있으면 오스틴을 출력할 수 있는데, 그래프에서 이 연결이 약하게 나타나는 것은 실제로 단순한 통계적 인접성만으로도 작동할 수 있음을 시사하기도 합니다.
-
Q: 사전 크기(dictionary size)는 어떻게 결정했나요?
- A: 다양한 크기의 사전을 훈련하는 스캔을 수행하여, 계산 비용, 근사의 정확도(활성화를 얼마나 잘 재구성하는지), 그리고 해석 가능성(interpretability) 사이의 균형점을 찾았습니다. 사전이 클수록, 혹은 밀도가 높을수록 정확도는 좋지만, 어느 시점부터는 해석 가능성에 비용을 지불하게 됩니다. 이 모든 것을 고려하여 충분히 좋은 것을 선택했습니다.
-
Q: CLT 아키텍처에서 MLP를 트랜스코더로 대체하고 어텐션을 고정하는 것이 불필요한 복잡성을 추가하는 것 아닌가요?
- A: 더 적은 작업으로 구성 요소를 해석 가능하게 만들 방법을 찾지 못했습니다. 기반 모델의 구성 요소(뉴런)는 그 자체로 해석 가능하지 않기 때문에, 무언가(세포를 장기로 분해하는 것처럼)로 분해해야 합니다. 분해 과정에서 많은 것을 잃지만, 부품들이 어떻게 작동하는지에 대해 이야기할 수 있는 이점을 얻습니다. 이는 현재로서는 최선의 접근 방식입니다.
-
Q: 이 연구는 인간의 뇌와 인지 연구(medicine side)에서 영감을 얻었나요?
- A: 뉴런을 제거하고(ablations) 변화를 관찰하는 인과적 교란(causal perturbations) 방식은 신경과학이나 유전학에서 영감을 받은 것입니다. 하지만 우리의 실험 설정은 훨씬 뛰어납니다. 우리는 10억 번 연구할 수 있는 하나의 "뇌"를 가지고 있으며, 모든 것에 개입하고 모든 것을 측정할 수 있기 때문에, 이제는 우리가 신경과학자들보다 더 앞서나가고 있을 수 있습니다.
-
Q: 시스템과 출현 속성(emergent properties)의 관계를 어떻게 다루나요? 시스템을 분해하면 출현 속성을 잃게 되지 않나요?
- A: LLM은 입력에서 출력으로 정보가 흐르는 과정에서 잠재 공간(latent spaces)이 점점 더 높은 수준의 표현(higher level of representation or complexity)으로 작동하는 것이 특징입니다.
- 예를 들어, 시각 피질이 낮은 수준의 감지(가장자리, 모양)에서 점차 특정 얼굴에 민감한 세포로 추상화되는 것처럼, LLM에서도 계층적으로 추상화가 구축됩니다.
- '코드 내 오류'에 민감한 특징처럼, 원자 단위 중 하나가 매우 일반적인 방식으로 오류에 민감할 수 있습니다. 다만, 컨텍스트 내에서 발생하는 동적 시스템적 활동은 훨씬 더 이해하기 어려울 수 있습니다.
-
Q: 특징을 교란(perturbation)했을 때, 의도한 목적 외의 다른 작업에도 영향을 미치나요 (폴리시메트리)?
- A: 우리가 너무 강하게 밀어붙이면 모델은 크게 이탈합니다. 이 실험들은 모델 행동을 형성하기 위한 목적이 아니라, 이 단일 예시에서 우리의 가설을 검증하기 위한 목적이었습니다.
-
Q: 뒤로 추적할 때 관련 특징의 수가 폭발적으로 증가합니까?
- A: 예, 모델 초기로 거슬러 올라갈수록 관련 특징의 수가 증가하는 경향이 있습니다. 때로는 수렴되기도 합니다. 아직 이 질문에 답할 만한 좋은 그래프를 만들지는 못했습니다.
-
Q: 이러한 예시는 신중하게 선택된 것인가요, 아니면 대부분의 문장에서 작동합니까?
- A: 시도하는 프롬프트의 약 40%에서 비자명한(non-trivial) 작동 방식을 확인할 수 있습니다. 전체 그림을 보여주지는 못하며 가끔 실패하기도 하지만, 일단 기계를 구축하면 사전 가설 없이도 모델에 대해 무언가를 배울 수 있습니다.
-
Q: 동일한 작동이 여러 계층에 걸쳐 중복으로 저장되나요?
- A: 예, 중복성이 존재합니다. 모델이 A와 B를 알더라도, 순차적으로 작용해야 하는 경우 머릿속에서 이를 구성할 수 없으면(예: 연쇄적인 정보 검색) 작동하지 못할 수 있습니다.
- Crosscoder 설정은 이러한 중복성 일부를 통합(zip up)하려고 시도한 것입니다. 예를 들어, '코펜하겐' 특징은 '덴마크'와 상호 작용하며 모델의 여러 위치에서 미세한 조정을 수행하며 전파됩니다.
-
Q: 모델이 환각을 일으키지 않게 만들려면 어떻게 해야 하나요?
- A: 이는 매우 어려운 문제입니다. 더 나은 자체 지식(self-knowledge)에 대해 모델을 더 잘 보정(calibrate)하도록 훈련시키거나, 사고 태그(thinking tags)를 통해 모델이 실제로 점검하고 검토하도록 허용할 수 있습니다. 모델은 순방향 통과(forward pass)보다는 반성(reflection)에서 훨씬 더 잘 수행합니다.
- 또 다른 가능성은 모델을 다소 멍청하게 만들 수 있습니다. 즉, 검증에 더 많은 용량을 사용하여 환각은 없지만 전반적으로는 덜 똑똑한 모델을 만드는 절충안을 택할 수도 있습니다.
- 아키텍처 문제: 트랜스포머 아키텍처 자체가 문제일 수도 있습니다. 순환적(recurrent) 아키텍처를 사용하면 점검을 위한 더 많은 루프(loop)를 줄 수 있습니다. 또한 완전 적응형 컴퓨팅(fully adaptive compute)을 통해 특정 확신 수준에 도달할 때까지 토큰당 가변 컴퓨팅을 허용할 수 있습니다.