Feature dictionary : 신경망이 input data를 표현하기 위해 사용하는 특징들의 모음
소수의 뉴런들이 특정 패턴을 나타내도록 선형적으로 조합





Sparse coding이 초기 레이어에 대해 특징을 명확하게 분리하고 이해하는 성능을 보여줌
하지만, 후반부 레이어로 갈 수록 특징이 복잡해지기 때문에 성능이 떨어진다고 할 수 있음
GPT가 인간이 생성한 설명과 매우 비슷한 설명을 생성할 수 있음을 보여줌
하지만, LLM이 찾을 수 있는 패턴은 제한되어 있고, 다음 혹은 이전 token을 중심으로 하는 패턴을 찾아내는데 어려움을 겪음
스스로 평가하고 검증하는 능력이 부족함

Analysis of Individual Features
input : 특정 특징이 어떤 토큰과 컨텍스트에서 활성화되는지를 분석하여 해당 특징의 의미를 이해
output : 특징을 제거하거나 수정하면서 모델의 출력 로짓에 어떤 변화가 발생하는지를 관찰 + feature의 역할, 영향 이해

Inter-Feature Relationship : 특정 특징이 이전 및 이후 레이어의 어떤 특징들과 연관되어 있는지를 탐색 + feature 간의 인과관계 파악

박스 : 특징, 특정 상황에서 각 특징들이 어떤 의미를 갖게 되는지 설명