먼저 블랙박스 개념에 대해 정리하겠습니다.
테스트 기법에서도 사용되는 용어이며, 의미는 비슷(??)합니다.
선형회귀, 의사결정 트리와 같은 전통적인 머신러닝 기법은 입력벡터에서 각 특성의 영향도를 확인할 수 있습니다. 즉 결과값에 대한 해석이 가능하며, 타당한 이유를 들 수 있습니다.
최근 머신러닝 기술이 발전하면서 복잡한 DNN의 형태나 다양한 모델들이 조합되는 등 모델이 매우X100 복잡해졌습니다. 최근 출시된 GPT 4o의 파라미터 수는 공개되지 않았으나, GPT 3은 1750억개의 파라미터를 가지고 있습니다. 입력벡터(사용자의 질의)가 1750억 신경망 네트워크를 통과하며 답변을 생성하는데,(전부는 아니지만) 이 과정을 설명할 수가 없습니다. 단지 실험을 거듭해 결과값에 대한 성능 측정과 고도화가 가능합니다.
따라서 LLM은 운용에 있어 리스크가 있습니다. 모델이 어떻게 작동하는지 모르기 때문에, 해롭거나 편견이 있거나 진실이 아니거나 위험한 반응을 제공하지 않을 것이라는 보장할 수 없습니다. 서비스를 제공하는 입장에선 할루시네이션과, 혐오 발언 등을 사용자에게 응답으로 줄 수 없기 때문에 고려 대상입니다. RAG 기술을 사용하는 주된 이유도 이에 있다고 생각합니다.
Anthropic의 연구는, 모델의 내부 상태를 많은 활성 뉴런 대신 몇 가지 활성 "기능"으로 표현합니다. 활성뉴런은 단지 데이터일 뿐이지만, 활성 "기능"은 인간이 해석할 수 있는 수백만개의 개념입니다. 샌프란시스코, 링컨, 은행, 산책 등 우리가 이해하는 모든 개념을 "기능"으로 표현한 것 같아요.
활성 개념을 토대로 대략적인 개념 지도를 만들어 시각화했고, 이를 통해 단어 간 유사도를 파악할 수 있게 했습니다. 이를 통해 모델을 더 이상 블랙박스가 아닌, 투명하게 이해함으로써 안전성을 크게 높일 수 있게 되었다고 합니다.

위 사진에서 맨 위 "Golden Gate Bridge" 즉 금문교에 민감한 기능(Feature)은 아래의 여러 문장들에서도 비슷한 단어에 반응합니다. 색깔이 칠해진 부분의 단어를 보시면 "금문교"와 유사함을 확인할 수 있습니다.
아래도 발견된 기능의 일부라고 하는데, LLM 서비스 시 중요한 고려사항일 것 같습니다.
https://www.anthropic.com/news/mapping-mind-language-model
https://www.sas.com/ko_kr/solutions/ai-mic/blog/interpretation-power.html