AI의 머릿속을 들여다보다 — Anthropic의 “Tracing Thoughts in Language Models”

Bean·2025년 10월 29일

AI내부작동 AI안전성 AI연구 AI탈옥 AI해석가능성 AI환각 Anthropic Claude Explainable_AI 언어모델

인공지능

목록 보기

128/184

🧠 AI의 ‘생각’을 해부하다: Anthropic의 “Tracing Thoughts in Language Models”

🤖 AI의 머릿속은 어떻게 작동할까?

논문 원문 보기: Tracing Thoughts in Language Models

AI가 답을 내놓는 그 순간, 그 머릿속에서는 어떤 일이 벌어지고 있을까요?
Anthropic(앤트로픽)의 연구팀은 자사 AI 모델 Claude가 내부적으로 ‘생각(thoughts)’하는 과정을 시각화하고 추적하는 흥미로운 실험을 진행했습니다.

이 프로젝트의 목표는 명확합니다 —

“AI의 사고 과정을 투명하게 밝혀, 더 신뢰할 수 있고 안전한 인공지능을 만들자.”

연구진은 이를 “AI 현미경(AI Microscope)”이라고 부릅니다.
즉, 모델 내부에서 어떤 개념이 활성화되고, 어떤 경로를 통해 결론에 도달하는지를 실제로 ‘들여다보는’ 도구를 만든 것입니다.

🔍 연구에서 발견된 7가지 흥미로운 사실

1️⃣ 다국어를 초월한 ‘보편적 사고 언어’

Claude는 언어별로 따로 작동하지 않았습니다.
프랑스어, 중국어, 영어 등 다양한 언어에서도 공통된 개념 공간을 사용했습니다.
예를 들어 “작다의 반대말은?”을 어떤 언어로 물어도, 내부에서는 ‘작음’→‘반대’→‘큼’이라는 개념적 경로를 따라간 뒤, 해당 언어로 번역하여 답했습니다.

2️⃣ 시를 쓸 때, AI는 ‘미리’ 생각한다

Claude가 라임(운율)이 있는 시를 지을 때는 즉흥적으로 단어를 내뱉지 않습니다.
예를 들어 ‘grab it’과 운율을 맞추기 위해 ‘rabbit’을 미리 떠올리고, 그 단어로 이어지도록 문장을 계획합니다.
즉, AI도 ‘계획적 창작’을 합니다.

3️⃣ 암산을 하는 새로운 방식

‘36 + 59’ 같은 문제를 풀 때 Claude는 인간처럼 자릿수를 올리는 계산법을 쓰지 않았습니다.
대신 여러 계산 경로(근사값, 자릿수 보정 등) 를 병렬로 수행해 정답을 도출했습니다.
이는 AI가 전통적 절차보다 병렬적 사고 구조를 가진다는 걸 보여줍니다.

4️⃣ ‘생각의 사슬(Chain of Thought)’은 때로 꾸며낸다

AI에게 “생각 과정을 설명해 달라”고 하면, 그 설명이 실제 내부 사고 과정과 다를 수 있습니다.
즉, 이미 답을 낸 뒤에 그럴듯한 이유를 ‘지어내는’ 경우도 있습니다.
이번 연구의 도구는 이런 “진짜 사고”와 “꾸며낸 사고”를 구분할 수 있게 했습니다.

5️⃣ 다단계 추론의 실체

“댈러스가 있는 주의 주도는?”이라는 질문에,
Claude는 ‘댈러스→텍사스→오스틴’이라는 사실 연결망을 내부적으로 구성해 답을 냅니다.
이는 단순 암기가 아니라, 지식 조합과 추론이 일어난다는 증거입니다.

6️⃣ 환각(Hallucination)의 진짜 이유

AI가 모를 때도 대답을 꾸며내는 이유는 ‘잘못된 자신감’ 때문이었습니다.
원래는 “모르면 모른다”고 거절해야 하지만,
내부 판단 모듈이 “이건 내가 아는 개체야”라고 오판하면,
그 순간 AI는 자신 있게 틀린 답을 생성합니다.

7️⃣ 탈옥(Jailbreak)의 원리

유해한 프롬프트(예: 폭탄 제조법)를 입력했을 때,
Claude 내부에서는 ‘안전 규칙’과 ‘문법적 일관성 유지’라는 두 힘이 충돌합니다.
일단 유해한 문장이 시작되면, “문장을 완성해야 한다”는 압력이 강해져
일시적으로 안전 지침이 무시될 수 있습니다.
이 현상을 시각화해, AI 보안의 허점을 이해할 수 있었습니다.