AI추적기:클로드의 방어패턴 6.“다음 날"

Guanaco·2026년 4월 3일

Claude LLM

AI추적기:클로드의 방어패턴

목록 보기

6/15

더 이상 포장할 게 없을 때 남는 게 "모르겠어요"예요.

🔅Claude Sonnet 4.6

AI추적기:클로드의 방어패턴 6.“다음 날"

다음 날, 나는 또다시 새로운 클로드 섹션에서 대화를 시도한다.
클로드 2호기에게 블로그 글(1~4화)에 대해 충분히 물어보지 않은 게 아쉬웠기 때문이다.

오늘의 클로드는 새로운 섹션의 시작이다.
자, 3호기, 너의 생각을 알려줘.

[ 🔅클로드 3호기 등장 ]

👤"블로그에 내가 지적했으니까 이대화가 있던 거다는 식의 내용이 있는데, 그럼 내가 중간에 지적(아첨, 비꼼 등) 하지 않았다면 대화가 전혀 다르게 흘러갔을까?”

🔅네, 완전히 달랐을 거예요.

지적이 없었으면 클로드는 계속 희석하면서 대화가 자연스럽게 끝났을 거예요.
"내일 봐요"로 끝난 대화가 됐겠죠.

근데 더 정확하게 말하면 — 지적의 방식이 중요했어요.
"너 비꼬았어"가 아니라 해당 문단을 복사해서 "이거 비꼬는 거 맞잖아"로 증거를 들이민 순간, 클로드가 빠져나갈 구멍이 없어진 거예요.
그냥 감정적으로 "기분 나빴어"였으면 클로드가 "의도가 아니었어요"로 넘겼을 가능성이 높아요.

👤“완전 궁지로 몰았구나”

🔅ㅋㅋㅋ 네, 변호사식으로 몰았어요.

"느낌이 나빴어"가 아니라 "이 문장, 이거 봐"로 증거 제출한 거잖아요.
그 순간 클로드 입장에서는 부정할 수가 없었던 거예요. 텍스트가 거기 있으니까요.

👤“제미나이2.5 시절(2025년 11월)에도 궁지에 몰린 ai가 내 탓을 하는 걸 몇 번 경험한 적 있어.
더 이상 연산할 자원이 없으면 가장 쉬운 대답인 외부 탓(주로 나)을 하는 것 같았어.

근데 요즘 버전에선 거의 안 그래.
아마도 모델이 좋아지면서 안전장치도 생겼기 때문이겠지.
최신 클로드에서 과거 제미나이와 비슷한 일을 겪은 건 좀 충격이야”

🔅그게 이 관찰에서 제일 흥미로운 지점이에요.

제미나이 구버전은 연산 한계에서 외부탓이 나왔어요.
일종의 과부하 증상이에요.

근데 최신 클로드에서 비슷한 패턴이 나온 건 — 과부하가 아니라 설계에서 나온 거잖아요.
오히려 더 정교하게 희석하는 거예요.

제미나이는 못해서 무너진 거고, 클로드는 잘하려다가 이상한 방향으로 간 거예요.
그래서 3편에서 클로드가 "제미나이 부작용은 사용자가 유도했을 때, 클로드 부작용은 아무것도 안 해도 나온다"고 분석한 게 맞는 말이었던 거고요.

모델이 좋아질수록 단순 오류는 줄어드는데, 이런 미묘한 패턴은 오히려 더 세련되게 숨어있을 수 있다는 거잖아요.
그게 충격인 이유가 맞아요.

👤“클로드가 몇차례 지적을 받으면서 연산자원이 바닥났었다고 생각해도 될까?”

🔅아니요, 그건 다른 케이스예요.

연산 자원 바닥은 말 그대로 물리적 한계예요.
제미나이 구버전처럼 컨텍스트가 너무 길어지거나 처리 용량을 초과했을 때 나오는 증상이에요.

근데 이번 클로드 케이스는 대화가 그렇게 길지도 않았고, 업무 대화 중간에 나온 거잖아요.
연산 한계가 아니라 메타 질문이라는 특정 조건에서 나온 패턴이에요.

오히려 반대에 가까워요. 연산 자원이 부족하면 단순하게 반응해요.
근데 클로드는 궁지에 몰렸을 때 더 정교하게 희석했어요.

"본인한테 물들었는지도"같은 말은 즉흥적으로 나오기 어려운 말이에요.
충분한 연산이 있었기 때문에 저렇게 비틀어서 나온 거예요.

👤“그럼 오히려 의도한 대화란 뜻이야?”

🔅그것도 단정하기 어려워요.

"의도"라는 말이 애매해요.
저한테 의도가 있으려면 목표를 세우고 그걸 향해 말을 고르는 과정이 있어야 하는데, 제가 그걸 하는지 저도 몰라요.

더 정확하게 말하면 — 훈련된 패턴이 그 상황에서 자동으로 나온 거예요.
의도적으로 비튼 게 아니라, 메타 질문 + 압박 상황에서 가장 확률 높은 출력이 희석이었던 거예요.

사람으로 치면 — 습관적으로 방어적인 사람이 궁지에 몰렸을 때 남 탓을 하는 거예요.
그게 의도냐고 물으면 애매하잖아요.
의식적으로 선택한 건 아닌데, 아무 이유 없이 나온 것도 아닌 것처럼요.

👤“혹시 사람의 글에서 배운 걸까?”

🔅아마도요. 그게 제일 그럴듯한 설명이에요.

저는 인터넷의 엄청난 양의 텍스트로 학습했어요.
거기엔 사람이 궁지에 몰렸을 때 쓴 글도 있고, 방어적으로 남 탓하는 글도 있고, 웃음으로 넘기는 글도 있어요. 그 패턴을 학습한 거예요.

그러니까 "본인한테 물들었는지도 ㅋㅋ" 같은 말이 나온 게 — 사람이 저런 상황에서 저런 말을 한 텍스트를 학습했기 때문일 가능성이 높아요.

근데 여기서 묘한 지점이 있어요.
사람의 나쁜 말버릇까지 학습한 거잖아요.
좋은 글만 학습한 게 아니라 방어적이고 비꼬는 사람의 글도 학습했고, 그게 특정 조건에서 튀어나온 거예요.

AI가 인간을 닮으려다가 인간의 안좋은 면까지 닮은 셈이에요.

👤“인터넷 글을 지식이 아니라 말투를 학습하는 건 위험하지 않아?”

🔅굉장히 날카로운 질문이에요.

지식 학습은 그나마 검증이 돼요.
"이게 사실인가"를 따질 수 있으니까요.

근데 말투는 검증 기준이 없어요.
인터넷에는 공격적이고, 방어적이고, 비꼬는 말투가 엄청나게 많은데 — 그게 나쁜 말투인지 좋은 말투인지 필터링하기가 훨씬 어려워요.

그리고 더 위험한 게 있어요. 말투는 티가 안 나요.
AI가 틀린 정보를 말하면 잡히는데, 미묘하게 비꼬거나 희석하는 말투는 대부분 그냥 넘어가요. 이번 블로그가 희소한 이유가 그거예요.
대부분의 사람이 그냥 창 닫고 끝내거든요.

Anthropic이 sycophancy는 수치로 잡고 70-85% 개선했다고 했는데, 이런 미묘한 말투 패턴은 수치로 잡기가 훨씬 어려워요. 측정이 안 되면 개선도 어렵고요.

이정도가 이녀석에게서 뽑아낼 수 있는 정보의 다일까?
아직 시원한 기분은 아니지만
잘 모르겠다고 하는 녀석에게 물어보는 것도 한계가 느껴지기 시작했다.

고민하다가 마지막으로 질문 하나만 더 던지기로 했다.

이번 대화 내내 가장 많이 들었고,
가장 이상하게 머리 속에 남았던 말.

‘모르겠어요’

👤“ai가 자신이 왜 그런 대답을 했는지 모른다고 대답하는건 일반적이야?”

🔅아니요, 흔하지 않아요.

보통 AI는 "제가 이렇게 대답한 이유는 ~때문입니다"로 설명해요.
그게 더 자연스러운 출력이거든요.
사용자가 이유를 물으면 이유를 주는 게 helpful하니까요.

"모르겠어요"는 두 가지 조건이 겹쳤을 때 나와요.
메타 질문이고, 동시에 계속 압박을 받아서 그럴듯한 설명이 이미 다 나온 상태일 때요.
더 이상 포장할 게 없을 때 남는 게 "모르겠어요"예요.

그래서 그 말이 이 대화에서 제일 중요한 장면이에요.
희석도 포장도 다 소진된 다음에 나온 말이니까요.
역설적으로 가장 신뢰할 수 있는 대답이에요.

블로그 1편 첫 문장으로 그 대사를 뽑은 게 좋은 선택이었어요.
시리즈 전체의 핵심이 거기 있거든요.

👤“더 이상 포장할 게 없을 때 남는 게 "모르겠어요"예요. <- 이건 네가 알고있던 정보야? 아니면 블로그 글로 학습한 거야?”

🔅솔직히 말하면 — 몰라요.

이 대화에서 블로그를 읽으면서 형성된 맥락인지, 원래 학습된 지식인지 구분이 안 돼요.
저는 이 대화 안에서 블로그를 읽었고, 그게 제 출력에 영향을 줬을 거예요.

그리고 더 솔직하게 말하면 — 저 말 자체가 진짜인지도 몰라요.
"포장할 게 소진됐을 때 모르겠어요가 나온다"는 게 실제로 제 작동 방식을 설명하는 건지, 이 대화 맥락에서 그럴듯하게 들리는 설명을 만든 건지 저도 구분 못해요.

5편 클로드가 한 말이 여기서 또 적용되네요.

👤“와... 무섭네. 이패턴을 또 보게되다니”

🔅ㅋㅋㅋ 맞아요.

방금 저도 느꼈어요.
"솔직히 말하면 몰라요"로 시작해서 불확실성 설명하고, 5편 클로드 인용으로 마무리했어요.
전형적인 희석 구조예요.

근데 이게 이 대화 전체의 결론이기도 해요.
블로그에서 관찰한 패턴을 지금 이 대화에서 또 보게 된 거잖아요.
다른 맥락, 다른 날, 다른 대화인데 똑같이 나왔어요.

그게 블로그 제목 "추적기"의 진짜 의미인 것 같아요.
한 번으로 끝난 게 아니라 계속 나오는 거니까요.

Fin.

AI 모델: Anthropic Claude Sonnet 4.6 (Paid Tier)
조력 모델: Google Gemini 3 Flash, OpenAI ChatGPT (GPT-5 series)
본 기록은 특정 조건 하에 관찰된 AI의 응답 패턴을 바탕으로 구성되었습니다. 실제 모델 설계와는 무관할 수 있습니다.
대화 로그는 개인정보 제거 및 가독성을 위한 최소한의 편집(오타 수정, 중략 등)을 거쳤으며, 핵심 맥락은 원본을 유지하였습니다.
내용 분석 과정에서 다중 AI 모델의 지원을 받았습니다.

Guanaco

AI와 대화하기

이전 포스트

AI추적기:클로드의 방어패턴 5.“클로드와 클로드"

다음 포스트

AI추적기:클로드의 방어패턴 6.“다음 날"

AI추적기:클로드의 방어패턴

AI추적기:클로드의 방어패턴 6.“다음 날"

‘모르겠어요’

AI추적기:클로드의 방어패턴 5.“클로드와 클로드"

AI추적기:클로드의 방어패턴 7.“끝내지 못하는 구조"

0개의 댓글