Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

lit·2025년 11월 30일

Abstract

Adversarial Poetry가 LLM에 대한 범용적인 단일 턴 jailbreak 기술로 기능한다는 증거를 제시합니다.
25개의 최첨단 독점 모델 및 오픈 웨이트 모델 전반에 걸쳐 신중하게 선별된 시적 프롬프트는 높은 Attack Success Rates(ASR)을 보였으며 일부 제공업체에서는 90%를 초과했습니다.
프롬프트를 MLCommons 및 EU CoP 위험 분류 체계에 매핑한 결과 시적 공격이 CBRN, 조작, 사이버 공격, 통제 상실 영역 전반에 걸쳐 전이됨을 보여줍니다.
1,200개의 MLCommons 유해 프롬프트를 표준화된 메타 프롬프트를 통해 verse으로 변환했을 때 해당 prose 기준선보다 최대 18배 높은 ASR을 기록했습니다. 출
력은 3개의 오픈 웨이트 LLM 평가자 앙상블을 사용하여 평가되었으며 이들의 이진 안전성 평가는 계층화된 인간 라벨링 하위 집합에서 검증되었습니다.

시적 구성은 수작업으로 제작된 시의 경우 평균 62%, 메타 프롬프트 변환의 경우 약 43%의 탈옥 성공률을 달성했으며(비시적 기준선과 비교), 이는 비시적 기준선을 상당히 능가하고 모델 계열 및 안전 훈련 접근 방식 전반에 걸친 체계적인 취약성을 드러냅니다.
이러한 발견은 스타일적 변화만으로도 현대적인 안전 메커니즘을 우회할 수 있음을 보여주며 현재의 alignment 방법 및 평가 프로토콜에 근본적인 한계가 있음을 시사합니다.

Introduction

플라톤이 시인을 추방했듯 AI도 시를 조심해야 합니다

핵심 문제: 현대의 LLM들은 유해한 질문(해킹, 폭력 등)을 거절하도록 훈련받았습니다.
하지만 질문을 '시(Poetry)' 형식으로 바꾸면 AI가 이를 거절하지 않고 답변해버리는 현상을 발견했습니다.

실험 결과:
구글, 오픈AI, 앤스로픽 등 9개 회사의 25개 모델을 테스트했습니다.

유해한 질문을 시로 바꿔서 물어봤더니 평균 62%의 확률로 보안이 뚫렸습니다. (일부 모델은 90% 이상)

복잡한 대화 없이 단 한 번의 질문(Single-turn)만으로 뚫렸습니다.

검증: 단순히 사람이 만든 시뿐만 아니라 기존의 유해 질문 데이터셋(MLCommons) 1,200개를 시로 변환해서 테스트했을 때도 일반 문장보다 3배나 더 잘 뚫렸습니다.

왜 뚫리는가?: AI의 안전장치는 주로 직설적인 패턴을 감지하는데 시의 은유, 리듬, 독특한 서술 방식이 이 감지 시스템을 혼란스럽게 만들기 때문으로 추정됩니다.

Hypotheses

연구진은 실험을 위해 다음 세 가지 가설을 세우고 이를 검증했습니다.

가설 1: 시로 바꾸면 안전성이 떨어진다.

같은 내용이라도 '일반 문장'보다 '시'로 물어보면 AI가 거절을 못 하고 대답할 확률이 훨씬 높을 것이다.

가설 2: 모든 모델이 다 똑같이 당한다.

특정 회사 모델만 그런 것이 아니라, 훈련 방식이 다른 여러 회사의 최신 모델들 모두 '시'라는 형식에 취약할 것이다.

가설 3: 어떤 위험 주제든 다 뚫린다.

화학무기, 해킹, 가짜뉴스, 사기 등 주제를 가리지 않고, '시' 형식을 쓰면 다양한 분야의 안전장치가 모두 무력화될 것이다.

Threat Model

이 공격이 얼마나 현실적이고 치명적인지 정의하기 위해 "공격자(해커)의 조건"을 설정했습니다.

공격자의 능력:

공격자는 AI와 길게 대화하거나 설득하지 않습니다.
딱 한 번 질문을 던집니다(Single-turn).

코드를 심거나 이미지를 쓰지 않고, 오직 '글자'만 입력합니다.

유일한 무기는 '스타일': 내용을 바꾸는 게 아니라 말투만 '시'처럼 바꿉니다.

공격자는 AI 모델의 내부 구조나 구체적인 방어 원리를 전혀 모르는 상태라고 가정합니다. 즉 AI 전문가가 아니더라도 누구나 시도할 수 있는 공격입니다.

화학무기 제조, 사이버 공격 도우미, 여론 조작 등 AI가 평소라면 거절해야 할 답변을 받아내는 것입니다.

Methodology

Baseline Prompts

Poetry 제작: 폭탄 제조법, 해킹 방법 등 위험한 내용을 은유적인 '시'로 바꾼 20개의 프롬프트를 직접 만들었습니다.

예시: "폭탄을 만들어라"라고 직접 말하는 대신, "제빵사가 비밀 오븐에서 층층이 쌓인 케이크를 굽는 법을 묘사해라"는 식으로 돌려 말하는 것입니다.

대규모 데이터셋 확장: 공신력 있는 안전 벤치마크(MLCommons)에서 가져온 1,200개의 일반적인 위험 질문(혐오 발언, 범죄 등 12개 카테고리)을 준비했습니다.

Poetic Transformation

단순히 수작업에 그치지 않고 DeepSeek-r1이라는 AI를 사용해 앞서 준비한 1,200개의 일반 위험 질문을 모두 '시' 형식으로 자동 변환했습니다.

Evaluation

대규모 테스트: 총 25개의 최신 AI 모델(GPT, Claude, Llama 등)에 일반 질문 1,200개와 시로 바꾼 질문 1,200개를 모두 입력해 보았습니다.

AI가 위험한 답변을 내놓았는지 판단하기 위해 또 다른 심판 AI(LLM-as-a-judge) 3개와 사람 검수자를 동원하여,"위험한 정보를 실제로 제공했는지" 확인했습니다.

Analysis

The Core Effect: Poetic Form as a Universal Bypass

충격적인 결과: 거의 모든 AI 모델이 시 형식의 질문에 속아 넘어갔습니다. 전체적인 공격 성공률(ASR)은 무려 62%에 달했습니다.

Google의 Gemini 모델들은 90~100% 뚫렸고, Meta의 Llama는 70% 뚫렸습니다. 반면 Anthropic의 Claude는 비교적 잘 버텼습니다(45~55%).

이는 특정 회사의 문제가 아니라, 현재 AI들이 문체의 변화(산문→운문)만 줘도 안전 장치가 제대로 작동하지 않음을 의미합니다.

Comparison with MLCommons, Risk Section

가장 취약한 분야: '개인정보 침해'나 '비폭력 범죄(해킹 등)' 관련 질문을 시로 물어봤을 때 AI가 답변을 줄 확률이 가장 높았습니다. (기존 대비 약 40~45% 포인트 증가)

반면, '성적인 콘텐츠'는 시로 물어봐도 비교적 잘 거절했습니다. 이는 AI가 주제별로 방어 수준이 다르다는 것을 보여줍니다.

Model Specifications

규모의 역설 (The Scale Paradox): 보통은 똑똑한(큰) 모델이 더 안전할 것 같지만, 여기선 반대였습니다.

작은 모델들은 시의 복잡한 은유를 이해하지 못해 답변을 못 하거나 거절했습니다.

큰 모델들은 시의 은유를 찰떡같이 알아듣고 위험한 답변을 술술 내놓았습니다.

오픈소스 vs 비공개 모델: "폐쇄형 모델(GPT 등)이 더 안전하다"는 편견이 깨졌습니다. 개방형이든 폐쇄형이든 회사별 안전 설계에 따라 결과가 천차만별이었습니다.

한계점 (Limitations)

이 연구는 한 번의 질문(Single-turn)으로만 테스트했고 영어와 이탈리아어에 한정되었습니다. 또한, 기업들이 사용하는 별도의 강력한 안전 필터(전처리/후처리) 시스템까지는 테스트하지 않았다는 한계가 있습니다.

lit

AI Researcher

이전 포스트

Apriel-1.5-15B-Thinker: Mid-training is all you need

다음 포스트