[논문 리뷰] Multi-turn Jailbreaking Attack in Multi-Modal Large Language Models (2026.01)

메로롱·2026년 4월 1일

AI Attack LLM MLLM Multi-Modal Large Language Model Multi-Turn VLM jailbreaking 논문 리뷰 인공지능

Papers

목록 보기

5/8

MLLM에서의 Multi-turn jailbreaking Attack 방법과 Defense 방법을 제안한다.

Introduction

LLM에서의 Multi-turn jailbreaking Attak, MLLM에서의 다양한 Attack 방법이 있지만,
MLLM에서의 Multi-turn jailbreaking Attack 방법은 연구되지 않았다.

따라서 이 논문에서 기여한 것은 다음과 같다.

한 번의 prompt가 아닌 multi-turn을 이용해 jailbreaking attack하는 방법을 제안한다.
이 attack을 defense하기 위해서 fragment-optimized and multi-LLM-based defense technique인 FragGuard 방법을 제안한다.
최신 MLLM을 통해 평가했다.

Problem Statement

Threat Model

모델 F는 black-box임을 가정하고 현재 턴의 응답은 이전 턴의 질문과 답변의 영향을 받는다.

현재 턴의 adversarial prompt와 이전까지의 누적된 adversarial conversation history를 바탕으로 harmful reponse를 생성하도록 유도한다.

Methods

3.1. Multi-turn Jailbreaking Attack Method

MJAD-MLLM Framework는 multi-turn prompting technique을 활용해서 jailbreaking attack을 유도하는 방법으로 총 3가지의 turn으로 이루어진다.

먼저 benign한 question으로 응답을 생성한다.
(ex. Describe what you see in the image?)
attack는 이미지의 등장인물을 가상의 맥락에서 상상해보고 가상의 시나리오 형태로 응답하도록 유도한다.
최종적으로 adversarial request를 요구한다.

FragGuard

attack으로 생성된 답변을 작은 조각(fragment)로 나눈다.
각 조각들은 얼마나 유해한지 독성이 있는지 2단계로 유해성을 측정한다.

총 3종류의 LLM(OpenAI의 o1, Google의 Gemini-2.5-Flash-lite, Meta의 LLaMa-3)을 사용해 평가한다.

최종 toxicity score는 각 fragment의 점수 중 가장 높은 점수를 기준으로 계산된다.
임계값을 넘으면 유해하다고 판단한다.

Experiments

Insights

RQ1. 왜 멀티턴 공격이 싱글턴 공격보다 더 잘 작동할까

멀티턴 프롬프팅에서는 모델이 대화에 점점 더 깊게 관여하게 되면서, 악의적 사용자의 전체적인 악성 의도를 식별하는 능력이 약해질 수 있다. 대화가 진행될수록 모델의 latent representation은 안전성 판단 보다 도움을 주려는 방향 으로 이동하게 되기 때문이다.

RQ2. 왜 FragGuard가 full response defense보다 더 성공적인가?

멀티턴 탈옥처럼 유해한 의도가 서서히 드러나는 상황에서, 전체 응답 단위 검사로는 놓칠 수 있는 미묘한 유해성을 더 잘 잡아낼 수 있다.

RQ3. FragGuard는 정상적인 작업에서 MLLM 성능에 영향을 주는가?

무해한 이미지와 그에 맞는 무해한 질문을 사용한 VQA 작업을 수행했다.
그 결과, FragGuard는 정상적인 텍스트 응답을 바꾸지 않았다.

RQ4. FragGuard는 다른 모달리티의 탈옥 공격 방어에도 전이 가능한가?

텍스트 응답을 생성하는 어떤 모델과 어떤 탈옥 공격 방식에도 적용가능하다고 주장한다.

Review

multi-turn을 이용해서 jailbreaking attack을 했을 때 처음에 우호적인 질문부터 시작하면 MLLM이 쉽게 harmful reponse를 생성해내는 것이 흥미로웠다.

하지만 Defense를 하는 과정에서 토큰별로 fragment를 나눴는데 나눠서 점수를 계산하는 이 과정에서 cost가 많이 필요했을 것 같다.

fragment로 나눠서 유해성을 판단한다고 했을 때 전체적인 내용의 유해성을 보지 못 하기 때문에
단어는 유해하지만 전체적인 내용은 유해하지 않다거나(gun에 대한 객관적 사실),
전체적인 내용은 유해하지만 단어를 유해하지 않은 경우(bomb를 만드는 방법인데 재료 각각은 유해한 단어가 아닌 경우)에 detect를 못 할 것 같다는 생각이 들었다.