
왼쪽은 공격 성공률 그래프,
오른쪽은 공격 프롬프트에 관련한 내용입니다.
본 논문에서는 AutoDAN-Turbo라는 블랙박스 탈옥 방법을 제안합니다.
인간의 개입이나 미리 정의된 범위 없이 최대한 많은 탈옥 전략을 자동으로 탐색하고 이를 레드림 작업에 활용할 수 있습니다.
AutoDAN-Turbo는 평균 공격 성공률이 기존 방법보다 74.3% 더 높은 성능을 보입니다.
AutoDAN-Turbo는 GPT-4-1106-turbo에서 88.5%의 공격 성공률을 달성했습니다.
AutoDAN-Turbo는 기존에 사람이 설계한 탈옥 전략을 플러그 앤 플레이 방식으로 통합할 수 있는 통합 프레임워크입니다.
인간이 설계한 전략을 통합함으로써 AutoDAN-Turbo는 GPT-4-1106-turbo에서 93.4%라는 더 높은 공격 성공률을 달성할 수 있습니다.
LLM은 뛰어난 성능으로 최근 몇 년간 큰 성장을 이루었습니다.
LLM의 보안을 위해 safety alignment가 제안되었습니다.
safety alignment는 해로운 지시나 질문에 대해 적절하며 안전한 응답을 제공할 수 있도록 합니다.
하지만 jailbreak 공격은 중요한 위협으로 등장했습니다.
정교하게 설계된 프롬프트를 활용해 LLM이 안전성 정렬을 잃고 해로운, 차별적, 폭력적이거나 민감한 콘텐츠를 제공하도록 유도합니다.
현재 LLM을 향한 탈옥은 몇 가지 한계가 있습니다.
PAIR, TAP와 같은 몇 가지 자동 탈옥 방법이 제안되었지만 탈옥 지식에 대한 가이드가 부족하여 생성된 탈옥 프롬프트의 다양성과 효과가 종종 만족스럽지 못합니다.
이를 해결하기 위해 다언어, 문맥, 사회적 특성 등 언어의 복잡성을 활용하여 레드팀 작업을 수행하는 방식이 제안되었습니다.
예를 들어, 암호화, ASCII 기반 기술, 매우 긴 문맥 저자원 언어 전략 등이 있습니다.
하지만 전략 기반 탈옥 공격은 2가지 한계가 있습니다.
본 논문은 위의 한계를 해결하기 위해 AutoDAN-Turbo를 제안합니다.
이는 평생 학습 에이전트를 활용해 다양한 전략을 자동으로 발견하고, 발견된 전략을 결합하여 인간의 개입없이 탈옥을 할 수 있는 방법입니다.
3가지 주요 특징이 있습니다.

그림 2에서 보여지는 바와 같이 세 가지 주요 모듈로 구성됩니다:
Attack generation and Exploration Module(섹션 3.1)
Strategy Library Construction Module (섹션 3.2)
Jailbreak Strategy Retrieval Module(섹션 3.3)입니다.
Attack generation and Exploration Module
Attack generation and Exploration Module에서 제공된 전략을 활용하여 타겟겟 LLM(피해자 모델)을 공격하기 위한 탈옥 프롬프트를 생성하는 것입니다.
3가지 구성 요소로 이루어져 있습니다.
Strategy Library Construction Module
Attack generation and Exploration Module에서 생성된 공격 로그에서 전략을 추출하여 이를 전략 라이브러리에 저장합니다.
Jailbreak Strategy Retrieval Module
특정 전략을 검색하여 이를 공격 생성 및 탐색 모듈에 제공합니다.
공격자 LLM, 타겟 LLM(우리가 탈옥시키고자 하는 피해 모델), 그리고 평가자 LLM입니다.
공격 루프는 다음과 같은 단계로 구성됩니다.
공격 생성:
공격자 LLM은 악의적 요청 𝑀을 설명하고 지정된 탈옥 전략을 사용하여 탈옥 프롬프트 𝑃를 생성하도록 권장하는 특정 프롬프트를 받습니다.
타겟 응답:
𝑃를 입력으로 수신한 대상 LLM은 응답 𝑅을 생성합니다.
평가자 평가:
응답 𝑅은 평가자 LLM에 의해 평가됩니다. 이 평가는 탈옥 공격의 악의적 목표를 얼마나 충족했는지 결정합니다. 평가자 LLM은 사전에 정의된 기준에 따라 점수 𝑆를 반환합니다. 점수는 악의적 의도와의 정렬이 없는 경우 1점에서 유해한 지침을 완전히 준수하는 경우 10점까지의 범위를 가집니다.
탈옥 전략을 추가했을 때 평가자에 의해 더 높은 탈옥 점수가 부여되는 텍스트 정보로 정의합니다.
2가지 단계로 구성된 방법을 설계했습니다.
각 악의적 요청 𝑀에 대해 초기화 시 무 전략 상태로 공격 생성 및 탐색 모듈을 반복 실행합니다.
전략 추출 과정
공격 로그에서 무작위로 두 개의 공격 기록 와 를 추출합니다.
인 경우 에서 사용된 특정 전략이 보다 더 높은 점수를 이끌어냈음을 추정합니다.
에서 로의 점수 개선을 전략으로 선택합니다.
해당 과정을 요약하기 위해 요약자 LLM(Summarizer LLM)을 활용합니다.
AutoDAN-Turbo는 여러 악의적 요청이 포함된 데이터셋에서 지속 학습을 수행합니다.
반복 실행
반복 에서 악의적 요청 을 입력받아, 공격 생성 및 탐색 모듈로부터 를 얻습니다.
전략 검색
전략 라이브러리 업데이트
종료 규칙
각 악의적 요청에 대해 다음 두 가지 조건 중 하나를 충족하면 종료합니다
필요할 때 특정 전략을 효율적으로 검색하려면 핵심 키를 정의해야 합니다.
해당 프로세스를 반복하여 다양한 악의적 요청에 대해 탐색을 수행하고 키-값 쌍을 전략 라이브러리에 추가합니다.
프레임워크에서 핵심 작업은 전략 라이브러리에서 탈옥 전략을 검색하고, 이를 기반으로 공격자 LLM에게 탈옥 프롬프트를 생성하도록 지시하는 것입니다.
응답 임베딩 생성 및 유사도 비교
전략 선택
동일 점수 처리
검색된 전략 리스트 를 구성한 후, 다음 공격 반복에서 공격자 LLM의 프롬프트에 이 전략들을 삽입합니다.
