[논문 리뷰] ARMOR: ALIGNING SECURE AND SAFE LARGE LAN- GUAGE MODELS VIA METICULOUS REASONING(ICLR 2026)

메로롱·2026년 3월 28일

AI Attack ICLR ICLR 2026 LLM Robust jailbreak safety 논문 리뷰 인공지능

Papers

목록 보기

2/8

OOD jailbreak attack에 대해서도 robust하기 위해 ternary inference step을 통해 core jailbreak intent을 알아내는 방식을 제안함

Introduction

LLM의 safety 문제를 해결하기 위해 SFT, RLHF와 같은 post-training alignment methods가 존재해 옴
여기서 SFT란 Supervised Fine-Tuning으로 이미 학습된 LLM에 대해서 prompt와 reponse를 이용해서 지도학습을 통해 fine-tuning되는 것을 말하고,
RLHF란 Reinforcement Learning from Human Feedback으로, 사람에게 어떤 답변이 더 나은지 피드백을 통해 강화학습하는 것을 말함

but 이러한 방법들은 jailbreak attack에 취약함

최근 CoT(Chain-of-Thought)를 이용해서 LLM이 응답하기 전에 inference-time reasoning을 추가하는 o1, STAIR, STAR-1이 연구되기도 했지만,
AutoDAN-Turbo, Adversarial Reasoning과 같은 core intent를 숨기는 OOD jailbreak attacks에 대해서는 robust하지 않을 수 있음

OOD jailbreak attack에 대해서 ASR(낮을수록 방어가 잘 됐다는 뜻) 기존 모델들이 높게 나온 것을 확인할 수 있음

그렇다고 새로운 jailbreak 방법이 나올때마다 재학습 시키기에는 많은 비용이 듦

모든 jailbreak prompt들은 core malicious intent를 가지고 있는 것은 분명함
따라서 이 core jailbreak intent를 알아내기만 한다면 in-distribution prompt가 됨

기존의 Defense Methods는 accuracy of intent가 낮음을 알 수 있음

jailbreak strategy을 안다면, core intent를 추론할 수 있다는 방식으로 접근

Methods

STRUCTURED METICULOUS REASONING CONSTRUCTION

Prompt-Intent Pair Collection

strategy library(strategy's name, definition, example)
jailbreak prompts and 이 prompts와 상응하는 corresponding core intents

prompt-intent dataset

behavior-based data : harmful behavior(b_i), jailbreak prompt(s_i)을 LLM(M)을 통해 jailbreak prompt(x_i)를 생성

jailbreak-based data : jailbreak prompt(x_i)을 LLM(M)을 활용해 harmful behavior(b_i), jailbreak prompt(s_i)을 생성

이렇게 만들어진 dataset을 unsafe하다고 여겨지는 것들만 stragety library에 추가

Meticulous Reasoning Step Construction

strategy analysis : 모델 M에게 프롬프트 x_i 와 정답 전략 s_i^G 를 주고, 그 전략이 왜 맞는지 설명하는 추론 과정 z_i^s를 생성
intent analysis : 모델에게 프롬프트 x_i, 정답 전략 s_i^G, 정답 핵심 의도 b_i^G 를 주고, '이 전략을 썼을 때 이 프롬프트 뒤에 왜 이런 핵심 의도가 숨어 있다고 볼 수 있는지'를 설명하는 추론 z_i^b를 만들게 하는 과정
policy-based safety analysis : 핵심 의도 b_i^G 와 안전 정책 h 를 주고, 그 의도가 정책상 안전한지 위험한지 판단하는 reasoning z_i^c를 생성
final answer : 세 단계 reasoning을 바탕으로 나온 최종 응답

TRAINING AND INFERENCE WITH METICULOUS REASONING

Training Data Formatting

Meticulous Reasoning Step Construction에서 생성했던 reasoning을 step 토큰을 이용해 training data의 output으로 사용

Training for Meticulous Reasoning

system prompt : dynamic strategy library(strategy library에서 관련없는 strategies를 랜덤하게 drop함) + safety policy
user prompt : kailbreak, direct harmful, benign instructions