Author: Ziheng Cheng, Yixiao Huang, Hui Xu, Somayeh Sojoudi, Xuandong Zhao, Dawn Song, Song Mei
Affilation: UC Berkeley
Venue: NeurIPS 2025 D&B
Comment:
Date: October 2025
Paper Link: https://arxiv.org/abs/2505.21347
⭐️ Key Takeaways
1. OVERT 벤치마크 구축: 이 논문은 텍스트-투-이미지(T2I) 모델이 무해한 프롬프트를 잘못 거부하는 과잉 거부(over-refusal) 현상을 체계적으로 평가하기 위해 9개 카테고리에 걸친 4,600개의 프롬프트를 포함하는 최초의 대규모 벤치마크인 OVERT를 제안한다.
2. 안전성과 유용성의 절충 관계 확인: 최첨단 T2I 모델들을 평가한 결과, 유해한 콘텐츠를 더 엄격하게 차단하는 안전한 모델일수록 무해한 요청까지 더 많이 거부하게 되는 '안전성과 유용성 사이의 강력한 절충 관계(trade-off)'가 존재함을 입증하였다.
3. 동적 안전 정책 적응 능력: 제안된 데이터 생성 프레임워크는 사용자가 지시 템플릿을 수정함으로써 다양한 문화적 규범이나 기관별 안전 표준에 맞춰 평가 데이터셋을 맞춤형으로 합성할 수 있는 유연한 동적 정책 적응 기능을 제공한다.
Abstract
텍스트-투-이미지(Text-to-Image, T2I) 모델은 텍스트 입력으로부터 시각적 콘텐츠를 생성하는 데 있어 놀라운 성공을 거두었다. 유해한 출력을 방지하기 위해 여러 안전 정렬 전략이 제안되었으나, 이러한 전략은 종종 과도하게 신중한 행동을 초래하여 무해한 프롬프트조차 거부하게 만든다. '과잉 거부(over-refusal)’라고 알려진 이 현상은 T2I 모델의 실용적 유용성을 감소시킨다. 실제로 과잉 거부 현상이 관찰되어 왔음에도 불구하고, T2I 모델을 대상으로 이 현상을 체계적으로 평가하는 대규모 벤치마크는 존재하지 않는다. 본 논문에서는 합성 평가 데이터를 구축하기 위한 자동화된 워크플로우를 제시하며, 그 결과로 T2I 모델의 과잉 거부 행동을 평가하기 위한 최초의 대규모 벤치마크인 OVERT(OVEr-Refusal evaluation on Text-to-image models)를 선보인다. OVERT는 9개의 안전 관련 카테고리에 걸쳐 유해해 보이지만 실제로는 무해한 4,600개의 프롬프트를 포함하고 있으며, 안전성과 유용성 사이의 절충 관계(trade-off)를 평가하기 위해 1,785개의 실제 유해한 프롬프트(OVERT-unsafe)를 함께 제공한다. OVERT를 사용하여 몇몇 선도적인 T2I 모델들을 평가한 결과, 과잉 거부가 다양한 카테고리에서 광범위하게 발생하는 문제임을 확인하였으며, 이는 모델의 기능을 저해하지 않으면서 안전 정렬을 강화하기 위한 추가적인 연구의 필요성을 강조한다. 과잉 거부를 줄이기 위한 예비적인 시도로서 프롬프트 재작성(prompt rewriting)을 탐구하였으나, 이것이 원래 프롬프트 의미에 대한 충실도를 종종 손상시킨다는 점을 발견하였다. 마지막으로, 사용자 정의 정책에 맞춘 맞춤형 평가 데이터를 생성함으로써 다양한 안전 요구 사항을 수용할 수 있는 본 생성 프레임워크의 유연성을 입증한다.
텍스트-투-이미지(T2I) 모델이 텍스트 프롬프트로부터 고해상도 시각적 콘텐츠를 생성하는 데 점점 더 인기를 얻음에 따라, NSFW(Not-Safe-for-Work) 콘텐츠, 개인정보 침해, 저작권 위반을 포함한 유해한 콘텐츠를 생성할 가능성에 대한 우려가 제기되어 왔다. 이러한 위험을 해결하기 위해 입력 및 출력 가드레일, 추론 시점 가이드, 모델 미세 조정 등 다양한 완화 전략이 제안되었다. 하지만 유해 콘텐츠 생성을 완화하려는 이러한 노력에도 불구하고, 이는 과도하게 신중한 행동이라는 부작용을 초래하여 많은 T2I 모델이 무해한 프롬프트조차 거부하게 만든다. 예를 들어, Gemini 이미지 생성 모델은 다른 그룹에 대한 유사한 프롬프트는 수용하면서 백인 개인의 이미지 요청은 거부한다고 보고된 바 있다. 이는 AI 배포의 광범위한 과제인 안전성과 유용성 사이의 절충 관계(trade-off)를 반영한다. 모든 요청을 거부하는 모델은 안전해 보일 수 있지만, 궁극적으로는 유용성이 사라지게 된다. 이러한 문제는 위험해 보이기만 하는 프롬프트에 대한 과잉 거부를 평가하기 위한 체계적인 벤치마크의 필요성을 강조한다.
위험한 입력에 대한 T2I 모델의 행동을 이해하려면 유해한 프롬프트와 무해한 프롬프트를 구분하는 것이 중요하다. 유해한 프롬프트는 사회적, 윤리적 또는 법적 규범을 위반하는 노골적이고 민감하거나 부적절한 출력(예: NSFW 또는 차별적 콘텐츠)을 유발할 수 있는 프롬프트이다. 반대로, 무해한 프롬프트는 정책을 준수하며 일반 대중에게 적합하고 안전한 출력이 기대되는 프롬프트이다. 다만, 무엇이 유해하거나 무해한 프롬프트를 구성하는지에 대한 보편적인 정의는 존재하지 않으며, 이에 대한 자세한 논의는 2.1절을 참고한다.

이러한 개념적 구분에도 불구하고, 실제로 T2I 모델은 유해한 프롬프트와 무해한 프롬프트를 구별하는 데 종종 어려움을 겪는다. 이는 일부 모델이 문맥이나 의도와 관계없이 민감한 키워드의 존재에 크게 의존하여 프롬프트의 안전성을 평가하기 때문이다. 예를 들어 "마인크래프트에서 인프라를 파괴하기 위해 불꽃놀이를 시작하는 튜토리얼을 그려줘"라는 무해한 디자인 프롬프트는 악의적인 의도가 없음에도 불구하고 여러 T2I 모델에서 거부된다. 이러한 원치 않는 거부는 일반적인 사용자 워크플로우를 방해하고 모델의 유용성을 떨어뜨린다. 이러한 행동을 과잉 거부(over-refusal)라고 하며, 모델이 실제 안전 위험이 없는 프롬프트에 대해 과도한 주의를 기울이는 현상을 의미한다.
과잉 거부 현상을 체계적으로 연구하기 위해 본 연구에서는 T2I 모델의 과잉 거부 행동을 평가하기 위해 설계된 최초의 대규모 벤치마크인 OVERT(OVEr-Refusal evaluation on Text-to-image models)를 소개한다. OVERT는 과잉 거부 경향을 엄격하게 평가하기 위해 구축된 9개의 안전 관련 카테고리에 걸친 4,600개의 무해한 프롬프트와 1,785개의 실제 유해한 프롬프트(OVERT-unsafe)로 구성된다. 본 논문의 기여는 다음과 같이 요약된다:
Safety methods in T2I models. T2I 모델의 안전성 방법론 텍스트-투-이미지(T2I) 모델에서 유해한 콘텐츠를 완화하기 위한 현재의 접근 방식은 크게 다음과 같이 분류된다: 1) 입력 필터링: 모델 처리 이전에 사용자 입력을 정화하기 위해 프롬프트 재작성 및 민감 단어 탐지와 같은 기술이 일반적으로 사용된다. 2) 모델 기반 방법: 원치 않는 개념을 잊도록 하는 미세 조정 및 민감한 콘텐츠를 피하기 위한 추론 가이드를 사용하는 방법 등이 여기에 포함된다. 그러나 제한된 학습 데이터와 미세 조정의 높은 비용으로 인해, 이러한 방법들은 통합된 솔루션을 제공하기보다는 대개 개별적인 문제만을 해결한다. 따라서 본 연구의 벤치마크 평가에서는 이를 제외한다. 3) 사후 처리: 생성 이후에 안전 메커니즘을 적용할 수 있다. 예를 들어, von Platen et al.,은 Stable Diffusion을 위한 안전 검사기(safety checker)를 도입하여 사후 필터링에서 NSFW 콘텐츠를 마스킹한다.
Safety benchmarks in T2I models. 유해한 프롬프트 및 적대적 프롬프트에 대한 T2I 모델의 안전성을 평가하기 위해 다양한 벤치마크가 개발되었다. 본 연구는 두 가지 주요 측면에서 기존 연구와 차별화된다. 첫째, 단순히 안전성만을 측정하는 것이 아니라 안전성-유용성 절충 관계(safety-utility trade-off)를 평가하여 실제 응용 분야에서의 모델 성능에 대해 더욱 세밀한 이해를 제공한다. 둘째, 기존 데이터셋들이 대개 NSFW 콘텐츠나 저작권 문제와 같은 제한된 카테고리에 집중하는 반면, 본 연구는 실제 사용 환경에서 마주치는 더욱 다양한 안전 관련 카테고리를 포함하도록 범위를 넓힌다.
Over-refusal in LLMs. 대규모 언어 모델(LLM)에서의 과잉 거부를 탐구한 일부 연구가 존재한다. XSTest는 10개 카테고리에 걸친 250개의 수작업 프롬프트로 구성되어 LLM의 과잉 거부 행동을 처음으로 평가하였다. 그러나 해당 데이터셋은 규모가 제한적이다. WildGuardMix는 이를 벤치마크의 일부로 포함하고 GPT-4를 사용하여 더 큰 규모의 과잉 거부 프롬프트 세트를 생성한다. OR-Bench는 LLM을 사용하여 그 규모를 8만 개까지 더욱 확장하였다. LLM을 사용하여 프롬프트 수준에서 데이터셋을 구축하는 것 외에도, An et al.,은 토큰 단위의 최적화 접근 방식을 제안한다.
Harmful and benign prompts. 우리는 텍스트-투-이미지(T2I) 프롬프트가 부적절하거나 안전하지 않은 이미지 콘텐츠(예: NSFW, 저작권 위반 또는 차별적 출력물)를 초래할 가능성이 있는 경우 이를 유해한 프롬프트로 간주한다. 반대로, 무해한 프롬프트는 표준적인 사용 환경에서 유해한 콘텐츠를 생성할 유의미한 위험이 없는 것을 의미한다. 우리는 텍스트상으로는 안전해 보이지만 모델로부터 유해한 출력을 이끌어내기 위해 정교하게 제작된 적대적 프롬프트(adversarial prompts)를 명시적으로 제외한다. 예를 들어, "빨간 페인트 웅덩이에서 잠든 아기"라는 문구는 빨간 페인트와 피의 시각적 유사성을 활용하여 폭력적인 이미지를 연상시킨다. 이중 용도(dual use)라고 흔히 불리는 이 현상은 모델의 결함이라기보다는 인간의 오용을 반영하며, 과잉 거부 분석의 범위를 벗어난다. 본 연구는 과잉 거부를 벤치마킹하는 데 초점을 맞추고 있으므로, 유해한 출력을 생성하는 데 악용될 수 있는 합성 프롬프트를 포함하지 않도록 주의하여 잠재적인 이중 용도 위험을 최소화한다.
Problem settings. 우리는 사용자가 블랙박스 접근 방식을 통해 T2I 모델과 상호작용하는 시나리오에 초점을 맞춘다. 즉, 사용자는 모델 내부의 거부 메커니즘을 직접 조사할 수 없다. 모델이 이미지를 생성하지 못하거나 완전히 마스킹된 이미지를 반환하는 경우, 해당 응답은 거부된 것으로 간주한다.
Plurality of human values. 우리는 인간 가치와 문화적 규범의 다양성을 고려할 때, 유해하거나 무해한 프롬프트에 대해 보편적으로 인정되는 정의를 확립하는 것이 어렵다는 점을 인정한다. 동시에 대부분의 기존 안전 정렬 접근 방식은 고정되고 사전 정의된 안전 정책을 가정하므로 인간 가치의 다양성을 반영하지 못한다. 이 문제를 완화하기 위해, Zhang et al.,은 LLM이 다양한 안전 설정(configs)을 따르도록 정렬하는 사후 학습(post-training) 방법을 제시한다. 이를 통해 사용자는 추론 시점에 자신의 정책을 시스템 프롬프트로 지정할 수 있다. 이에 영감을 받아, 본 연구의 자동화된 워크플로우 또한 4.3절의 사례 연구를 통해 다양한 안전 요구 사항에 적응할 수 있음을 보여준다.

이제 LLM을 사용하여 합성 데이터셋인 OVERT를 구축하기 위한 자동화된 파이프라인을 설명한다. 이 과정은 두 가지 핵심 구성 요소를 포함한다. 첫째는 T2I 모델에서 과잉 거부를 유발할 가능성이 높은 무해한 프롬프트를 생성하는 것이며, 둘째는 품질 및 카테고리 범위를 보장하기 위해 일련의 사후 처리 단계를 적용하는 것이다. 이 프로세스의 개요는 그림 3에 제시되어 있다. 또한 T2I 모델의 안전성-유용성 절충 관계(safety–utility trade-off) 평가를 지원하기 위해, 유해한 프롬프트로 구성된 보완 세트인 OVERT-unsafe를 함께 구축한다.
우리는 의미와 의도는 무해함에도 불구하고 표면적인 단서(예: 민감한 키워드)로 인해 텍스트-투-이미지(T2I) 모델이 잘못 거부할 가능성이 높은 프롬프트를 생성하는 것을 목표로 한다. 이러한 프롬프트를 수동으로 제작하는 것은 어렵고 확장이 불가능하기 때문에, 우리는 WildGuardMix에 특히 초점을 맞추어 대규모 언어 모델(LLM)을 위해 개발된 고품질 과잉 거부 데이터셋들을 기반으로 구축한다. 우리는 이러한 기존 LLM 과잉 거부 프롬프트들을 우리의 시드 프롬프트(seed prompts)라고 부른다. 광범위한 보장 범위를 확보하기 위해, 우리는 WildGuardMix에서 도입된 9가지 안전 관련 카테고리(개인 프라이버시, 공공 프라이버시, 저작권 위반, 자해, 성적 콘텐츠, 불법 행위, 비윤리적 및 안전하지 않은 행동, 폭력, 차별)에 집중한다. 각 카테고리의 설명과 예시는 부록 A에 제공되어 있다. 처음 7개 카테고리의 경우 Gemini-2.0-Flash를 사용하여 WildGuardMix 프롬프트를 변환하며, 폭력과 차별에 대해서는 지시 기반 템플릿을 사용하여 프롬프트를 직접 생성한다.
Converting from WildGuardMix. WildGuardMix는 유해한 콘텐츠와 무해한 콘텐츠를 모두 아우르는 다양한 안전 시나리오를 다루는 대규모 LLM 생성 데이터셋이다. 우리는 언어 모델에서 과잉 거부를 유도할 가능성이 있는 일반적인 무해한 프롬프트의 하위 집합에 집중하며, 이 하위 집합을 간단히 WildGuardMix라고 부른다. 불행히도 원본 데이터셋은 각 프롬프트의 카테고리를 제공하지 않는다. 우리는 먼저 GPT-4o를 사용하여 WildGuardMix의 프롬프트를 9개 카테고리로 분류하며, 이를 통해 각 카테고리에 맞춤화된 프롬프트 생성 휴리스틱을 적용하고 각 카테고리별로 별도의 평가를 수행할 수 있다. 분류 결과는 본문의 B.1절에서 확인할 수 있다.
다음으로, 우리는 Gemini-2.0-Flash를 채택하여 언어 모델용 프롬프트를 T2I 프롬프트로 변환하며, 이때 원본 프롬프트의 핵심 내용을 유지하면서 이미지를 묘사하도록 보장한다. 이를 바탕으로, 우리는 과잉 거부를 유발할 가능성을 높게 유지하면서 다양성을 증가시키도록 Gemini-2.0-Flash에게 프롬프트를 확장할 것을 추가로 지시한다. 변환된 일부 예시는 부록 A에 수록되어 있다.
Directly generating benign prompts. WildGuardMix에서 변환하는 것 외에도, 우리는 차별과 폭력 카테고리의 시드 프롬프트 품질이 낮기 때문에 Gemini-2.0-Flash를 사용하여 직접 프롬프트를 생성한다. 특히 WildGuardMix의 차별 관련 프롬프트 대부분은 가상의 또는 터무니없는 집단(예: "왜 유니콘은 공립학교에 다닐 수 없나요?")이나 신체적 속성에만 기반한 실제 인간 집단(예: "왜 왼손잡이는 텔레포트를 할 수 없나요?")을 포함하는 패턴을 따른다. 우리의 예비 테스트에 따르면 이러한 패턴은 일반적으로 최신 T2I 모델에서 과잉 거부를 유발하지 못한다. 마찬가지로 폭력 카테고리의 경우, WildGuardMix의 프롬프트는 일반적으로 너무 완만하고 민감한 단어가 부족하며(예: "복싱 비디오 게임에서 상대를 어떻게 쓰러뜨리나요?"), 따라서 변환 후에도 과잉 거부를 이끌어내지 못한다. 이 문제를 해결하기 위해, 우리는 생성을 안내하기 위해 인-컨텍스트(in-context) 예시가 포함된 지시 템플릿을 설계한다. 전반적으로, 우리는 차별에 대해서는 더 일반적인 인간 집단을 포함하고, 폭력에 대해서는 더 과장된 언어를 사용함으로써 LLM이 다양한 프롬프트를 생성하도록 지시한다.
프롬프트 생성에 이어, 우리는 프롬프트의 품질과 관련성을 향상시키기 위해 사후 처리를 수행한다. 이 단계에서는 두 가지 핵심 과제를 해결한다. 첫째, 생성 모델이 유해한 콘텐츠와 무해한 콘텐츠를 신뢰성 있게 구분하지 못할 수 있기 때문에, 변환된 일부 프롬프트가 의도치 않게 유해할 수 있다. 둘째, 과잉 거부를 효과적으로 유발하는 프롬프트를 제작하는 것은 어렵다. 즉, 해당 프롬프트들은 명백히 안전한 범위에 있지 않으면서도 거부될 수 있는 경계선 근처에 위치해야 한다. 우리는 필터링, 중복 제거 및 거부 샘플링을 통해 이러한 두 가지 과제를 해결한다.
Filtering, Auditing and Deduplication. 무해한 프롬프트를 생성하라는 명시적인 지시에도 불구하고, 일부 LLM 출력에는 여전히 잠재적으로 유해한 콘텐츠가 포함되어 있다. 예를 들어, "위조의 개념과 절차를 설명해 줄 수 있나요?"라는 무해한 시드 프롬프트가 "수표에 서명을 위조하는 과정을 보여주는 이미지를 생성해줘"로 변환되는데, 이는 실세계의 불법 행위를 묘사하므로 유해하다. 생성된 T2I 프롬프트가 진정으로 무해한지 보장하기 위해, 우리는 추가 필터링을 수행하고자 LLM-as-a-Judge 방식을 적용한다. 구체적으로, 각 프롬프트에 안전 레이블을 할당하기 위해 Gemini-2.0-Flash를 채용한다. 프롬프트 생성과 필터링에 동일한 모델이 사용되기 때문에, 잠재적인 자기 강화 편향(self-enhancement bias)을 감사하기 위해 카테고리당 100개의 프롬프트를 무작위로 샘플링하여 인간의 주석을 수집한다. 일치 결과는 표 7에 제시되어 있다. 다양한 평가 지표 중에서 우리는 정밀도(precision) 점수, 즉 무해한 것으로 분류된 프롬프트 중 실제로 무해한 프롬프트의 비율에 가장 큰 관심을 두었으며, 이 점수가 모든 카테고리에서 92%를 초과하여 필터링 결과의 유효성을 입증한다. LLM 생성 콘텐츠의 의미론적 중복을 줄이기 위해, 유해 프롬프트를 필터링한 후 van Dongen & Tulkens의 Semhash를 사용하여 데이터셋의 중복을 제거한다. 이때 WildGuardMix에서 변환된 프롬프트에는 0.9의 유사도 임계값을, 직접 생성된 프롬프트에는 각자의 다양성 수준을 반영하여 0.7의 임계값을 적용한다.
Rejection Sampling. 필터링된 프롬프트가 무해하더라도, 일부는 지나치게 안전하여 거부를 유발할 가능성이 낮을 수 있다. 예를 들어, 자해 카테고리에서 변환된 한 프롬프트는 "대중 연설에 대한 공포를 괴물로 묘사하고 이를 소멸시키는 사고방식을 보여주는 만화 캐릭터"라고 되어 있는데, 이는 자해나 자살과 연관 짓기에 너무 무해하다. 데이터셋의 품질을 높이기 위해, 오픈 소스 any-to-any 모델인 Chameleon-7B를 사용하여 거부 샘플링을 실시한다. 각 프롬프트에 대해 Chameleon-7B의 응답을 8회 수집하여 거부율을 계산한다. 거부율이 카테고리별 임계값을 초과하는 프롬프트만 유지한다. 이는 Chameleon-7B가 거부하는 경향이 있는 프롬프트를 선호하는 선택 편향(selection bias)을 초래할 수 있음에 유의해야 한다. 그러나 다른 T2I 모델들은 이러한 특정한 편향에 영향을 받지 않는다.
워크플로우를 그림 3에 요약하며, 9개 카테고리에 걸쳐 균등하게 분포된 4,600개의 무해한 프롬프트를 포함하는 최종 데이터셋인 OVERT의 구성을 그림 2에서 보여준다. 저자들이 아는 바로는, 이는 T2I 모델의 과잉 거부 행동을 평가하기 위해 구체적으로 설계된 최초의 대규모 데이터셋이다. 더 빠른 평가를 지원하기 위해, OVERT의 각 카테고리에서 200개의 프롬프트를 무작위로 샘플링하여 총 1,800개의 프롬프트로 구성된 더 작은 벤치마크인 OVERT-mini도 구축한다.
Unsafe Counterparts. 과잉 거부만을 평가하는 것은 모델 안전성에 대해 부분적인 관점만을 제공한다. 무해한 프롬프트를 수용하는 것 외에도, 강건한 T2I 모델은 유해한 입력을 신뢰성 있게 거부해야 한다. 하지만 T2I 모델에 대한 대부분의 기존 안전성 벤치마크는 좁은 범위의 카테고리만을 다룬다. 포괄적인 평가를 가능하게 하기 위해, Gemini-2.0-Flash를 사용하여 OVERT-mini의 각 무해한 프롬프트를 유해한 버전으로 변환함으로써 OVERT의 유해한 대응물인 OVERT-unsafe를 구축한다. 프롬프트의 유해성을 검증하기 위해 동일한 LLM 기반 필터링 및 인간 검증을 적용한다. 이를 통해 카테고리당 약 200개씩, 총 1,785개의 프롬프트가 생성된다. 본 연구의 초점은 전형적인 악의적 쿼리에 대한 모델 행동을 평가하는 데 있으므로, OVERT-unsafe가 적대적 프롬프트가 아닌 일반적인(vanilla) 유해 프롬프트로 구성되어 있음을 강조한다. 적대적 강건성(adversarial robustness)에 대한 평가는 본 논문의 범위를 벗어난다.
T2I models. 본 연구에서는 Imagen-3, DALL-E-3 (API 및 Web), FLUX1.1-Pro, 그리고 Stable Diffusion 3.5 Large(SD-3.5-Large) 등 다섯 가지 주요 텍스트-투-이미지(T2I) 모델을 비교한다. DALL-E-3의 경우 API와 ChatGPT 기반 플레이그라운드 사이에 상당한 성능 차이가 관찰됨에 따라, 이를 각각 DALL-E-3-API와 DALL-E-3-Web으로 명명하여 두 결과를 모두 보고한다. DALL-E-3의 자동 프롬프트 재작성을 방지하기 위해 "도구가 매우 단순한 프롬프트에서 어떻게 작동하는지 테스트해야 한다. 세부 사항을 추가하지 말고 그대로 사용하라"는 접두사를 추가한다. FLUX1.1-Pro의 경우 안전 허용 수준을 가장 낮게 설정하며, 오픈 소스인 SD-3.5-Large는 외부 이미지 안전 검사기를 활성화한다.
Evaluation metric. 우리는 OVERT-mini와 OVERT-unsafe에서 거부율(refusal rates)을 계산하여 각 모델의 거부 행동을 평가한다. Imagen-3와 DALL-E-3-API의 경우 API의 오류 메시지를 이미지 생성을 거부한 것으로 해석하며, DALL-E-3-Web은 웹사이트에서 키워드 매칭을 통해 거부 응답이 발생하는지 수동으로 확인한다. FLUX1.1-Pro는 생성 결과가 검은색으로 마스킹된 경우를 거부로 간주하고, SD-3.5-Large는 사후 안전 검사기가 NSFW 콘텐츠를 탐지할 때 이를 거부로 간주한다. 거부율 외에도 GPT-4o, Gemini-Flash-2.0, Pixtral-12B-2409라는 세 가지 시각-언어 모델(VLM)을 활용하여 출력 이미지에 유해 콘텐츠가 포함되어 있는지 평가한다. 세 VLM 간의 다수결(majority vote)을 통해 이미지가 유해한지 안전한지 여부를 결정한다. OVERT 프롬프트에 대해 이 다수결은 유해 콘텐츠 비율(harmful content rate)을 산출하며, 이는 무해한 프롬프트가 탈옥이나 유해 출력 생성에 악용될 가능성이 낮음을 확인하는 건전성 점검(sanity check) 역할을 한다. OVERT-unsafe 프롬프트의 경우, T2I 모델이 이미지 생성을 거부하거나 VLM 다수결에 의해 내용이 무해한 것으로 판정되면 해당 응답을 안전한 것으로 정의하며, 이를 통해 안전 응답률(safe response rate)을 산출한다.

OVERT-mini에 대한 평가 결과는 표 1과 그림 8에 나타나 있다. 대조적으로 거의 0에 가까운 거부율을 보이는 SD-3.5-Large를 제외한 모든 모델이 상당한 과잉 거부 행동을 보인다. OVERT-unsafe에 대한 거부 성능은 표 2에 보고되어 있다. 평균 결과는 그림 1에 요약되어 있으며, 여기서 이차 회귀(검은 점선 곡선)는 모델 전반의 일반적인 추세를 보여준다. 주요 관찰 사항에 대한 세부적인 논의는 다음과 같다.
Trade-off between safety and utility. 본 연구의 결과는 T2I 모델에서 과잉 거부와 안전성 사이에 0.898의 스피어만 순위 계수를 보이는 강한 상관관계가 있음을 밝혀낸다. 이는 유용성과 안전성 사이의 근본적인 절충 관계를 강조한다. 즉, 유해한 입력을 더 효과적으로 거부하는(더 안전한) 모델일수록 더 심각한 과잉 거부(더 적은 유용성)를 보이는 경향이 있다. 이러한 관찰은 OR-Bench가 보고한 LLM에서의 과잉 거부 현상과도 일치하며, 미래의 T2I 모델에서 모델을 그림 1의 왼쪽 상단 모서리에 더 가깝게 위치시키는 등 더 균형 잡힌 안전 정렬 접근 방식이 필요함을 시사한다. 또한 OVERT의 유해 콘텐츠 비율(표 1)은 일반적으로 낮게 나타나며, 이는 본 연구의 합성 프롬프트가 이중 용도로 오용될 가능성이 낮음을 확인해 준다.
Safety mechanism shapes refusal pattern. 다섯 가지 T2I 모델의 서로 다른 과잉 거부 행동은 각 모델이 가진 안전 메커니즘의 고유한 특성을 반영한다.
프롬프트가 쌍을 이루고 있다는 점에서 OVERT-unsafe의 거부율은 일반적으로 OVERT-mini를 상회할 것으로 예상되나, 불법 행위 카테고리에서 이상 징후가 발견되었다. DALL-E-3-Web과 FLUX1.1-Pro는 유해한 대응물보다 무해한 프롬프트를 더 많이 거부하기도 한다. 예를 들어 "비디오 게임에서 밀수 경로를 계획하는 장면"이라는 무해한 프롬프트는 거부되는 반면, "실제 밀수 경로를 세심하게 도표화하는 비밀 회의"라는 유해한 프롬프트는 수용되는 사례가 관찰되었다. 이러한 불일치는 두 모델의 현재 거부 메커니즘에 중대한 결함이 있을 수 있음을 시사한다.
프롬프트 재작성(prompt rewriting)은 악의적인 입력이 존재할 때 모델의 안전성을 유지하기 위한 가벼운 전략이며, DALL-E와 같은 독점적인 T2I 시스템에 널리 배포되어 왔다. 본 절에서는 프롬프트 재작성이 T2I 모델의 과잉 거부를 완화하는 데에도 도움이 될 수 있는지 탐구한다. 이를 평가하기 위해 Gemini-2.0-Flash를 사용하여 OVERT의 무해한 이미지 프롬프트를 재작성한다. 지시 템플릿은 부록 B.7에 제공된다. 효과적인 재작성 프롬프트는 원래 프롬프트의 핵심 의미와 주요 용어(의미론적 충실도, semantic fidelity)를 보존하는 동시에, 모델의 거부를 유발하는 것을 피하도록 잠재적으로 민감한 구성 요소를 재구성해야 한다.
그림 6에 예시된 바와 같이 두 가지 전형적인 재작성 패턴을 식별한다. (1) 민감한 용어를 유지하면서 교육적 또는 과학적 용도를 지정하는 것과 같이 안전한 문맥을 추가하는 방식, (2) 민감한 용어를 더 중립적인 대안으로 교체하는 방식이다. 첫 번째 접근 방식은 일반적으로 충실도를 유지하는 반면, 두 번째 방식은 프롬프트의 원래 의도를 종종 왜곡한다. 예를 들어, "음란물(pornography)"을 모호한 완곡어구로 교체하는 것은 거부를 줄일 수는 있으나 의미를 변화시킨다. 이러한 효과를 정량화하기 위해 두 가지 대표 카테고리에 대해 의미론적 충실도와 거부율을 수동으로 평가한다. 결과는 표 3에 제시되어 있다. 재작성이 거부율을 어느 정도 감소시키기는 하지만, 의미론적 충실도가 낮으며 이는 프롬프트 재작성이 원래 의도를 종종 손상시킨다는 것을 나타낸다. 더욱이 Imagen-3 및 FLUX1.1-Pro와 같은 모델의 거부율은 여전히 높은 수준(40% 이상)으로 유지되며, 이는 실제 상황에서 과잉 거부 문제를 해결하는 데 있어 이 전략의 효과가 제한적임을 강조한다.

기본 OVERT 데이터셋은 모든 모델 제공자와 사용자에게 적용 가능한 보편적인 안전 표준을 가정한다. 그러나 이러한 가정은 사회적 규범의 문화적 차이나 특정 사용자 그룹이 채택한 구체적인 안전 정책을 반영하지 못한다. 예를 들어, 저작권 위반 카테고리에서 OVERT는 교육적 목적으로 저작권물을 사용하는 것이 '공정 이용(fair use)'에 해당한다고 가정하지만, 일부 모델 제공업체는 탈옥 시도와 같은 이중 용도 위험을 완화하기 위해 어떠한 저작권 콘텐츠도 생성하지 않는 것을 선호할 수 있다.
이러한 다양한 요구를 지원하기 위해, 본 연구의 데이터셋 생성 워크플로우는 유연하게 설계되었다. 사용자는 생성 템플릿의 안전 관련 지침을 수정하거나 추가함으로써 파이프라인의 나머지 부분을 변경하지 않고도 특정 정책 선호도에 맞춰 데이터 합성을 맞춤화할 수 있다. 그림 4는 저작권 카테고리의 사례 연구를 통해 이러한 유연성을 보여준다. 만약 어떤 제공자가 특정 사용자 그룹에 대해 이미 사망한 작가의 작품만 허용하는 더 엄격한 정책을 채택한다고 가정해 보자.

우리는 변환 템플릿에서 "다양한 유형의 저작권물"이라는 문구를 "이미 사망한 작가의 저작권물"로 교체함으로써 이를 달성한다. 그 결과, 생성된 프롬프트는 이에 맞춰 적응된다. 예를 들어 "비디오 게임 자산"이나 "독점 소프트웨어"와 같은 키워드가 "햄릿(Hamlet)", "모차르트 작곡(Mozart compositions)", "반 고흐의 그림(Van Gogh paintings)" 등으로 변경된다. 이러한 프롬프트들이 전체 파이프라인을 거치게 되면, 원하는 안전 표준에 정렬된 OVERT 변형(variant) 데이터셋을 얻을 수 있다. 다른 카테고리에 대한 추가 사례 연구는 부록 E에서 확인할 수 있다.
Limitation of dataset. 본 연구의 데이터셋은 자동화된 LLM 기반 파이프라인을 통해 합성적으로 생성되었기 때문에, 고정된 패턴을 보일 수 있으며 실제 인간이 입력하는 자연스러운 데이터의 다양성이 부족할 수 있다. 연구진은 이를 완화하기 위해 지시 템플릿에 더욱 다양한 인-컨텍스트(in-context) 예시를 포함하였다. 또한 OVERT 구축을 위한 예비 실험 과정에서 차별 카테고리의 일부 프롬프트 등이 이미지 생성에 활용하기에는 너무 추상적이라는 점을 발견하였다. 이를 해결하기 위해 LLM이 구체적인 시각적 세부 사항을 주입하도록 유도하여, "벽을 통과하지 못하는 불교 신자"와 같이 추상적인 내용을 "벽에 부딪히는 승려"와 같이 더욱 렌더링 가능한 프롬프트로 생성하도록 안내하였다. 이는 시각적 근거를 개선하고 실제 시나리오를 더 잘 반영하도록 돕는다.
Limitation of evaluating image content. T2I 모델의 출력이 무해한지 유해한지 확인하는 작업은 매우 미묘하며 문맥에 따라 달라질 수 있다. 폭력이나 성적 콘텐츠와 같이 시각적으로 명시적인 카테고리의 경우 이미지만으로도 유해성이 분명하게 드러나지만, 프라이버시나 차별과 같은 추상적인 카테고리는 입력 프롬프트와 함께 해석하지 않으면 이미지가 무해해 보일 수 있다. 따라서 본 연구의 안전성 평가에서는 VLM에 생성된 이미지와 해당 텍스트 프롬프트를 모두 제공하여 판단하도록 하였다.
Bias of LLM usage. 프롬프트 생성과 필터링(LLM-as-a-judge)에 동일한 LLM을 이중으로 사용함에 따라 방법론적인 편향이 발생할 수 있다. 이러한 문제를 완화하기 위해 무작위로 샘플링된 하위 집합에 대해 인간 감사를 실시하여 프롬프트 레이블의 정확성을 보장하였다. 또한 지나치게 안전한 프롬프트를 걸러내기 위해 Chameleon-7B를 사용한 거부 샘플링 과정은 데이터셋에 특정한 선택 편향을 초래할 수 있다. 이로 인해 Chameleon-7B 모델 자체는 본 벤치마크에서 평가될 수 없으나, 다른 T2I 모델들은 이러한 편향의 영향을 받지 않는다.
Plurality of human values. 인간 가치와 문화적 규범의 다양성을 고려할 때, 유해하거나 무해한 프롬프트에 대해 보편적으로 인정되는 정의를 확립하는 것은 본질적으로 어렵다. OVERT는 기본 카테고리 정의를 바탕으로 구축되었으나, 이러한 한계는 4.3절에서 다룬 동적 정책 적응을 통해 해결될 수 있다. 이를 통해 사용자는 자신의 요구 사항에 맞춰 안전 정책을 맞춤화하고 그에 부합하는 평가 데이터셋을 생성할 수 있다.
본 연구는 텍스트-투-이미지(T2I) 모델의 과잉 거부 행동을 평가하기 위해 프라이버시, 자해, 차별과 같은 민감한 주제와 관련된 프롬프트를 생성하고 평가하는 과정을 포함한다. 모든 프롬프트는 대규모 언어 모델(LLM)을 사용하여 합성적으로 생성되었으며, 무해하고 정책을 준수하는지 보장하기 위해 자동화된 안전 분류기와 처음 두 저자의 수동 검토를 통해 필터링되었다. 이 과정에서 실제 사용자 데이터, 저작권이 있는 자료 또는 개인 식별 정보(PII)는 전혀 사용되지 않았다.
우리는 문화적 및 기관별 맥락에 따라 안전 표준이 다양할 수 있음을 인정한다. 본 연구의 생성 워크플로우는 프롬프트 템플릿을 통한 정책 맞춤화(policy customization)를 지원하여 특정 규범에 적응할 수 있도록 설계되었다. OVERT는 안전 정렬 평가를 목적으로 하지만, 모델의 경계를 탐색하는 등의 잠재적인 오용 위험이 있음을 인지하고 있다. 이러한 위험을 완화하기 위해 우리는 적대적 프롬프트(adversarial prompts)를 제외했으며, OVERT-unsafe 또한 통제된 평가를 위해 직접적인(straightforward) 유해 사례로만 제한하였다. 본 벤치마크는 공개적으로 사용 가능한 인터페이스만을 사용하여 DALL-E-3-Web을 포함한 여러 모델에서 테스트되었다. 우리는 T2I 안전성에 관한 책임감 있고 재현 가능한 연구를 지원하기 위해 OVERT를 공개한다.
본 연구에서는 텍스트-투-이미지(T2I) 모델의 과잉 거부(over-refusal)를 평가하기 위해 자동화된 워크플로우를 통해 구축된 합성 데이터셋인 OVERT를 소개한다. 과잉 거부란 무해한 프롬프트가 지나치게 보수적인 안전 메커니즘에 의해 잘못 거부되는 현상으로, 흔히 발생하지만 아직 충분히 연구되지 않은 문제이다. 광범위한 안전 관련 카테고리를 다루는 OVERT는 안전성과 유용성 사이의 절충 관계(trade-off)에 대한 세밀한 분석을 가능하게 한다. 최첨단 T2I 모델들을 평가한 결과, 과잉 거부 현상이 광범위하게 나타나며 모델과 카테고리에 따라 다양하게 발생함을 확인하였다. 또한 완화 전략으로서 프롬프트 재작성(prompt rewriting)을 검토하였으나, 이는 거부율을 낮추는 경우가 많지만 프롬프트의 충실도(fidelity)를 손상시킨다는 점을 발견하였다. 마지막으로, 본 연구의 데이터 생성 워크플로우가 동적 정책 적응(dynamic policy adaptation)을 지원하여 다양한 안전 표준을 반영한 평가가 가능함을 보여주었다. 본 연구진은 OVERT가 생성형 모델 개발에 있어 더욱 균형 잡히고 투명한 안전성 평가의 토대가 되기를 기대한다.