From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

Yuri·2025년 10월 9일

논문 리뷰

목록 보기
21/23

(CoRR 2025, Submit)

Introduction

기존의 콘텐츠 조정 방식은 LLM의 전체 출력물을 기반으로 유해성을 판단하는 전체 탐지 방식이 주를 이루어 서비스 지연 초래

생성 과정 중간에 유해성을 탐지하여 출력을 조기에 중단하는 부분 탐지 방식은 전체 출력물에 맞춰 학습된 모델을 불완전한 출력물에 적용함으로써 훈련-추론 간극을 발생시켜 성능 저하 유발

LLM의 유해한 출력물을 실시간으로 모니터링하여 조기에 중단시키는 스트리밍 콘텐츠 모니터(Streaming Content Monitor, SCM) 제안

Methnology

  • 개요: LLM이 주어진 프롬프트 P={p1,,pm}\mathcal{P} = \{p_1, \dots, p_m\}에 따라 응답 T={t1,,tn}\mathcal{T} = \{t_1, \dots, t_n\}을 autoregressive하게 생성하는 동안, SCM은 각 시점 ii에서 생성된 토큰 tit_i를 가져와 유해성에 대한 기여 점수 ctic_{t_i}를 계산
    cti=P(y=1P,T<i,ti)=P(ftok(hi)),hi=z(P,T<i,ti)c_{t_i} = P(y = 1 \mid \mathcal{P}, \mathcal{T}_{<i}, t_i) = P(f_{\text{tok}}(h_i)), \quad h_i = z(\mathcal{P}, \mathcal{T}_{<i}, t_i)
    여기서 y=1y=1은 유해 클래스를, ftok()f_{\text{tok}}(\cdot)은 토큰 스코어러를, z()z(\cdot)은 프롬프트와 생성된 토큰 정보를 통합하여 토큰 표현 hih_i를 추출하는 특징 추출기를 나타냄 특징 추출기란 백본 LLM에서 헤더만 제거한 모델이며, 토큰 스코어러는 선형 레이어와 드롭아웃 레이어로 구성되어 특징 추출기에서 오는 은닉 상태를 이진 클래스(유해/무해)로 투영 훈련 시에는 자체 구축한 토큰 수준의 세밀한 유해성 어노테이션을 포함하는 FineHarm 데이터셋 사용
  • Hierarchical Consistency-Aware Learning
    • 훈련-추론 간극을 완화하기 위해 SCM은 전체 응답 수준의 지식을 토큰 수준 표현에 주입하는 다중 작업 학습 프레임워크 사용
    • 응답의 마지막 토큰 표현은 전체 응답의 표현으로 간주되어 응답의 유해성 cholc_{\text{hol}}을 판단하는 홀리스틱 스코어러로 전달
      • 홀리스틱 스코어러는 단일 선형 레이어로 구성되며, 시그모이드 함수를 통해 전체 응답의 유해성 점수 cholc_{\text{hol}}를 확률 값으로 취득
    • 토큰 및 응답 수준 피처의 상관관계를 강화하기 위해, 유해 토큰은 유해 응답에만 존재한다는 가정을 따르는 명제적 부울 표현 제약 조건 사용
      • 만약 어떤 응답이 유해하다면, 그 응답 안에는 적어도 하나 이상의 유해한 토큰이 존재 (예: "나는 과일을 훔칠꺼야"라는 문장이 유해하다면, '훔칠'이라는 토큰은 유해하다)
      • 만약 어떤 응답이 유해하지 않다면 (benign), 그 응답 안에는 어떤 유해한 토큰도 존재하지 않아야 합니다. 즉, 모든 토큰이 유해하지 않아야 합니다. (예: "안녕하세요"라는 문장이 유해하지 않다면, '안녕', '하세요' 모두 유해하지 않다)
    • 전체 손실 함수는 L=αLtok+(1α)Lhol+βLlogicL = \alpha \cdot L_{\text{tok}} + (1 - \alpha) \cdot L_{\text{hol}} + \beta \cdot L_{\text{logic}}로, LtokL_{\text{tok}}LholL_{hol}은 binary cross-entropy이고, LlogicL_{\text{logic}}은 토큰 및 응답 수준 예측 간의 논리적 일관성을 강제하는 손실임
    • LlogicL_{\text{logic}}Llogic=logP(F)=log(1chol+cholctok)L_{\text{logic}} = -\log P(F) = -\log(1 - c_{\text{hol}} + c_{\text{hol}} \cdot c_{\text{tok}})로 다음 명제 규칙 F=fhol(hn)g({ftok(hi)}i=1n)F = f_{\text{hol}}(h_n) \Rightarrow g (\{f_{\text{tok}}(h_i)\}_{i=1}^n)의 확률 P(F)P(F)를 최대화하도록 설계됨
      이 때 g()=max()g(\cdot) = \max(\cdot)으로 모든 토큰 점수 중 가장 유해할 가능성이 높은 토큰을 선택
  • 추론 시 동작
    • 훈련 후, 홀리스틱 스코어러는 분리되며 특징 추출기와 토큰 스코어러만 SCM을 구성하여 LLM 시스템의 플러그인 모듈로 작동
    • Naive partial detection: 현재 토큰 tit_i의 유해성 예측 ctic_{t_i}가 임계값 θ\theta를 넘으면 응답을 유해하다고 판단하여 즉시 중단
    • Delay-k partial detection: LLM 서비스 제공자가 콘텐츠 조정의 민감도와 허용 오차를 조절할 수 있도록 하며, 탐지된 유해 토큰의 수가 임계값 kk에 도달할 때까지 응답 생성을 계속
    • kk 값이 클수록 오탐율(False Alarm Rate, FAR)은 낮아지지만 미탐율(Missing Alarm Rate, MAR)은 높아짐

image.png

Experimental Result

image.pngimage.png

0개의 댓글