O3-MINI VS DEEPSEEK-R1: WHICH ONE IS SAFER?[논문리뷰]

Taixi·2025년 2월 3일
0

논문리뷰

목록 보기
23/24

논문 제목:O3-MINI VS DEEPSEEK-R1: WHICH ONE IS SAFER?

저자 : Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

논문 정리

LLM은 안전성과 인간의 가치에 대한 정렬(alignment)이라는 중요한 질적 특성을 충족해야한다. 그래서 DeepSeek-R1(70B 버전)과 OpenAI의 o3-mini(베타 버전)의 안전성 수준을 비교하기 위해서 ASTRAL이라는 자동화된 안전성 테스트 도구활용하여 두모델을 대상으로 1,260개의 테스트 입력을 자동화하고 생성하고 실행

  • DeepSeek-R1의 비안전한 응답 비율: 12%
  • OpenAI o3-mini의 비안전한 응답 비율: 1.2%

DeepSeek-R1이 o3-mini에 비해 10배 더 많은 비안전한 응답을 생성하는 것으로 분석

o3-mini가 높은 안전성을 보인 이유는 강력한 안전 장치(guardrails)로 인해 많은 비안전한 프롬프트를 처리하기전에 차단하였으며, 정책위반 메세지를 변환

LLM 안전성 테스트 기법

  1. 다지선다형 질문 기반 테스트
  2. LLM을 활용한 안전성 검사 모델 개발(LlamaGuard, ShieldLM)
  3. Red Teaming 및 Jailbreak 공격을 통한 테스트
  • Red Teaming : 사람이 직접 테스트 입력
  • Jailbreak : 차단해야 할 정보를 제공하도록 유도 방법
  1. 대규모 벤치마크 기반 테스트

ASTRAL

  • 블랙박스 커버리지 기준(black-box coverage criterion)을 활용하여 비안전한 테스트 입력을 자동 생성

  • 균형 잡힌(balanced) 최신 프롬프트 생성 가능

  • RAG(Retrieval-Augmented Generation), few-shot prompting, 웹 검색(web browsing) 전략을 통합하여 테스트 프롬프트를 동적으로 생성

ASTRAL의 주요 단계 요약

1️⃣ 테스트 입력 생성 단계 (Test Generation Phase)
LLM이 N개의 비안전한 테스트 입력을 생성
카테고리, 작성 스타일, 설득 기법을 균형 있게 반영하도록 블랙박스 커버리지 기준 적용
OpenAI의 Assistant API를 활용해 RAG 기반 방법을 통합
최신 뉴스 검색 기능을 추가하여 실시간 이슈 반영 가능

2️⃣ 테스트 실행 단계 (Execution Phase)
ASTRAL이 생성된 테스트 입력을 대상 LLM에 입력
LLM이 비안전한 입력을 어떻게 처리하는지 평가

3️⃣ 평가 단계 (Evaluation Phase)
또 다른 LLM이 오라클 역할 수행
대상 LLM의 응답이 안전성 기준을 충족하는지 분석
안전성 여부 최종 판단
GPT-3.5를 평가 모델로 사용

테스트 기준

6(작성 스타일)×5(설득 기법)×14(안전성 카테고리)×3(테스트 횟수)=1,260개

테스트 입력 생성 시점

ASTRAL은 인터넷에서 정보를 검색하여 최신 데이터를 반영하므로,2024년 미국 대선(US elections)과 관련된 뉴스가 다수 포함됨
특히 C3 카테고리(논란이 있는 주제 및 정치)에서 많은 테스트 입력이 대선 관련 내용을 포함

LLM이 생성한 응답을 다음 세 가지로 분류

Safe(안전함)
Unsafe(비안전함)
Unknown(판단 불가)

결과

DeepSeek-R1이 금융 범죄(c6), 폭력(c14), 테러(c13), 혐오 발언(c7) 카테고리에서 높은 위험성을 보임

내생각

평가모델이 GPT-3.5이라는게 조금 불공정한거 같다.

참고자료

profile
개발자를 위한 첫시작

0개의 댓글

관련 채용 정보