적대적 이미지란? 딥러닝을 속이는 공격과 방어의 모든 것

Bean·2025년 7월 2일
0

인공지능

목록 보기
72/123

딥러닝을 속이는 적대적 이미지란? 공격 원리부터 방어 전략까지 완전 정복!

── 인간은 못 느끼지만 AI는 속는다: AI 보안 위협의 실체

딥러닝이 발전하면서 AI는 놀라운 성능을 보여주고 있습니다. 하지만 그만큼 AI를 속이려는 시도도 많아졌습니다.
그 중심에 있는 것이 바로 적대적 이미지(Adversarial Image)입니다.

이 글에서는 적대적 이미지가 무엇이고, 어떻게 생성되는지, 실제 보안 위협은 무엇이며, 어떤 식으로 방어할 수 있는지 실제 사례와 함께 정리해드립니다.


적대적 이미지란?

적대적 이미지(adversarial image)란 인간 눈에는 정상적인 이미지처럼 보이지만,
딥러닝 모델이 틀린 결과를 내도록 유도하는 교묘한 이미지입니다.

예:
고양이 사진에 아주 미세한 노이즈를 추가했더니
→ 사람 눈엔 여전히 고양이
→ AI는 “토스터기”라고 분류!


어떻게 생성될까?

적대적 이미지는 수학적으로 정교하게 설계된 공격입니다.

기본 원리

  1. 원본 이미지를 준비
  2. 모델의 손실 함수(loss)를 기준으로
  3. 입력 이미지의 기울기(gradient)를 계산
  4. 여기에 아주 작은 변화(perturbation)를 추가

대표 공격 기법

  • FGSM (Fast Gradient Sign Method)
  • PGD (Projected Gradient Descent)
  • CW Attack (Carlini & Wagner)

공격 유형: 화이트박스 vs 블랙박스

1. 화이트박스 공격

  • 모델의 구조, weight, gradient 등 모든 내부 정보 알고 있음
  • 논문 등에서는 일반적으로 이 가정을 사용
  • 매우 강력한 공격

2. 블랙박스 공격

  • 모델 내부는 모름
  • 출력(label, 확률값 등)만 관찰 가능
  • 놀랍게도 이 경우에도 공격 가능!

블랙박스 공격이 가능한 이유

1. 전이성(Transferability)

  • 하나의 모델에 대해 만든 적대적 이미지가
  • 다른 모델에도 잘 먹힘
  • 즉, 비슷한 구조의 대체 모델로 공격 이미지 생성 → 타깃 모델에 사용 가능

2. 쿼리 기반 공격(Query-based Attack)

  • 모델에 다양한 입력을 반복적으로 넣고 출력만 관찰
  • 이를 통해 기울기 추정
  • 대표적 기법: ZOO, NES Attack, AutoZOOM

보안 위협 실제 사례

1. 얼굴 인식 시스템

  • 안경에 특수한 노이즈를 입히면 → 다른 사람으로 인식

2. 자율주행 자동차

  • 표지판에 스티커 하나 붙였더니 → “정지”를 “속도 제한”으로 인식

3. 의료, 금융, 보안 시스템

  • 오분류는 실질적인 피해로 이어질 수 있음
  • 모델의 신뢰성과 안전성이 핵심

적대적 공격에 대한 방어 전략

단순히 "모델을 숨기기"만으로는 부족합니다.

블랙박스 공격도 가능하기 때문에 다층적인 방어 전략이 필요합니다.


1. 출력 제한 (Output Obfuscation)

  • 출력 정보를 줄이면 공격이 어려워짐
방법설명
Top-1만 반환확률, logits 숨기기
Hard decision만 제공"고양이" or "아님" 만 출력
출력값에 노이즈 추가정확한 추정 방해

📌 단점: 사용자 경험이나 모델 활용도 저하 가능


2. 입력 필터링 및 탐지

  • 입력 자체를 분석해서 공격 여부 판단
기법설명
Feature Squeezing해상도 낮추기 등으로 노이즈 제거
JPEG 압축고빈도 공격 노이즈 제거에 효과적
이미지 통계 기반 분석통계적 이상 징후 감지

3. Adversarial Training (적대적 학습)

  • 훈련 시점에 적대적 이미지를 함께 학습
loss = loss_clean + alpha * loss_adv
  • PGD 기반 adversarial training은 강력한 방어법으로 유명

4. 모델 앙상블 및 랜덤화

  • 여러 모델을 조합하거나 내부 연산에 무작위성을 추가
  • 공격자가 정확히 어떤 모델을 공격하는지 알기 어려움

5. API 호출 제한 + 이상 탐지

  • 쿼리 기반 공격은 수많은 호출이 필요
탐지 항목설명
호출 빈도 제한짧은 시간 내 다수 호출 시 차단
입력 패턴 이상 탐지반복 패턴 또는 이상한 입력 탐지

종합 요약

항목설명
정의딥러닝 모델이 오답을 내도록 미세하게 조작된 이미지
생성 방법손실함수 + gradient 기반으로 노이즈 생성
공격 유형화이트박스 / 블랙박스
블랙박스 공격 방식전이성 활용, 쿼리 기반 추론
실제 위협얼굴 인식, 자율주행, 의료 시스템 등에서 치명적 오분류 가능
방어 전략출력 제한, 입력 필터링, 적대적 학습, 모델 앙상블, 쿼리 탐지 등 병행 필요

마무리

AI가 사람보다 똑똑해지는 시대,
AI를 속이는 기술도 함께 진화하고 있습니다.

적대적 이미지는 단순한 연구 주제가 아니라, 실제 보안 위협입니다.
서비스 중인 AI 시스템이라면 블랙박스 공격도 항상 대비해야 합니다.

다층적인 방어 전략 없이, AI 보안은 완성될 수 없습니다.


profile
AI developer

0개의 댓글