딥러닝이 발전하면서 AI는 놀라운 성능을 보여주고 있습니다. 하지만 그만큼 AI를 속이려는 시도도 많아졌습니다.
그 중심에 있는 것이 바로 적대적 이미지(Adversarial Image)입니다.
이 글에서는 적대적 이미지가 무엇이고, 어떻게 생성되는지, 실제 보안 위협은 무엇이며, 어떤 식으로 방어할 수 있는지 실제 사례와 함께 정리해드립니다.
적대적 이미지(adversarial image)란 인간 눈에는 정상적인 이미지처럼 보이지만,
딥러닝 모델이 틀린 결과를 내도록 유도하는 교묘한 이미지입니다.
예:
고양이 사진에 아주 미세한 노이즈를 추가했더니
→ 사람 눈엔 여전히 고양이
→ AI는 “토스터기”라고 분류!
적대적 이미지는 수학적으로 정교하게 설계된 공격입니다.
블랙박스 공격도 가능하기 때문에 다층적인 방어 전략이 필요합니다.
방법 | 설명 |
---|---|
Top-1만 반환 | 확률, logits 숨기기 |
Hard decision만 제공 | "고양이" or "아님" 만 출력 |
출력값에 노이즈 추가 | 정확한 추정 방해 |
📌 단점: 사용자 경험이나 모델 활용도 저하 가능
기법 | 설명 |
---|---|
Feature Squeezing | 해상도 낮추기 등으로 노이즈 제거 |
JPEG 압축 | 고빈도 공격 노이즈 제거에 효과적 |
이미지 통계 기반 분석 | 통계적 이상 징후 감지 |
loss = loss_clean + alpha * loss_adv
탐지 항목 | 설명 |
---|---|
호출 빈도 제한 | 짧은 시간 내 다수 호출 시 차단 |
입력 패턴 이상 탐지 | 반복 패턴 또는 이상한 입력 탐지 |
항목 | 설명 |
---|---|
정의 | 딥러닝 모델이 오답을 내도록 미세하게 조작된 이미지 |
생성 방법 | 손실함수 + gradient 기반으로 노이즈 생성 |
공격 유형 | 화이트박스 / 블랙박스 |
블랙박스 공격 방식 | 전이성 활용, 쿼리 기반 추론 |
실제 위협 | 얼굴 인식, 자율주행, 의료 시스템 등에서 치명적 오분류 가능 |
방어 전략 | 출력 제한, 입력 필터링, 적대적 학습, 모델 앙상블, 쿼리 탐지 등 병행 필요 |
AI가 사람보다 똑똑해지는 시대,
AI를 속이는 기술도 함께 진화하고 있습니다.
적대적 이미지는 단순한 연구 주제가 아니라, 실제 보안 위협입니다.
서비스 중인 AI 시스템이라면 블랙박스 공격도 항상 대비해야 합니다.
다층적인 방어 전략 없이, AI 보안은 완성될 수 없습니다.