EXPLAINABLE ANOMALY DETECTION FOR INDUSTRIAL

엘리자베스22호·2026년 1월 11일

1. Abstract

본 연구의 목적은 산업 제어 시스템(ICS)의 사이버 보안 강화를 위해 높은 탐지 성능과 해석 가능성을 동시에 갖춘 이상 탐지(Anomaly Detection, AD) 방법론을 제안하는 것이다.

이를 위해 LSTM 오토인코더(Autoencoder) 와 단일 클래스 서포트 벡터 머신(OCSVM) 을 결합한 하이브리드 이상 탐지 모델을 구성하고, 여기에 Gradient SHAP 기반의 설명 가능한 인공지능(XAI) 모듈을 통합하였다.

제안한 방법은 SCADA(Secure Water Treatment) 계열 데이터셋 중 Gas Pipeline 데이터셋을 활용하여 평가되었으며, 기존 방법론 대비 Recall 96.28%, F1-Score 90.12%로 우수한 탐지 성능을 보였다.

또한 XAI 모듈을 통해 이상 징후 판단에 가장 크게 기여한 특징(feature)을 시각적으로 해석함으로써, 엔지니어가 해당 이상이 실제 사이버 공격인지, 혹은 시스템/센서 오작동인지를 보다 신속하게 판단하고 대응할 수 있도록 지원한다.

2. 핵심 용어 및 개념 정리

ICS (Industrial Control Systems)

전력, 가스, 물 공급 등 국가 기반 시설의 운영을 제어·관리하는 산업 제어 시스템을 의미한다. 최근 IoT, 클라우드, AI 기술과 결합되면서 보안 위협이 증가하고 있다.

AD (Anomaly Detection)

정상적인 데이터 패턴에서 벗어난 비정상 행위 또는 이벤트를 탐지하는 기술로, ICS 환경에서는 사이버 침입 및 시스템 공격 방지에 핵심적인 역할을 한다.

LSTM Autoencoder

시계열 데이터의 압축 표현 학습을 위해 인코더와 디코더 모두에 LSTM 셀을 사용하는 오토인코더 구조이다. 시간 의존성이 강한 데이터에서 정상 패턴을 효과적으로 학습할 수 있다.

OCSVM (One-Class Support Vector Machine)

정상 데이터만을 학습하여, 새로운 입력 데이터가 정상 범주에 속하는지 여부를 판별하는 단일 클래스 분류 기반 이상 탐지 알고리즘이다.

XAI (Explainable Artificial Intelligence)

AI 모델의 예측 결과와 내부 작동 과정을 사람이 이해할 수 있도록 설명하는 기술로, 산업 현장에서 모델 신뢰성을 확보하는 데 중요하다.

SHAP (SHapley Additive exPlanations)

게임 이론의 Shapley 값을 기반으로, 각 특징(feature)이 예측 결과에 기여한 정도를 정량적으로 추정하는 XAI 기법이다.

Gradient SHAP

딥러닝 모델에 적합한 SHAP 근사 기법으로, 기준선(baseline) 분포에서 무작위 샘플링을 수행하고 기울기(gradient)의 기댓값을 계산하여 SHAP 값을 추정한다. Deep SHAP 대비 계산 비용이 낮다.

3. Method

3.1 하이브리드 이상 탐지 모델

(LSTM Autoencoder – OCSVM)
그림 1은 본 연구에서 제안한 LSTM Autoencoder–OCSVM 기반 이상 탐지 모델과 Gradient SHAP 기반 XAI 모듈의 전체 처리 흐름을 나타낸다.

입력 시계열 데이터는 길이 𝑙의 슬라이딩 윈도우(sliding window) 를 통해 겹치는 시퀀스로 분할된다. 각 시퀀스는 LSTM Autoencoder의 인코더를 통해 시간 의존성을 반영한 잠재 표현(latent representation)으로 압축되며, 디코더를 통해 원래 시퀀스로 재구성된다.

이후 입력 시퀀스 𝑋𝑖와 재구성된 시퀀스 𝑋^𝑖 간의 재구성 오차(reconstruction error) 가 계산되며, 해당 오차 정보는 OCSVM(One-Class Support Vector Machine) 모델의 입력으로 전달된다. OCSVM은 정상 데이터 분포로부터 학습된 결정 경계를 기반으로, 해당 시퀀스가 정상(normal) 범주에 속하는지 또는 이상(anomalous)인지 여부를 판별한다.

이상으로 탐지된 시퀀스에 대해서는 설명 가능성 확보를 위한 XAI 모듈이 추가적으로 적용된다. Gradient SHAP을 사용하기 위해, 사전 학습된 LSTM Autoencoder의 가중치를 전이한 설명자(Explainer) 모델을 구성하며, 이때 모델 상단에 Flatten 레이어를 추가하여 SHAP 값 계산이 가능하도록 구조를 수정한다. 설명자 모델은 학습 데이터로부터 추출된 background 데이터와 이상 시퀀스를 입력으로 받아, 각 특징(feature)이 이상 예측에 기여한 정도를 Shapley 값 형태로 시각화한다.

이를 통해 제안된 파이프라인은
(1) LSTM Autoencoder를 통한 시계열 표현 학습,
(2) OCSVM을 통한 안정적인 이상 판별,
(3) Gradient SHAP을 통한 이상 원인 해석
을 단계적으로 수행하며, 높은 탐지 성능과 모델 투명성을 동시에 만족하는 ICS 이상 탐지 구조를 제공한다.

데이터 전처리

입력 데이터
$X = {x_1, x_2, \dots, x_n}$
를 길이 (l)의 슬라이딩 윈도우(sliding window) 를 사용해 겹치는 시퀀스로 분할한다.

LSTM Autoencoder의 역할

입력 시퀀스를 인코딩하여 저차원 압축 표현(latent representation) 학습
디코더를 통해 원래 시퀀스로 재구성
입력과 출력 간의 재구성 손실(reconstruction loss) 계산

LSTM Autoencoder는 정상 시계열의 구조적 패턴 학습에만 집중한다.

OCSVM의 역할

LSTM Autoencoder에서 계산된 재구성 손실 정보를 입력으로 사용
새로운 시퀀스가 정상 범주에 속하는지 여부를 최종 판별

이를 통해 임계값 설정의 불안정성을 완화하고, 이상 판별을 보다 명확하게 수행한다.

성능 최적화 기준

ICS 환경 특성상 실제 이상을 놓치는 비용이 크므로,

Precision보다 Recall과 F1-Score를 우선적으로 고려
약간의 오탐(False Positive)을 감수하더라도 이상 탐지율 극대화 목표

3.2 설명 가능성 모듈 (XAI Module)

SHAP 값 계산

각 슬라이딩 윈도우 단위 샘플에 대해 Shapley 값을 계산하여,

어떤 특징이
어느 정도로
이상 예측에 기여했는지 분석한다.

Gradient SHAP 적용 이유

LSTM Autoencoder의 출력은 벡터 형태를 가지므로,

계산 비용이 높은 Deep SHAP 대신
딥러닝 모델에 적합한 Gradient SHAP을 사용

모델 구조 수정

Gradient SHAP 계산을 위해,

사전 학습된 LSTM Autoencoder의 가중치를 전이(transfer)
상단에 Flatten 레이어를 추가한 별도의 설명자(Explainer) 모델 구성

해석 방식

계산된 SHAP 값을 시각화하여,

예측된 이상 징후에 대해
특징(feature)별 기여 비율을 직관적으로 확인한다.

4. Results

4.1 성능 평가

(Gas Pipeline SCADA Dataset)

실험은 Gas Pipeline SCADA 데이터셋을 사용하여 수행되었다.

학습 데이터: 정상 샘플 40,192개
테스트 데이터: 정상 + 비정상 샘플 10,048개
(이상 비율 약 20%)

평가 지표는 Precision, Recall, F1-Score를 사용하였다.

제안한 LSTM Autoencoder–OCSVM 모델은 다음과 같은 성능을 보였다.

Recall: 96.28%
F1-Score: 90.12%

이는 K-means–CAE, SVM, 단독 LSTM 모델 등 기존 방법론 대비 우수한 결과로,
실제 ICS 사이버 보안 환경에서의 활용 가능성을 보여준다.

엘리자베스22호

2026년 화이팅!!!

이전 포스트

[기초] 머신러닝 모델 평가 지표

다음 포스트