[논문 리뷰] Time Series to Images: Monitoring the Condition of Industrial Assets with Deep Learning Image Processing Algorithms

뱅모·2022년 12월 26일

paper-review

2023 동계 Paper Review

목록 보기

2/5

본 Paper Review는 고려대학교 스마트생산시스템 연구실 2023년 동계 논문 세미나 활동입니다.
논문의 전문은 여기에서 확인 가능합니다.

Abstract

시계열의 Sequential한 특성은 feature complexity가 높아서 Task를 수행하기 위해 특별한 접근이 필요
시간으로 정리되지 않은 시계열에 대해 시계열 변환이 없다면 SOTA 방법을 써도 Detect 못함
Computer vision에서 딥러닝이 성공적이므로, 윗줄과 같은 경우 시계열을 이미지로 변환하여 해결하고자하는 노력이 생겨남
하지만 윗줄의 노력은 Supervised 상황에 국한되어왔음

본 논문의 Contribution

시계열을 이미지로 Encoding하는 6 가지 방법에 대한 평가
(Gramian Angular Field / Markov Transition Field / Recurrence Plot / Glay Scale Encoding / Spectrogram / Scalogram)
기존의 Encoding definitions을 수정하여 large datasets에 대해서 Robust하도록 함
기존의 시계열 방법론 vs 다른 Encoding 방법론 (수정 有&無) 이상치 탐지 비교 실험

1. Introduction

Operating cost에 있어서 Maintenance 수준 유지는 많은 부분을 차지하고
Anomalies를 Detect할 수 있다면 Preventive Maintenance 필요를 줄일 수 있기에 중요합니다.

센서의 가격이 낮아지고 IoT로 인해 large monitoring 환경이 연결되면서 수많은 데이터가 실시간으로 빈번하게 수집되고 있습니다.
이러한 상황에서 몇가지 문제가 생기는데, 데이터의 길이가 가변적이고 Fault 신호가 완전히 다른 temporal or spectral 규모로 나타난다는 점입니다.

최근에는 딥러닝이 발전해서 large 데이터셋으로부터 training objective를 최대화하는 신호를 자동적으로 찾도록 학습하는 것이 가능해졌습니다.
딥러닝 모델들은 지도학습 상황에서는 SOTA를 달성해왔으나, Anomaly Detection의 경우 Main class의 관점에서 접근하는 방법론(준지도, 비지도학습)이기에 어려움이 있습니다.

해당 문제를 타파하기 위해, 여러 노력들이 있어왔습니다.
정상데이터로만 학습하여 Residual이 큰 관측치들을 이상으로 판단하기 (Autoencoder - 재구축 기반)

시계열을 이미지로 Encoding하기 : 시간 흐름에 따라 나타나는 local pattern 강조 및 포착 용이
--> 단점: Time series anomaly detection 에서는 주로 사용되는 방법이 아니었음

본 논문은 비지도상황에서 Time Series를 Image로 Encoding하는 방법 6가지를 비교
Gramian Angular Field / Markov Transition Field / Recurrence Plot / Glay Scale Encoding / Spectrogram / Scalogram

방법은 뒤에서 자세하게 설명하겠지만 간단히 말하면

1. 시계열 분리
2. Sub series로 인코딩
3. CAE를 통과할때 집계되는 Residuals을 모니터링

입니다.

각 모델들을 유사한 Framework에 넣고 1-D CNN을 사용해서 결과를 비교합니다.

이를 통해 연구는 의미있는 결과를 얻기 위해 Encoding의 제안된 수정이 필요하며, Anomolous 시계열 탐지에 이점을 제공한다는 것을 입증합니다.

2. Framework for Anomaly Detection

Figure 1은 각각의 Image Encoding 처리한 Time Series를 input으로 하는 Autoencoder 기반 Detection of anomalous input reconstruction Framework를 보여줍니다.

일단 Autoencoder 기반 모델이기 때문에 다들 아시다시피 원본 데이터를 Latent space로 차원 축소하고 원본과 같은 차원으로 복원하여 그 차이를 가지고 이상을 판단합니다.
복원이 잘되면 정상, 복원이 안되면 이상이라는 전제가 깔려있는겁니다.
복원이 잘되었는지 여부는 연구자가 설정하는 Threshold를 기준으로 판단합니다.

여기서 원본 시계열 데이터셋이 상당히 long하기 때문에 2개의 문제가 발생합니다.

Reconstruction을 기반로 집계된 residual로 이상을 판단하기 때문에, global scale에서 봤을 때는 local anomaly가 눈에 안 띌 수 있음.
대부분 Encoding 시간은 Input size에 영향을 받음으로, 너무 오래걸림.

이를 해결하기 위해서 원본 시계열을 더 작은 크기의 Sub-series로 sub-divide하는 과정을 거칩니다.

분리된 Sub-series를 image로 인코딩하고 AE 기반 모델에 넣어서 Residual을 계산, 집계합니다.
수식은 간단하게 아래와 같습니다. 여기서는 L1-norm을 사용했네요.

위 수식을 보면 l이 있는데 저자는 baseline model의 경우 l=l1 / 인코딩을 거친 경우에는 l= l2 X l2 로 설정했습니다.

비지도 상황이기 때문에 모든 학습 데이터는 정상 상황에서 수집되었음을 가정합니다.

Threshold는 Residual의 99%로 설정했습니다.

각 시계열마다 sub-series로 잘라서 Residual을 구하는데 그들 중 가장 큰 Residual을 Threshold와 비교하는 방식을 택했습니다. (즉 Residual > Threshold : Anomaly)

이렇게 한다면 local anomalies를 detect하는 것이 가능합니다.

3. Time Series To Image Encoding

3.1 Gramian Angular Field (GAF)

GAF는 2 step으로 시계열을 행렬로 변환합니다.

공간 (Time X Value) --> 극좌표 변환

L은 일시적 차원 (최종 행렬 계산에 영향 X)
변환 과정은 일대일대응 & 절대적 시간관계 보존
여기서 X는 -1과 1 사이의 값만 입력해야하기 때문에 아래와 같은 정규화 과정이 필요합니다.

UB와 LB는 각각 upper & lower bound parameter이고, 일반적으로 max와 min으로 설정합니다.
새로운 공간의 Gramian 행렬 계산

위와 같은 방식으로 GAF 행렬을 계산하는데 간단하게 주목할 점은 1번 과정에서 구했던 r이 사용되지 않으며 즉 L 차원은 결과에 영향을 주지 않습니다.
결과적으로 GAF 변환은 reversible하지 않으며, 시계열로 재복원이 어렵습니다.
--> Encoding 시 정보의 손실이 불가피함
하지만 inverse space에 moderate overlap이 존재해서, 재복원 근사는 가능하답니다.

3.2 Markov Transition Field (MTF)

MTF는 시계열에서 pair of points간의 값의 변화를 반영하는 확률 행렬을 만드는 방법입니다.

먼저 시계열을 discretize합니다.
그 다음 전체 training set에 있는 연속적인 데이터 포인트들마다 한 bin에서 다른 bin으로의 전환이 count되고 정규화됩니다.
마지막으로 MTF 행렬은 데이터가 속해있는 두 개의 bin 사이의 시계열적 transition 확률이 대한 모든 pair of points를 포함하게 됩니다.

말이 조금 어려운데 수식을 봐도 조금 어렵습니다.

시계열을 Q+1 bin으로 discretize하고, 연속된 점들간의 transition을 qi로 지정합니다.

그리고 위와 같이 MTF 행렬을 계산합니다.

특징으로는 non reversible합니다. 즉 information loss가 존재합니다.
그리고 얼마나 discretization 하느냐가 변환 과정에서 정보의 손실을 어느정도로 유지할 것인지를 결정합니다.
Bin을 많이 만들면 Sparse하고 적게 만들면 substantial information loss가 따릅니다.

MTF 방법론은 optimal parameter를 설정하는 것에 영향을 많이 받기 때문에, 본 논문의 저자는 Symbolic Aggregate approXimation (SAX) 알고리즘을 사용하여 bin choice와 assignments를 결정했다고 합니다.

3.3 Recurrence Plot (RP)

RP는 시계열을 Recureence 행렬로 변환하여 일부 Trajectories가 이전에 방문한 상태로 돌아오는 지점을 밝힙니다.
저자는 이진화되지 않은 버전을 사용했다고 합니다.

시계열을 K개의 sub-sequences ( $S_i$ ) $i$ $\in$ (1,K) 로 나눈 후 위와 같이 변환을 진행합니다.
Sub-sequence의 길이를 1로 설정하여 오직 single value의 차이만을 고려했고, $K=l_2$ 로 설정했습니다.

이러한 변환은 non-reversible하고 오직 value 차이만 유지해서 시계열에서의 정보를 잃기 때문에,

저자는 위와 같이 변환하여 사용했다고 합니다.

3.4 Gray-Scale (GS) Encoding

GS Encoding은 제조시스템에서 Fault diagnosis를 하기위해 2018년 CNN을 사용하여 제안된 방법입니다.

해당 변환은 먼저 1D 시계열을 K개의 sub-series로 reshape하고
color encoding 값처럼 값을 rescaling 합니다. (e.g. 8-bit integer)

P는 scaling factor, UB와 LB는 X를 scaling하기 위한 upper and lower bound 입니다.

저자는 실험을 위해 $UB=max(X)$ , $LB=min(X)$ , $P=255$ 로 설정했다고 합니다.

3.5 Spectrogram (SP) and Scalogram (SC)

저자는 위와 같은 인코딩 외에도 전통적인 time-frequency 연구에 사용되었던 방법들을 추가했습니다.

시계열의 spectro-temporal한 표현은 2차원이기때문에, 이미지처럼 해석하고자하는 노력이 있었습니다.

Spectrogram은 short-time Fourier Transform (STFT) / Scalogram은 Discrete Wavelet Transform (DWT)로부터 나온 방법론들입니다.

STFT와 DWT 모두 windowing function으로 시계열을 convolve한다는 점은 유사하나,
STFT는 window로 Fourier Transform을 DWT는 Wavelet function을 사용한다는 점이 차이입니다.

4. Detection of Anomalous Conditions in Flight Test

4.1 Helicopters accelerometers use case

앞서 살펴본 Encoding 방법론들을 적용하여 시계열을 이미지로 변환하는 실험을 진행하기 위해 선정된 데이터셋은 Airbus SAS 2018에서 수집된 Flight test helicopters vibration measeurements입니다.

중장비 비행기(헬리콥터, 비행기)의 비행 시험에서 주요 과제는 검증할 신호의 수 때문에 생성된 데이터의 검증입니다.
직접 검증하는 것은 너무 많은 시간과 인력이 필요하기 때문입니다.

해당 데이터셋은 헬리콥터의 운행 상태를 진동으로 측정하기 위해 헬리콥터의 여러 부분에 부착된 accelerometers로부터 수집된 값입니다.
여러개의 1024Hz 1D 시계열이며 1분 단위로 수집된 Sequence입니다.
라벨 (normal, anomalous)은 비행별로 그리고 sequence 별로 부여되어있습니다.

Training data set : 1677 sequences from normal flights
Validation data set : 594 sequences from normal and anomalous flights

4.2 Pre-processing and Hyperparameter Settings for the Image Encodings

실험은 6개의 Encoding 방법론들과 원본 1D 시계열 데이터를 입력으로 진행되었습니다.
원본이 1D 시계열 데이터이기 때문에 2D-CNN 대신 1D-CNN을 적용되었습니다.
Figure 1 Framework와 같이 실험이 진행되었고, 61,440 길이의 시계열을 512 길이의 120개로 나누어서 진행되었습니다.

용이한 계산을 위해 이미지는 64x64 크기가 되도록 산출했습니다.
(average pooling 사용하여 downscale)

Encoding 별 세부사항은 논문을 참고해주세요!

4.3 Hyperparameters of the DL algorithms

4.4 Results

실험결과는 TPR, FPR, F1-score, AUC, 소요시간으로 비교했습니다.

결론적으로 살펴보면 Scalogram 이 가장 좋은 성능을 보였습니다.

GAF, MTF, RP, GS는 원래의 모델보다 본 논문에서 수정한 방식을 적용할 때 좋은 성능을 거뒀습니다.

5. Discussion

위 실험을 통해 원본 시계열을 입력으로 넣는 것보다는 이미지로 Encoding하는 방법을 적용하는 것이 대체로 좋은 성능을 거둔 걸 확인할 수 있었습니다.
여기서 더 발전시키려면 몇가지 논의 사항이 있습니다.

Defining the transformation
Table 2 결과를 보면 Original Encoding 방법을 사용하면 오히려 결과가 더 나빴습니다.
이를 통해 input에 대한 transformation parameter는 encode되는 image에 영향을 주는 걸 확인할 수 있습니다.

Threshold choice
정상 데이터만 사용해서 적절한 threshold를 설정하는건 쉽지 않습니다.
본 연구에서는 residual의 99% 지점을 threshold로 설정하였는데 AUC를 사용해서 threshold를 보면 꽤나 적절했던 것 같습니다.
하지만 정상 데이터만을 사용해서 threshold를 설정하는만큼 다른 종류의 data나 anomalies가 온다면 위 방법이 적절하지 않을 지도 모릅니다.

Selection of time-series to image encoding
제안된 Encoding 방법론이 다 좋은 결과를 내긴 했지만, 실험을 통해서 알게된 결과일 뿐 그 전에 미리 어떤 방법론이 적절한지 알기는 힘듭니다.
어떤 시계열 혹은 어떤 anomalies에 어떤 Encoding 방식이 채택되어야하는지 미리 찾아내는 노력도 필요합니다.

Architecture of the CAE
Encoding 방식의 비교가 목적이었기에 본 연구는 기본 CNN을 사용했습니다.
만약 다른 방법론을 적용해서 성능을 비교해본다면 이것도 흥미로울 것 같네요 :)

Aggregation of residuals
Time step이 증가하면 Encoding 계산시간이 굉장히 증가합니다.
그렇기때문에 본 연구는 시계열을 잘라서 모든 slice의 max residual을 찾고 threshold와 비교하는 실험한 겁니다. 물론 local anomaly를 탐지하기 위함도 있습니다.

위와 같은 방법 말고도 다른 방법을 고민해봐도 될겁니다. (mean, quantile, etc)

Interpretability of image encodings
시계열을 이미지로 변환하는 것의 또 하나의 장점은 pure한 시계열과 비교했을 때 더 직관적인 interpretabiltiy를 제공한다는 것입니다.

이를 통해 도메인 experts가 더 이해하기 쉽고, 패턴을 추적하고 설명할 수 있도록 합니다.

6. Conclusion and perspectives

본 연구는 Unsupervised anomaly detection setting에서 몇 가지 시계열-이미지 Encoding 방식을 적용했습니다.

기존 Encoding 방법론에서 나아가, GAF, MTF, GS Encoding에서 수정을 거쳤고 anomaly detection에 적합하도록 만들었습니다.

원본 시계열부터 6 가지 Encoding을 거친 시계열-이미지까지 input으로 설정하여 실험을 진행하고 성능을 비교했고, 그 결과 시계열을 이미지로 변형하는 것의 효과를 증명했습니다.
그러한 결과는 시계열을 2차원 표현으로 변형했기 때문에 correlations, recursive behaviors, spectral components와 같은 더 복잡한 패턴을 포착해낼 수 있었기 때문입니다.
나아가 interpretability 효과까지 볼 수 있었습니다.

Future work로는 다양한 데이터 혹은 anomalies에 대한 추가적인 실험이 있습니다.
모든 종류의 데이터와 anomalies에 적합하여 community에 도움이 되는 것이 가장 이상적일 것입니다.
또한 여러 encodings 방법론들을 결합하는 ensemble framework도 연구할 가치가 있을 것입니다.

뱅모

KU. SPS Lab 대학원생

이전 포스트

[논문 리뷰] Recent advances in convolutional neural networks

다음 포스트