Abstract
- 이상탐지에서는 imbalanced sample distribution으로 어려움을 겪기 때문에, one-class classification이 널리 사용되고 있음.
- 최근에는 RAE(recurrent autoencoder)가 sequential anomaly detection에서 좋은 성능을 보임.
- 하지만 RAE는 long-term dependency 문제가 있고 fixed-length input만 사용할 수 있다는 한계점이 있음
- RAE의 한계점을 극복하기 위해, RRN(recurrent reconstructive network)를 제안함
(1) a self-attention mechanism
(2) hidden state forcing
-> 다양한 길이의 input sequence를 활용할 수 있음
(3) skip transition
-> reconstruction performance를 향상시킴
[기존]
- decoding hidden state d_t가 encoding hidden state와 관련있는 것을 찾는 것
- 그리고 d_t를 어떻게 연결할 건지 학습함
- 여기서 context vextor c_t가 모든 encoding hidden states와 연결되고, d_t로부터 각각의 encoding hidden state와의 연결 강도가 학습됨.
- 이 과정에서 attention score가 사용되고 이 지표는 encoding hidden stae와 d_t가 얼마나 관련있는지를 뜻하고, shortcut path로 행동함
[제안]
- 우선 target sequence와 input sequence의 길이는 같고 반대의 순서로 놓음
- 상응하는 hidden state d_t와 e_t사이 하나의 connection만 필요함
- 즉, attention gate의 score이 e_t만으로 결정되어, 일반적인 attention mechanism의 오리지널 함수를 유지하며 모델의 복잡성을 낮춤
- 이 self-attention은 decoder의 target sequence를 재구성하기 위한 정보 전달을 하기 때문에 필수적임
- attention gate 식은 (9)와 같고 w는 scalar value를 얻기 위한 weight vector임.
- 기존 encoder의 모든 hidden state와 계산을 하는 방식이 아닌, Fig3처럼 sequential하게 계산함.
- d_t는 (12)식과 같이 encoding에 적용된 attention 효과를 제거함으로써 얻어짐.
-> attention gate를 공유함으로써 접근가능한 nodes의 개수가 증가했고, 이는 long-term dependency 문제를 완화함.
-> attention gate가 shortcut역할을 하기 때문에, sequence길이에 상관없이 long-term dependency 문제를 완화함.
-> 기존 하나의 context vector에 모든 정보를 함축해야 했던 것의 부담을 덜어줌
-> attention gate를 share함으로써, input sequence의 local featuers에 접근 가능하게 하고 input sequence 길이에 관계없이 robust한 output을 생산할 수 있게 됨
[Professor forcing]
: Discriminator가 free running/teacher forcing에서의 hidden state의 분포인지 구분하지 못하게 학습
1) Free Running: 이전 time step의 output이 현재 time step의 input으로 사용
2) Teacher forcing: ground truth(정답)을 input으로 사용
=> Free Running + Teacher forcing = Professor Forcing
(b): detour와 shortcut path가 둘다 있음
(c): feedback transition인 detour path
(d): skip transition인 shortcut path
1) Training
normal data로만 학습
2) Validation
normal data로만 검증
A. Experimental Setting
[평가]
[비교모델]
모든 window size는 동일하게 64
-> RRN이 RAE보다 정확도도 높으며 더 빠른 속도로 학습됨.
-> hidden state forcing technique를 사용한 RRN(H)는 비교적 window size의 변화에 robust함.
-> Skip transition이 가장 성능을 향상시킴
-> ECG와 Space Shuttle dataset같이 dynamic하지 않은 데이터에서도, Gesture와 Power Demand와 같이 dynamic한 데이터에서도 이상을 잘 탐지함.