LSTM 오토인코더를 이용한 이상 탐지의 임계치 결정 방법

KYYLE·2023년 7월 19일
0

논문 정리

목록 보기
6/29

본 포스팅은 제가 읽었던 논문을 간단하게 정리하는 글입니다. 논문의 모든 내용을 작성하는 것이 아닌, 일부분만 담겨 있으므로 자세한 내용은 원본 논문을 확인해 주시기를 바랍니다. 또한, 논문을 잘못 이해한 부분이 있을 수 있으므로, 양해 바랍니다.


요약

이상 탐지에서 임계치(임계값)는 이상 탐지 성능에 직접적인 영향을 주는 중요한 요소임. 본 논문에서는 정상 데이터의 복원 오차 최댓값과 이상 데이터의 복원 오차 최솟값 사이의 비율을 사용하여 임계치를 결정하는 방법을 제안함.

캐글의 펌프 데이터를 대상으로, LSTM 오토인코더 모델을 구현한 후 실험한 결과 기존 정밀도-재현율 그래프 방법보다 정확도와 재현율이 향상되었음.

기존 연구

LSTM AE 기반 에스컬레이터 이상 탐지

정밀도-재현율 그래프 방법: 정밀도(precision)는 모델이 양성으로 예측한 것 중 실제 양성의 비율이며, 재현율(recall)은 실제 양성 중 모델이 양성으로 예측한 비율을 나타냄. 정밀도-재현율 그래프는 임계치를 변경하며 달라지는 정밀도와 재현율을 작성한 것으로, 해당 연구에서는 정밀도와 재현율이 만나는 접점을 임계치로 사용하였음.

임계치 결정 방법

LSTM AE는 시계열 데이터를 입력받아 1차원의 잠재 벡터를 생성하고, 디코더가 잠재 벡터를 입력받아 원본 입력을 복원함. 본 논문에서 제안하는 임계치 설정 방법은 다음과 같음.

정상 데이터의 복원 오차 최댓값 ndatamaxndata_{\text{max}}, 비정상 데이터의 복원 오차 최솟값 adataminadata_{\text{min}}, 분할 비율 α\alpha를 적용한 식을 이용하며, 식은 다음과 같음.

thα=ndatamaxadatamin×α+min(ndatamax,adatamin)th_\alpha = \vert ndata_{\text{max}} - adata_{\text{min}}\vert \times \alpha + \text{min}(ndata_{\text{max}}, adata_{\text{min}})

분할 비율 α\alpha는 임계치로 분할 할 비율을 의미하여, 0과 1 사이의 실수. 분할 비율이 이상 탐지 성능에 영향을 줄 수 있음.

모델 성능 평가

본 논문에서 제안한 임계치 결정 방법, 복원 오차의 평균값을 사용한 방법, 정밀도-재현율 그래프의 교차점 방법 중 본 논문에서 제안한 임계치 값이 가장 높은 정확도와 재현율을 보여주었음.

결론

본 논문은 LSTM AE 모델에서 임계치를 결정하는 방법을 제안하였음. 제안한 임계치 결정 방법이 LSTM AE 모델을 이용한 이상 탐지에서 성능 향상에 효과가 있음을 보였음.

profile
머신러닝 공부하는 대학생입니다

2개의 댓글

comment-user-thumbnail
2023년 7월 19일

잘 읽었습니다. 좋은 정보 감사드립니다.

1개의 답글