이상 탐지(anomaly detection)란 어떤 특정한 도메인에서 일반적으로 예상되는 특성을 따르지않는 데이터나, 정상(normal)으로 규정된 데이터와 다른 특징을 가지는 데이터를 찾아내는 것을 말합니다. 이상 탐지라는 주제는 아주 포괄적인 개념으로, 이상 탐지 기법을 써서 찾아내는 데이터는 불량, 오류, 악성코드, 가짜 데이터일 수도 있고, 예외, 노이즈, 새로운 패턴 등의 데이터 일 수도 있습니다. 일반적으로 데이터셋에서 작은 비율의, 다른 데이터의 범주와 확연히 구분되는 데이터를 찾고싶을때 그것을 outliers 혹은 anomalies라고 하며 이상 탐지 문제로 정의합니다.
2차원에서의 anomalies의 예. o1, o2 ,O3는 정상 영역 N1과 N2에서 떨어져 있다.
신용카드 거래 내역을 조사하여 일반적이지 않은 패턴을 발견하여 신용카드 사기 행위를 잡아내는 문제는 이상 탐지 분야에서 전통적이고 중요한 문제 중에 하나입니다. 제조업에서 공정 데이터를 분석하여 양품/불량을 분류하거나 공정 장비의 고장을 찾아내는 것 또한 이상 탐지 분야에서 활발히 연구되고 있습니다. 의학 분야에서 영상, 뇌파 신호등의 의학 데이터을 통해 비정상적인 환자 상태를 탐지하여 진단을 내리는 것도 이상 탐지 문제로 간주할 수 있습니다. 이 외에도 현실에 적용 가능한 수많은 이상 탐지 문제들이 존재합니다.
그렇다면, 이상치 탐지가 일반적인 우리가 딥러닝/머신러닝에서 수행하는 Binary Classification과는 어떤 차이가 있을까?
이상 탐지는 통계학에서 이미 오래전부터 연구되어온 주제로, 시간이 지나며 다양한 탐지 기법들이 개발되었습니다. 이상 탐지 기법으로 머신러닝 이외에도 많은 통계적, 경험적 방법들이 있지만 여기에서는 주로 머신러닝 기반의 이상 탐지 기법에 대해 다루려 합니다.
학습 데이터의 정상 데이터와 이상 데이터에 라벨링을 할 수 있다고 가정하면 이상 탐지 문제를 지도 학습의 분류 문제로 간주할 수 있습니다. 지도학습을 이용한 이상 탐지는 비교적 정확도가 높다는 장점이 있습니다. 하지만 이상 탐지 문제에서는 Imbalanced data가 자주 발생하는데, 이것은 분류 문제를 해결하는데 있어 큰 장애물이 됩니다. 즉, 비정상적인 데이터가 정상 데이터에 비해 훨씬 적은 경우가 자주 있습니다. 예를 들자면 제조업의 경우에 하나의 불량 데이터를 얻기위해 최소 몇백에서 몇천, 몇만개의 양품 데이터를 얻어야 하는 경우도 있습니다. 결국 분류 알고리즘을 성공적으로 학습시킬 수 있는 양의 비정상 데이터를 확보하기 위해서는 매우 거대한 사이즈의 데이터셋이 필요할 지도 모릅니다. 이러한 Imbalanced data 문제를 해결하기 위해서 OverSampling, UnderSampling, Reconstruction Loss 등 다양한 전략들이 연구되고 있습니다.
지도학습 머신러닝 기반의 이상 탐지로는 다음과 같은 분류 기법들이 인기있습니다.
이상 탐지 문제를 지도학습으로 해결하는 것은 많은 장점이 있지만 정상과 이상데이터를 정확히 구분하고 라벨링하는 것은 매우 어렵습니다. 정상/이상 데이터 라벨링은 매우 시간이 걸리는 작업일 뿐만 아니라 정상과 이상의 경계를 나누는 것이 분명하지않을 때가 많습니다. 게다가, 위에 말했듯이 데이터 불균형 문제도 있습니다.
지도학습 알고리즘을 적용하기 어려울때, 그 대안으로 제시되는 것이 비지도학습 이상 탐지 기법입니다. 비지도학습은 unlabeled data에서 데이터의 structure와 pattern을 알아내는 문제의 범주에 속합니다. 데이터가 라벨링이 되어있지않거나 정상, 이상에 대한 라벨링이 힘들 것으로 예상될때 적용할 수 있고, 특히 데이터에 이상치가 매우 적게 나타날때 유용한 기법입니다.
비지도학습으로 주로 사용되는 머신러닝 기법들은 다음과 같습니다.
Autoencoder의 작동원리를 보면, 이는 정상 데이터셋을 학습시킨 후 알고리즘이 정보의 압축, 복원을 반복하게되면 모델은 데이터를 실제와 가깝게 복원하기 위해 정상 데이터의 패턴과 특징을 학습하게 됩니다. 결과적으로, 학습이 잘 된 모델에 정상 데이터를 입력하면 출력값으로 원래 입력과 거의 비슷한 값을 도출해낼 것 입니다. 하지만 정상 데이터가 아닌 비정상, 특이점을 가진 데이터를 여기에 입력하게되면 모델은 기존에 학습되지 않은 비정상 데이터를 복원하는 패턴을 배우지 않았을 것이고, 출력값은 입력값과 큰 차이가 나게 됩니다. 따라서 입력값과 출력값의 차이에 대한 기준을 설정해서, 그 기준보다 차이가 나는 데이터를 anomalies로 검출해내게 됩니다.
Autoencoder는 Neural Network 기반의 알고리즘으로 입력을 encoding함으로써 압축한 정보를 latent variable에 저장하고 이를 다시 decoding하여 원본과 가깝게 복원합니다.
PCA는 Autoencoder와 작동원리가 거의 비슷합니다. 이때 PCA는 압축을 위해 차원 축소를 이용합니다.
주성분 분석(PCA, Principal Component Analysis)은 가장 대표적인 차원 축소 알고리즘이다. PCA는 먼저 데이터에 가장 가까운 초평면(hyperplane)을 구한 다음, 데이터를 이 초평면에 투영(projection)시킵니다.
저차원의 초평면에 데이터를 투영하기 전에 먼저 적절한 초평면을 선택해야 합니. PCA는 데이터의 분산이 최대가 되는 축을 찾습니다. 즉, 원본 데이터셋과 투영된 데이터셋 간의 평균제곱거리를 최소화 하는 축을 찾습니다. 아래의 그림에서 왼쪽 2차원 데이터셋을 오른쪽 그림처럼 투영했을 때 C1축으로 투영한 데이터가 분산이 최대로 보존되는 것을 확인할 수 있다.
PCA는 다음과 같은 단계로 이루어집니다.
이렇게 i번째 축을 정의하는 단위 벡터(unit vector)를 i번째 주성분(PC, Principal Component)이라고 합니다. 예를들어, 위의 그림에서는 2차원 데이터셋이므로 PCA는 분산을 최대로 보존하는 단위벡터 c1이 구성하는 축과 이 축에 직교하는 c2가 구성하는 축을 찾게 됩니다.
기본 PCA의 목적은 사영 후 분산을 최대화하는 것입니다. 따라서 PCA기반 이상치 탐지는 기존에 사영했던 것을 다시 복원을 수행하여 기존의 값과 차이가 많이 나면 이상치일 확률이 높은 것으로 간주합니다.
출처) https://www.youtube.com/watch?v=bEX6WPMiLvo
K-Means 알고리즘은 공통 부분집합으로 데이터를 자동으로 그룹핑하는 가장 유명하고 널리 사용되는 알고리즘입니다.
1. 무작위로 데에터 셋 중 두점을 cluster centroids로 정합니다. (a)
2. Cluster assignment: 모든 데이터에 대해 가까운 cluster centroid를 할당합니다. (b)
3. Move Centroid: 각각 두 cluster centroid에 대한 그룹 내 데이터들의 평균을 각각 구합니다. 구한 평균을 새로운 cluster centroid로 정의합니다. (c)
4. 적절한 그룹핑이 될 때까지 (2), (3)의 과정을 반복합니다.
KC는 대표적인 분리형 군집화 알고리즘 가운데 하나입니다. 각 군집은 하나의 중심(centroid)을 가집니다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성합니다. 사용자가 사전에 군집 수(k)가 정해야 알고리즘을 실행할 수 있습니다. k가 하이퍼파라메터(hyperparameter)라는 이야기입니다. 이를 수식으로 적으면 아래와 같습니다.
KC는 EM 알고리즘을 기반으로 작동합니다. EM알고리즘은 크게 Expectation 스텝과 Maximization 스텝으로 나뉘고 이를 수렴할 때까지 반복하는 방식입니다. 동시에 해를 찾기 어려운 문제를 풀 때 많이 사용되는 방법론입니다. KC의 경우 (1) 각 군집 중심의 위치 (2)각 개체가 어떤 군집에 속해야 하는지 멤버십, 이 두 가지를 동시에 찾아야 하기 때문에 EM 알고리즘을 적용합니다.
군집 수 k를 2로 정했습니다. 우선 군집의 중심(빨간색 점)을 랜덤 초기화합니다.
모든 개체들(파란색 점)을 아래 그림처럼 가장 가까운 중심에 군집(녹색 박스)으로 할당합니다. 이것이 Expectation 스텝입니다.
이번엔 중심을 군집 경계에 맞게 업데이트해 줍니다. 이것이 Maximization 스텝입니다.
다시 Expectation 스텝을 적용합니다. 바꿔 말해 모든 개체들을 가장 가까운 중심에 군집(보라색 박스)으로 할당해주는 작업입니다.
Maximization 스텝을 또 적용해 중심을 업데이트합니다. Expectation과 Maximization 스텝을 반복 적용해도 결과가 바뀌지 않거나(=해가 수렴), 사용자가 정한 반복수를 채우게 되면 학습이 끝납니다.
KC는 각 군집 중심의 초기값을 랜덤하게 정하는 알고리즘이기에 아래 그림처럼 초기값 위치에 따라 원하는 결과가 나오지 않을 수도 있습니다.
군집의 크기가 다를 경우 제대로 작동하지 않을 수 있습니다.
군집의 밀도가 다를 경우에도 마찬가지입니다.
데이터 분포가 특이한 케이스도 군집이 잘 이루어지지 않습니다.
이 때문에 KC를 실제 문제에 적용할 때는 여러번 군집화를 수행해 가장 빈번히 등장하는 군집에 할당하는 majority voting 방법을 쓰는 경우가 많다고 합니다. KC의 계산복잡성은 O(n)으로 계층적 군집화(Hiarchical clustering)와 비교해 그리 무겁지 않은 알고리즘이기 때문입니다.
실습: https://jimmy-ai.tistory.com/52
