[데이콘_경연대회]신용카드 사기 탐지 탐색_①

포동동·2022년 7월 9일
0

[데이콘]

목록 보기
1/3

🌟 첫 개인 프로젝트 🌟

첫 개인 프로젝트로 전부터 눈여겨 보던 데이콘 경연대회에 참가하기로 했다.
신용카드 데이터를 받아 사기 거래를 탐지하는 문제였다.



데이터 탐색 💻

우선 데이터를 받았다.
train, validation, test로 구성된 데이터였고
column은 전부 ID와 V1~V30으로 구성되어 있었다.

특이한 점은, train 데이터에 label이 없었다는 것이다. label은 validation 데이터에만 존재했다.

따라서, '아 이건 지도 학습이 아니라 이상치 탐지를 하는 알고리즘을 사용해서 푸는 비지도 학습 문제구나!(이걸 어떻게 한 번에 알았겠는가. 삽질 좀 했다.)' 싶었다. 지금까지 지도 학습 문제만 풀어봐서 바로 비지도 학습 공부에 들어갔다.



여기서 잠깐!

내가 왜 비지도 학습 문제를 지도 학습 문제로 착각했는지 얘기하자면, 내가 이번에 푸는 문제는 단순히 군집을 찾아내는 정통적인 비지도 학습이 아니라, 군집에서 떨어진 이상치를 탐색하는 것이었기 때문에 알고리즘적으로는 비지도 학습 알고리즘을 사용하지만 목적지도 학습이기 때문이다.

그리고 또 한 번 잠깐, 그렇다면 지도 학습 중 분류 문제와 유사한 것 같은데, 분류와 이번 문제의 핵심인 이상치 탐지는 어떻게 다른가? 아래의 그림으로 설명하겠다.

왼쪽이 이진분류, 오른쪽이 이상치 탐지이다. AB이상치인데, 분류로 풀면 파란색 동그라미와 빨간색 X만을 분류하는데 초점을 두기 때문에 이상치인 AB 모두 같은 군집(normal)으로 묶여버린다. 하지만, 이상치 탐지에서는 파란색 동그라미만을 정상치로 보고 그 외의 것을 모두 이상치로 본다. 따라서 목적과 방법을 구분해야 하는 것이다(라고 이해했는데 맞는지 아닌진 모르겠다)


알고리즘별로 수학적 이해를 다 하지는 못 했지만,
결과적으로 내가 이번에 쓸 수 있는 비지도 학습 알고리즘을 정리했다.



분포 기반 알고리즘

  • Gaussian Density Estimation
  • Mixture of Gaussian Density Estimation
  • Parzen Window Density Estimation(KDE)

나에게 있는 normal 데이터를 가지고 분포를 추정하고 그 분포에 들어올 확률이 낮은 데이터를 abnormal이라고 판단하는 방식이다.

(어마무시한 수식을 보았다...)



분류 기반 알고리즘

  • Aoutoencoder
  • Bayesian network
  • Decision Rule
  • One-Class SVM

입력층과 출력층의 노드 수가 같고 은닉층으로 구성된 인코더를 통해 입력 데이터를 압축, 디코더로 개체를 복원하는데, 이 때 발생하는 복원 오차가 클 수록 이상 개체라고 판단하는 방식이다.

(딥러닝 기반이라 이번에 할 수 있을지는 모르겠다)



거리(NN) 기반 알고리즘

  • K-NN(지도학습...?)
  • PCA
  • Local Outlier Factor(LOF)

정상치끼리는 모여있고, 이상치는 근방에서 멀리 떨어져 있다는 것을 전제로 한다. 두 개체 사이의 거리를 계산하여 이상치를 탐색한다.

거리 개념만 잘 정의된다면 자료 형태에 구애받지 않지만, 거리를 구해야 하기 때문에 시간이 오래 걸린다.


군집화 기반 알고리즘

  • DBSCAN
  • SNN

(군집을 찾아내는 게 목적이라 이상치 탐지에 최적화되어있지는 않다)

  • SOM
  • k-Means
  • EM

군집의 중심과 가장 먼 데이터를 이상치로 탐색한다.
또한, '정상값은 크러나 조밀한 군집에, 이상값은 작거나 한산한(sparse) 군집에 속한다'는 가정을 기반으로 한 알고리즘도 포함된다.



알고리즘 선택

이제 알고리즘에 대한 대충의 공부를 끝냈으니 알고리즘을 각각 구현해보고 성능이 좋은 알고리즘을 뽑아 학습을 진행해야 한다.

오늘은 프로젝트의 전체적인 흐름과 알고리즘 탐색을 마쳤으니 다음 포스팅은 각각의 알고리즘 코드 구현을 써보려 한다.


(참고 한국보건사회연구원 2018-16 연구보고서 '기계학습 기반 이상탐지 기법 연구' - 오미애, 박아연, 김용대, 진재현)

profile
완료주의

0개의 댓글