이상탐지의 적용분야_Use case

Domain

  • Game Abuse Detection

  • Cyber-Intrusion Detection
    컴퓨터 시스템 상에 침입을 탐지하는 사례, 주로 시계열 데이터를 다루며 RAM, file system, log file 등 일련의 시계열 데이터에 대해 이상치를 검출하여 침입을 탐지함.

  • Fraud Detection
    보험, 신용, 금융 관련 데이터에서 불법 행위를 검출하는 사례. 주로 표로 나타낸(tabular) 데이터를 다루며 kaggle Credit Card Fraud Detection과 같은 공개된 challenge도 있다.

  • Malware Detection
    Malware(악성코드)를 검출해내는 사례. Classification과 Clustering이 주로 사용되며 Malware tabular데이터를 그대로 이용하기도 하고 이를 gray scale image로 변환하여 이용하기도 한다.

  • Medical Anomaly Detection
    의료영상, 뇌파 기록 등의 의학 데이터에 대한 이상탐지 사례, 주로 신호 데이터와 이미지 데이터를 다루며 X-ray, CT, MRI등 다양한 장비로부터 취득한 이미지를 다룬다. (난이도 높음)
    ※ 의학적 전문적인 지식 필요

  • Social Networks Anomaly Detction
    Social Network 상의 이상치들을 검출하는 사례. 주로 Text 데이터를 다루며 Text를 통해 스팸메일, 비매너 이용자 허위 정보 유포자 등을 검출.

  • Log Anomaly Detection
    시스템이 기록한 log를 보고 실패 원인을 추적하는 사례. 주로 Text 데이터를 다루며 pattern matching 기반의 단순한 방법을 사용하여 해결할 수 있지만 failure message가 새로운 것이 계속 추가, 제외가 되는 경우에 딥러닝 기반 방법론을 사용하는 것이 효과적이다.

  • IoT Big-Data Anomaly Detection
    사물 인터넷에 주로 사용되는 장치, 센서들로부터 생성된 데이터에 대해 이상치를 탐지. 주로 시계열 데이터를 다루며 여러 장치들이 복합적으로 구성되어 있기 때문에 난이도가 높다.

  • Industrial Anomaly Detection
    산업 속 제조업 데이터에 대한 이상치를 탐지하는 사례. 각종 제조업 도메인 이미지에 데이터에 대한 외관검사, 장비로부터 측정된 시계열 데이터를 기반으로 한 고장 예측 등 다양한 적용 사례.


실제 현업 적용 사례

1. 제조

1-1. 설비 이상탐지

  • 공조 시스템(SAC, Chiller)

  • 검사 장비 측정값 틀어짐 이상 탐지

  • 북미 Smart Factor 자동화 설비 이상 탐지

1. 센서 데이터 수집

  • 데이터 수집 방법(I/F)결정 및 수집
    • 공정별 실시간 센서 데이터 수집 체계 구축
    • 실시간 수집 체계 구축 전 Dump 형태로 데이터 전달 받은 후 분석 진행.

2. 이상 증상 정의

  • 고장 나기 전 이상 증상에 대한 정의
    • 현장의 엔지니어와 미팅을 통해 사전 이상증상을 정의
    • 고장 발생하기 전 센서데이터의 Trend를 분석하여 데이터 기반으로도 이상을 정의할 수 있음.

3. 예측 모델링

  • 이상증상을 예측하기 위한 Classification 모델링
    • Binary Classification Model 생성
    • 다양한 Tree 계열의 알고리즘 사용을 추천!

4. 성능 평가 및 현장 적용

  • 중요인자 관리를 위한 모니터링 시스템 구축
    • 고장이 발생하는 것을 막기 위한 활동으로 Recall 을 중점적으로 평가
    • 현장에 파일럿 테스트 운영 및 세세한 운영사항 정비

1-2. 품질 주요 인자 이상탐지 모니터링

  • 2차 전지 충전 효율 품질 주요 인자 도출 및 탐지

1. 데이터 수집

  • 데이터 수집 방법 결정 및 수집
    • 품질 데이터 적재 DB확인 및 실시간 수집 시스템 구축
    • 실시간 수집 체계 구축 전 Dump 형태로 데이터 전달 받은 후 분석 진행

2. 모델링

  • 머신러닝 알고리즘 활용 예측 모델링
    • 생산품의 무게나 성능 같은 연속형 Target을 예측할 때는 회귀 계열 알고리즘 사용
    • 양품과 불량품을 예측할 때는 분류(Classification) 계열 알고리즘 사용

3. 중요인자 도출

  • Feature IMP 분석 및 중요인자 도출
    • 모델링 완료 후 회귀계수, Feature IMP 활용 중요인자 도출
    • 중요인자 Scatter plot을 활용한 모델 설명력 확보

4. 모니터링 시스템

  • 중요인자 관리를 위한 모니터링 시스템 구축
    • 품질 중요인자 관리를 위한 공정 변수 모니터링 시스템 개발
    • 중요변수가 특정 수치를 넘어갈 시 경고를 전송하여 점검할 수 있도록 운영 체계 구축

2. 금융

2-1. 사용자 패턴 분석을 통한 금융 사기 탐지

1. 문제정의

  • 분실 핸드폰 및 신분증 도난, 타인의 명의로 대출을 받는 금융 사기 발생 증가.
  • 비대면으로 금융 서비스 이용 편리함이 증가했지만, 그만큼 사기에도 취약해졌다.

2. 기대효과

  • 비대면 거래 상에서 소비자 금융 피해를 사전에 방어

3. 이상 데이터 정의

  • 스마트폰 누르는 시간 및 압력, 손가락을 움직이는 속도 등 기존 사용자와 다른 사용자 데이터를 사용.
  • 사용자의 고유한 사용 습관이기 때문에 이를통해 이상증상을 탐지함.

4. 구체적 해결 방법

  • 개인 입력 습관 데이터를 통해 사용자의 연령대를 분류하는 모델 개발
  • 최소한의 습관 데이터 비밀번호 3~4회를 누르는 정도로 데이터를 수집
  • 누르는 압력, 속도, 리듬, 패턴 등의 개인을 습관화 할 수 있는 다양한 측면의 데이터를 수집
  • 입력 습관을 토대로, 사용자의 연령대를 분류, 신분증의 표기된 연령대와 다르다면 추가 인증을 수행한다.

5. 성과

  • 10명중 약 9명 정도 사기를 감지함.

2-2. FDS, 은행 카드사 사기거래 탐지

1. 문제 정의

  • 다양한 사기 방법으로 발생하는 금융사기
  • 소비자 피해

2. 기대효과

  • 사고 빈발 사례에 대해서는 선제적으로 거래를 차단함.

3. 이상 데이터 정의

  • 평소 거래 패턴과 다른 패턴의 금융 거래

4. 구체적 해결 방법

  • 카드 거래 발생시 FDS 시스템을 통해 부정거래를 평가하고, 부정거래일시 본인 사용 여부 확인 및 카드사용을 정지
  • FDS는 '스코어링(Scoring)방식' & '룰(Rule) 방식'으로 나뉜다.
    • Scoring : 카드결제시 부정사용과 관련된 각종 지표를 바탕으로 부정사용 협의 정도를 점수화하여 특정 점수과 초과 될 시 부정사용을 탐지.
    • Rule : 부정사용이 빈번하게 발생하는 혐의 거래에 대한 조건을 사전에 추출한 뒤 카드 결제 전수를 수시 모니터링하여 룰에 의해 탐지된 사례는 사전에 거래를 차단.
  • 스코어링 방식은 시스템 개발 및 변경에 장시간 소요되기 때문에 주로 정형화 된 부정사용 적발시 효과적이다.
  • 룰 방식은 단기간 내 규칙을 생성하기 간편하기 때문에, 복잡하고 특수한 조건, 최신 범죄 기법에 있어 신속하게 대응이 가능하다.

3. 게임

3-1. 게임 머니(Game Money) 이상탐지

1. 문제 정의

  • 게임 내 인플레이션 현상 발생, 화폐 가치 하락/신규 유저와 기존 유저간 빈부격차가 발생하게 된다.
  • 게임 내 버그나 어뷰징으로 인해 게임 재화가 급격하게 증가하는 경우, 게임 서비스에 치명적인 영향을 미친다.
  • 게임 내 재화 복사 버그가 뒤늦게 발견되어, 서버 롤백까지 진행될 수 있음.
  • 초기에 재화 이상 탐지를 하는 것이 매우 주요한 게임 Domain

2. 기대 효과

  • 유저들이 지속적으로 게임을 즐기게 되고, 기업 입장에서는 새로운 게임 유저의 도입서비스에 집중할 수 있게 된다.

3. 이상 데이터 정의

  • 시간대 고려, 새벽 시간대는 유저들의 활동이 적으므로, 주요 시간대의 재화 증감량과 비슷할 수 있다.(시간변수를 고려해야한다.)

4. 구체적 해결 방법

  • 1차 이상 탐지
    • 정상 데이터를 활용하여 회귀방식을 통한 재화 예측 Y(재화 증가량), X(주기, 이벤트 같은 변수 값)
    • STL 분해를 활용하여 Trend 데이터를 뽑아내고, 이를 X데이터에 추가해서 반영.
    • 신뢰수준을 설정하고, 예측값에 상한과 하한을 결정한다.
    • Threshold를 주어 상한과 하한을 일정 횟수 넘어가는 경우의 알람 확인할 수 있도록 설정한다.
  • 2차 이상탐지
    • 재화의 증가가 서서히 증가하는 경우 1차 이상탐지로 탐지하기 어렵다.
    • 소수의 어뷰저가 지속적으로 버그를 악용하는 경우
    • 2차 이상탐지는 잘못된 재화의 증감량이 너무 작아 1차에서 발견되지 않은 값을 대상으로 한다.
    • 예측 값과 실제 값의 차이인 잔차를 이용한다.
    • 정상 상태라면, 잔차는 0을 평균으로 하는 정규 분포 형태로 나타난다.
    • 이상 현상 발생 시에는 잔차가 한 쪽으로 쏠린 분포가 형성된다.

5. 성과

  • 모델 적용 결과, 이상 이벤트 이외에 사람들이 과금하는 포인트 및 주기성에서도 패턴이 발생된다. → 유저들이 평소에 게임내에서 소비하는 재화의 패턴 분석
profile
please bbbbbbbbb 😂

0개의 댓글