이상치(Outlier) vs 이상(abnormal)

  1. 이상치(outlier)
  • 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나, 큰값.
  • 분석하고자 하는 데이터에서 적은 확률로 나타나는 데이터
  • 분석 결과 해석 시 오해를 발생시킬 수 있기 때문에 사전에 제거
  1. 이상(abnormal)
  • 문제해결의 관점
  • 문제발생 가능성이 높은 데이터(현업의 Domain관점에서 바라보아야 한다.)
  • 정상적인 범주에 데이터라도 이상으로 정의할 수 있다.
  • 일반적으로 자주 발생하지 않는 패턴이 이상일 확률이 높다.
  • 이상치란 데이터 관점, 이상(abnormal)이란 현업의 문제해결 관점이다.
  • 이상 탐지(Anomaly Detection)는 이상이라고 정의한 사건 및 패턴을 탐지하는 활동이다.
  • 기업에서 이상탐지를 하는 목적
    1. [제조] 심각한 고장 발생 전 이상 탐지를 통해 심각한 Risk를 방지.
    2. [금융] 비정상적 거래 및 사기 거래 방지를 통해 소비자를 보호하기 위함.
    3. [게임] 버그 유저 및 비정상 유저 탐지를 통해 게임을 정상적으로 운영하기 위함.

즉, 더 큰 Risk가 발생하기 전 피해를 최소하 하기 위함이다.

이상탐지의 종류

  • Data Types
  1. Time series(Sequential) vs static(Point, 정적인)

  2. Univariate(단변량) vs Multivariate(다변량)

  3. data type (binary / categorical / continuos / hybrid)

  4. relational(상관관계가 있는) vs independent

  5. well-known or not(기존 룰의 적용 가능한/알려져 있지 않은)

데이터 유형에 따른 이상 탐지의 종류

  1. Point Anomaly Detection
  • 축적된 시간 동안 정적인 점 분포에 초점
  • 특정 point의 이상치를 탐지
  • 일반적으로 말하는 데이터 내 outlier
  1. Contextual Anomaly Detection
  • 시계열과 같은 동적인 특성에 초점(*과거에 데이터가 현재의 값에 영향을 미칠 때, sequential)
  • 연속적인 변화 패턴을 읽어 이상치 감지, 맥락을 고려해서 예상 변화와 동떨어진 결과를 탐지
  • 민감하면 정상상황에서도 이상탐지가 되고, 둔감하게 만들면 비정상 상황에서 이상탐지를 놓칠 수 있다.
  1. Collective Anomaly Detection
  • Contextual Anomaly 와 다르게 Global 상황에서 변칙적인 이상치가 아닌, Local한 이상치
  • 개별 인스턴트가 아닌 집합 인스턴트 비교를 통해 이상을 확인
  1. Online Anomaly Detection
  • 실시간 데이터 수집 체계가 구축되어 있는 환경에서 탐지
  • 실시간 데이터를 어떻게 빠르게 처리하고 이상을 탐지할지 설계하는 것이 매우 중요하다.
  • 무거운 알고리즘을 사용하기 힘들다
  1. Distributed Anomaly Detection
  • 관측치의 정상 분포에서 벗어나는 이상 데이터를 탐지
profile
please bbbbbbbbb 😂

0개의 댓글