
enormous speedsMining : 어떠한 가치가 있거나 필요한 것을 찾는 행위data는 value(값)과 knowledge(지식)을 포함Data mining : 데이터로부터 지식같은 것들을 뽑아보자!Valid : 새로운 data에 대해서도 어느정도 동작 가능해야 함
Useful, Unexpected : 뻔한 거 X, 데이터 표면적으로 잘 드러나지 않은 것을 발견할 수 있어야 함
Understandable : 사람이 이해할 수 있는 패턴이어야 함
Descriptive methods
Predictive methods
- 현재 결제한 카드 transaction이 위조된건지, 합법적인건지 분류
Classifying credit card transactions as legitimate or fraudulent
분류 문제Goal : 결제한 카드 transaction이 위조 케이스인지 예측Approachattribute 생성❗ 문제
대다수의 transaction은 정상, 위조된 case 별로 없음
예를 들어, 98%가 normal / 2%가 fraud
👉 이 상태로 분류 모델을 만들면 거의 대부분 normal로 분류하게 됨
- 고객이 다른 통신사로 넘어갈지 예측
Churn prediction for telephone customers
Goal : 고객이 경쟁사로 넘어갈지를 예측
비슷한 예) Churn prediction in NCSOFT's Blade & Soul
👉 https://arxiv.org/abs/1802.02301

- 문서 군집화
Document clustering
Goal : 문서에 나타나는 중요한 용어를 기준으로 서로 유사한 문서 그룹화

👉 하나의 주제 (대표 뉴스)를 기준으로 관련 뉴스를 나열
- 연관 관계 규칙
Association rule discovery
다른 항목의 발생을 기반으로 항목의 발생을 예측하는 종속성 규칙을 작성

👉 Milk를 장바구니에 담으면 Coke 추천
👉 Mile 옆에 Coke 진열
- 이상 탐지
Anomaly detection
- 변화 탐지
Change detection
Different types of data
• Data is high dimensional (고차원)
• Data is a graph (ex. 트위터 팔로우 → 친구 추천)
• Data is infinite/never-ending (실시간으로 쌓이는 데이터 → data stream)
• Data is labeled
Different models of computation
• MapReduce (분산처리, 용량문제)
• Streams and online algorithms
• Single machine in-memory (secondary device로 넘어가면 느려짐)
Various tools
• Linear algebra (선형대수)
• Optimization (최적화)
• Dynamic programming (동적 할당)
• Hashing (LSH, Bloom filters)