[DM] Intro

Jiyeahhh·2021년 10월 5일
post-thumbnail

📌 배경

  • Large-scale data is everywhere
  • 지금도 실시간으로 데이터가 저장되고 있음
  • 2019년도 초 기준 유튜브는 1분(real-world 시간) 당 500시간 업로드
  • Data collected and stored at enormous speeds
  • 컴퓨터는 점점 더 싸지고, powerful해지고 있음
  • satellite

📌 장점

  • 생산성 향상 (시간 낭비 ↓)
  • 세계적 큰 문제 해결
  • 기후 변화 예측
  • ...
    👉 데이터를 기반으로 의사 결정

📌 What is data mining?

  • Mining : 어떠한 가치가 있거나 필요한 것을 찾는 행위
  • datavalue(값)과 knowledge(지식)을 포함
  • Data mining : 데이터로부터 지식같은 것들을 뽑아보자!
  • 목표

    Valid : 새로운 data에 대해서도 어느정도 동작 가능해야 함
    Useful, Unexpected : 뻔한 거 X, 데이터 표면적으로 잘 드러나지 않은 것을 발견할 수 있어야 함
    Understandable : 사람이 이해할 수 있는 패턴이어야 함


📌 Data mining tasks

  1. Descriptive methods

    • 설명 방법 / 분석
    • 사람이 해석 가능한 패턴 찾기 (human-interpretable patterns)
    • ex) Clustering (군집화)
  2. Predictive methods

    • 예측 방법 / 분석
    • 보지 못했던 또는 미래 예측 (predict unknown or future values)
    • ex) Recommender systems (추천 시스템)

💡 Example

  1. 현재 결제한 카드 transaction이 위조된건지, 합법적인건지 분류
    Classifying credit card transactions as legitimate or fraudulent
  • 분류 문제
  • Goal : 결제한 카드 transaction이 위조 케이스인지 예측
  • Approach
    - credit card transaction이 감지되면 카드 소유자의 정보 attribute 생성
    👉 언제 구매했는지, 무엇을 구매했는지, 카드를 얼마나 사용하는지 등
  • 분류 모델 학습

문제

  • 대다수의 transaction은 정상, 위조된 case 별로 없음

  • 예를 들어, 98%가 normal / 2%가 fraud
    👉 이 상태로 분류 모델을 만들면 거의 대부분 normal로 분류하게 됨



  1. 고객이 다른 통신사로 넘어갈지 예측
    Churn prediction for telephone customers

  1. 문서 군집화
    Document clustering
  • Goal : 문서에 나타나는 중요한 용어를 기준으로 서로 유사한 문서 그룹화

    👉 하나의 주제 (대표 뉴스)를 기준으로 관련 뉴스를 나열



  1. 연관 관계 규칙
    Association rule discovery
  • 다른 항목의 발생을 기반으로 항목의 발생을 예측하는 종속성 규칙을 작성

    👉 Milk를 장바구니에 담으면 Coke 추천
    👉 Mile 옆에 Coke 진열



  1. 이상 탐지
    Anomaly detection
  • 정상 동작에서 유의한 편차 탐지
    • 신용 카드 부정 행위 탐지
    • 네트워크 침입 탐지
  1. 변화 탐지
    Change detection
  • global forest cover의 변화 탐지

📌 Bonferroni's principle

  • 데이터마이닝 리스크
  • 패턴 발견 ⇒의미 없는 패턴을 발견할 수도 있음
  • 데이터가 주어진 것보다 더 많은 pattern을 찾게 되면 그 찾은 pattern들은 의미가 없다.

📌 Data and computation

  • Different types of data
    • Data is high dimensional (고차원)
    • Data is a graph (ex. 트위터 팔로우 → 친구 추천)
    • Data is infinite/never-ending (실시간으로 쌓이는 데이터 → data stream)
    • Data is labeled

  • Different models of computation
    • MapReduce (분산처리, 용량문제)
    • Streams and online algorithms
    • Single machine in-memory (secondary device로 넘어가면 느려짐)

  • Various tools
    • Linear algebra (선형대수)
    • Optimization (최적화)
    • Dynamic programming (동적 할당)
    • Hashing (LSH, Bloom filters)


🤔 공부

  • 수업 외 빅데이터 관련 프로젝트 해보기
    👉 ex) 네이버 모든 뉴스 → 크롤링 → 서버 → 결과 ⇒ 포트폴리오!
  • EDA, Kaggle 찾아보기
  • Los Vegas algorithms / Monte Carlo algorithms 공부
    👉 Randomized Algorithms
profile
람차람차

0개의 댓글