[ML] 데이터마이닝이란?

youngchae·2023년 1월 19일
0

데이터애널리틱스

목록 보기
1/4
post-thumbnail

본 포스팅은 <데이터 애널리틱스>를 참고하여 작성되었습니다.

1. 서론

1-1. 인공지능, 머신러닝, 딥러닝

  • 인공지능(Artificial Intelligence : AI) : 컴퓨터가 인간의 지능적 행동을 모사하여 복잡한 일을 할 수 있도록 하는 연구
    • 인간에 대한 연구와 관련되어있음
      • ex) 경영학, 경제학, 인문학, 정치학, 언어학, 사회학, 심리학, 철학 등
    • 인공지능-현대적 접근에서는 인간처럼 생각하는 관점, 인간처럼 행동하는 관점, 이성적으로 생각하는 관점, 이성적으로 행동하는 관점으로 총 네 가지 관점으로 인공지능을 정의
  • 머신러닝(Machine Learning) : 컴퓨터가 실제 세계의 관찰과 상호작용을 통해 데이터나 정보를 수집해 자신의 지식수준을 향상시킴으로써 인간처럼 학습하고 행동하도록 하는 AI의 연구분야
  • 딥러닝(Deep Learning) : 머신러닝의 한 분야로서 은닉층이 세 개 이상인 신경망 구조

1-2. 데이터 사이언스와 데이터 애널리틱스

  • 데이터 사이언스 (Data Science) : 과학적 방법, 프로세스, 아록리즘, 시스템을 사용해 다양한 형식의 데이터로부터 지식과 통찰력을 추출하는 융합 분야
    • 데이터 애널리틱스
    • 프로그래밍과 데이터베이스
    • 해당 영역의 지식과 정서적 지능
    • 의사소통 능력
  • 데이터 애널리틱스 (Data Analysis) : 데이터로부터 유용한 정보와 지식을 도출해내는 기법과 프로세스
    • data analysis : 데이터를 분석하는 과정 자체
    • data analytics : 데이터로부터 유용한 정보와 지식을 도출하기 위한 모델링 기법들, 그 기법들로 데이터를 분석하는 과정, 그리고 신뢰할 수 있는 방법과 원칙에 입각하여 모델을 구축하는 과정 전반을 일컫는 용어
    • data analysis \indata analytics

1-3. 데이터 마이닝과 데이터 애널리틱스

  • 데이터 마이닝 (Data Mining) : 대량의 데이터로부터 의미 있는 패턴과 규칙을 발견하기 위해 탐색과 분석을 하는 비즈니스 프로세스
    • 다른 분야와 비교해 프로세스가 강조되는 분야

    • 데이터 마이닝 → 1990년 중반부터 발전해온 오래된 연구 분야

    • 데이터 사이언스 → 2000년대 초반에 태동한 용어

2. 데이터 마이닝

2-1. 데이터, 정보, 지식

  • 데이터 (Data) : 독립적으로 존재하는 가공되지 않는 사실
  • 정보 (Information) : 데이터를 그 수신자에게 의미 있는 형식으로 처리한 것, 현재 또는 미래의 행위나 의사결정에 실제적인 혹은 지각된 가치를 가짐
  • 지식 (Knowledge) : 상황에 따라 필요한 결정과 행동을 끌어내는 법칙, 절차 등의 집합체

2-2. 데이터의 속성

2-2-1. 범주형 (Categorical)

  • 속성이 가질 수 있는 값이 유한개로 정해져 있음
  1. 명목형 속성 (Nominal)

    : 속성이 가질 수 있는 값 간에 순서가 없음

    ex) 바닐라 아이스크림, 초코 아이스크림, 딸기 아이스크림

  2. 순서형 속성 (Ordinal)

    : 속성이 가질 수 있는 값 간에 순서가 있음

    • 순서대로 정렬하는 작업은 할 수 있지만 수학적 연산은 수행 불가

    ex) 금메달, 은메달, 동메달

2-2-2. 수치형 속성 (Numerical)

  • 미리 정의된 단위의 수량
  1. 구간 속성 (Interval)

    : 의미 있는 0이 없는 수치형 속성 (-는 할 수 있지만 /는 불가한 속성)

    ex) 서울 기온 30도, 대구 기온 33도 → 대구가 서울보다 3도 더 더움 but 대구가 서울보다 1.1배 덥다고 말할 수 없음 (온도계의 0도는 온도가 존재하지 않는 것이 아니라 물이 어는 온도)

  2. 비율 속성 (Ratio)

    : 의미 있는 0이 있는 수치형 속성 (-,/ 모두 의미 있음)

    ex) 검은 가방 10kg, 흰 가방 5kg → 검은 가방의 무게가 흰 가방보다 5kg 무거움, 검은 가방이 흰 가방보다 2배 무거움

2-2-3. 기타 속성

범주형 속성, 수치형 속성 외에도 다양한 유형의 속성으로 구성될 수 있음

2-3. 데이터 마이닝의 탄생

  • 진정한 의미의 지식의 시대. 나아가서 지능의 시대로 인도하는 기술
  • 데이터분석과 관련된 여러 기법을 통틀어서 이르는 학제적(Multidisciplinary) 융합 분야

2-4. 데이터 마이닝의 정의

: 대량의 데이터로부터 의미 있는 패턴과 규칙을 발견하기 위해 탐석과 분석을 하는 비즈니스 프로세스

2-4-1. 비즈니스 프로세스

: 주어진 입력을 받아서 고객 또는 시장에게 가치 있는 결과를 산출하는, 구조적이고 측정 가능한 활동의 집합

  • 시작과 끝이 존재 → 명백한 투입과 산출이 있음, 목표 지향적

2-4-2. 대량의 데이터

: 컴퓨팅 능력의 향상으로 인해 대량의 데이터가 부담이 아니라 오히려 이득

2-4-3. 의미 있는 패턴과 규칙

  • 패턴과 규칙 = 지식
  • 그냥 데이터를 설명하는 패턴과 규칙 x, 목표에 유용한 패턴과 규칙

2-5. 데이터 마이닝의 유형

2-5-1. 가설 검정 (Hypothesis Testing)

: 데이터를 수집하고 분석해 가설을 설정하고 이 가설의 합당성 여부를 판정하는 과정

  • 통계적 기법을 사용해 가설 검정을 수행하는데, 데이터를 분석한 결과와 가설이 일치하는 경우에는 가설 채택, 그렇지 않은 경우에는 가설 기각

2-5-2. 방향성 데이터 마이닝

  • 하향식(top-down) 접근 방법으로서, 원하는 것이 무엇인지가 명확할 때 수행하는 데이터 마이닝
  • 목표 속성 (Target Attribute)을 정하고 그 속성의 값을 찾기 위해 수행하는 데이터 마이닝

2-5-3. 무방향성 데이터 마이닝

  • 상향식(Bottom-up) 접근 방법으로서, 목표속성을 정하지 않고 데이터 레코드 간 또는 속성 간의 관계를 찾고자 할 때 수행하는 데이터 마이
  • 예측 모델을 구축하고자 하는 것이 아니고 데이터에 대한 이해력과 통찰력을 얻고자함

2-6. 데이터 마이닝의 단계

2-6-1. KDD 2.0

  1. 대상 문제 파악(Problem Identification)

  2. 데이터 선정(Data Selection)

  3. 데이터 전처리(Data Preprocessing)

    • 정제 (Cleaning), 보강 (Enrichment), 정리 (sort-out) 작업 등
    • 동일한 개체가 상이한 개체로 입력된 경우 통일하여 중복 제거 (De-duplication)
    • 도메인에 합치하지 않는 데이터의 속성값을 올바르게 고치는 작업 (Domain Consistency)
    • 보강 (Enrichment) : 분석에 필요한 새로운 속성을 추가해 데이터의 품질을 높이는 작업
    • 정리 (Sort-out) : 분석에 무관한 속성을 제거하고 가치 있는 충분한 정보를 가진 레코드만 선택한 후 나머지 레코드는 버리는 작업
  4. 데이터 변환(Data Transformation)

    • 상세한 속성값을 패턴을 나타낼 수 있는 값으로 변환
  5. 모델 구축(Model Building)

    • 다양한 모델링 기법을 사용해 모델을 구축하고 유용한 지식 도출
    • 데이터에 대한 통계적 분석을 통해 데이터에 대한 전반적인 이해 필요
      • 시각화 (Visualization)
    • 다양한 모델링 기법으로 모델을 구축
      • 연관 분석 (Association Analysis)
      • 의사결정 트리 (Decision Tree)
      • 인공 신경망 (Artificial Neural Network)
  6. 모델 결과 평가(Model Result Evaluation)

    : 모델의 결과를 해석하고 분석 목표에 적합한지 평가

  7. 모델 결과와 시스템의 통합(Consolidation of Result and System)

    데이터 마이닝의 결과는 다양한 형태로 사용 가능

    1. 통찰력 제공
    2. 데이터의 수정
    3. 1회 사용
    4. 결과의 저장
    5. 정기적 예측
    6. 실시간 사용

2-6-2. CRISP-DM

: Eurpoean Industry Consortium에서 제안해 가장 많은 데이터 마이너가 사용하는 방법론

  1. 비즈니스 이해 (Business Understanding)
    1. 비즈니스 목표 결정
    2. 상황 파악
    3. 데이터 마이닝 목표 결정
    4. 프로젝트 계획 수립
  2. 데이터 이해 (Data Understanding)
    1. 데이터 수집
    2. 데이터 기술
    3. 데이터 탐색
    4. 데이터 품질 검사
  3. 데이터 준비 (Data Preparation)
    1. 데이터 선정
    2. 데이터 정제
    3. 데이터 구축
    4. 데이터 통합
    5. 데이터 포맷
  4. 모델링 (Modeling)
    1. 모델링 기법 선정
    2. 테스트 방법 수립
    3. 모델 구축
    4. 모델 평가
  5. 평가 (Evaluation)
    1. 결과 평가
    2. 과정 리뷰
    3. 다음 단계 결정
  6. 전개 (Deployment)
    1. 전개 계획
    2. 전개 계획감시와 유지 계획
    3. 최종 보고서 작성
    4. 프로젝트 리뷰

2-6-3. 두 방법론의 비교

Reference
[1] 데이터 애널리틱스 (이재식, 2020)

profile
we_need_to_talk_about_ds

0개의 댓글