ADsP - 데이터마이닝 개요

이강민·2022년 10월 13일
0

ADsP

목록 보기
15/19
post-thumbnail

데이터마이닝

데이터마이닝 개념

  • 데이터마이닝은 대규모 데이터베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정이다.
  • 컴퓨터 과학의 패턴인식 기술, 통계 및 수학적 분석방법 등을 사용해서 새로운 관계, 성향, 패턴 등 가치를 발견하는 일련의 과정이다.
  • KDD(Knowledge Discovery Database)라고도 한다.

데이터마이닝의 발전

  • 60년대 Data Collection
    • 정보를 요약하고 보고서를 작성한다.
  • 80년대 Data Access
    • Ad-hoc Query 형태 데이터베이스를 조회한다.
  • 90년대 Data Queries
    • Data warehouse, OLAP 등을 사용하여 Drill-up, Drill-down 분석을 한다.
  • 00년대 Data Mining
    • 데이터 간에 의미 있는 정보를 추출하고 분석한다.

데이터마이닝의 활성

  • 데이터
    • 데이터웨어하우스 구축으로 고품질의 대용량 데이터베이스가 구축되었다.
  • 소프트웨어
    • User-friendly 데이터마이닝 도구가 출현되었다.
  • 하드웨어
    • 컴퓨터 성능의 향상으로 Large-scale 데이터마이닝이 가능하게 되었다.
  • 비즈니스
    • 비즈니스 경쟁심화로 고객관계 관리의 중요성이 부각되고
    • 온라인 마켓의 등장으로 비즈니스가 빠르게 변화되었다.

인공지능, 머신러닝, 딥러닝 그리고 데이터마이닝

  • 데이터마이닝과 딥러닝의 차이점은 데이터마이닝은 분석결과를 비즈니스에 응용하는 관점이고 딥러닝은 예측값을 중요하게 생각하는 기법이다.

데이터마이닝 기법

지도학습과 자율학습

  • 데이터마이닝은 대규모 데이터베이스를 사용해서 기존에 알려지지 않는 패턴이나 규칙을 찾는 것으로 목표변수를 알고 분석하는 지도학습과 목표변수 없이 분석하는 자율학습으로 분류된다.
  • 데이터마이닝 기법은 예측, 분류, 군집, 연관규칙이 있다.
  • 예측은 과거 데이터를 분석하여 모델을 만들고 새로운 케이스를 예측하는 방법이고
    분류는 새로운 데이터가 어느 범주에 속하는지 분류하는 방법
  • 군집은 데이터 특성을 유사성으로 군집화하여 새로운 데이터의 군집으로 분석
  • 연관규칙은 동시다발성 메트릭스를 사용해서 변수 간에 관련성을 분석하여 마케팅 전략으로 사용

예측과 설명

  • 데이터마이닝 기법은 예측과 설명으로 하는 것으로 분류될 수가 있다.
  • 예측기법으로는 분류, 시계열분석, 회귀분석 등이 있고 설명기법으로 연관규칙, 군집분석, 비정형 분석이 Text mining 기법이 있다.
  • 위 그림 암기하기

예측 및 분류

  • 예측지법은 분류와 예측으로 구분된다. 분류느 범주형 결과변수이고 예측은 연속현 결과변수이다.
  • 분류는 신경망, 로지스틱 회귀분석, 의사결정 나무 중 분류나무, 앙상블, 나이브베이즈, KNN기법이 있다.
  • 예측은 선형 회귀 분석, 신경망, 의사결정 나무 중 회귀 나무, 앙상블, KNN이 있다.

예측 및 분류모듈

  • Model-based Learning
    • 데이터로 모델을 생성하고 분류 혹은 예측을 수행
    • 선형회귀 모델, 비선형회귀 모델, 로지스틱 회귀분석
    • 신경망, 의사결정나무, Support Vector Machine
  • Instance-based Learning
    • 모델을 생성하지 않고 인접 데이터를 분류 및 예측
    • KNN(K-nearest neighbor method)
    • Locally weighted regression

설명

  • 군집분석, 연관규칙, 텍스트마이닝 기법이 있다.

데이터마이닝 기법

  • 결과값이 y값을 알고 분석하는 것이 지도학습이고 y값을 모르고 분석하는 것은 자율학습이다.

지도학습

  • 결과변수가 주어진 경우에 변수 간의 관계를 분석한다.
    종류 내용 기법
    예측 주어진 데이터를 사용해서 모델을 만들고 결과 값을 예측한다. 다중 회귀분석
    주성분 회귀분석
    부분 최소 자승법
    신경망
    분류 데이터를 기반으로 분류규칙을 생성하고 분류규칙을 검증한다. 의사결정 나무
    선형 판별분석
    로지스틱 회귀분석
    서포트 벡터 머신

비지도학습(자율학습)

  • 결과변수가 없는 경우 분석하는 방법이다.
  • 객체 간의 관계를 분석하여 결과변수를 분석한다.
    종류 내용 기법
    군집 주어진 데이터의 속성을 사용해서 군집화하는 분석기법이다. 계층형 군집분석
    K-Means 알고리즘
    연관규칙 연관성 변수들 간의 동시발생 빈도를 분석하여 변수들 간의 관계를 파악한다. 연관규칙 분석

기계학습 측면에서 데이터마이닝 기법

  • 강화학습은 기계학습의 한 분야로 에이전트가 현재 상태를 분석하고 선택한 행동에 대해서 보상을 하여 학습하게 하는 방법이다.

  • 스스로 의사결정을 할 수 있는 학습방법으로 지도학습과 다르게 목표는 보상이고 예측 값은 수행전략이 된다.

  • 보상을 최대로 하여 학습하는 모델이다.

  • 강화학습은 게임분야, 구글 알파고에서 사용된다.

  • 머신러닝

    • 강화학습, 지도학습, 자율학습

데이터마이닝 분석절차

데이터마이닝 절차

  • 데이터마이닝 프로세스는 지식발견 프로세스(KDD : Knowledge Discovery in Database)로 대용량의 데이터로부터 의미 있는 정보와 지식을 추출하는 과정이다.
  • 데이터마이닝 절차는 비즈니스 목적 정의, 데이터 선택, 데이터 정제, 데이터 보완, 데이터 변환, 데이터마이닝, 해석 및 평가이다.

비스니스 목적 정의

  • 데이터마이닝 분석을 통해서 얻고자 하는 목표를 명확히 한다.
  • 데이터마이닝을 적용할 업무범위를 정의하고 특정분야로 한정하면 성공확률이 높아진다.
  • 적용업무에 필요한 데이터를 정의하고 현재 보유하고 있는 데이터 종류를 확인한다.

데이터 선택

  • 계정계 시스템 및 정보계 시스템에서 데이터마이닝 분석 목적에 맞는 데이터를 선택
  • 데이터 웨어하우스가 존재하면 어느 정도 데이터 품질을 보장할 수 있으며 데이터마이닝 과정의 시간과 노력을 절감할 수 있다.
  • 데이터마이닝을 위해서 데이터를 선택하고 선택된 데이터를 관계형 데이터베이스에 저장한다.

데이터 정제

  • 수집된 데이터를 평가하고 오류값 및 이상값 등을 보정한다.
  • 결측값, 중복 데이터 등을 정제한다.
  • 업무규칙을 파악하여 도메인 무결성에 위배되는 데이터를 제거하거나 변환한다.
  • ex) 비어있는 데이터 값을 NULL로 대체함으로써 분석과정에서 제외시킨다.

데이터 보완

  • 데이터의 정확성을 높이기 위해서 데이터 양과 깊이를 늘린다.
  • 충분한 데이터가 수집되어서 분석을 수행한다.
  • 데이터 분석을 위해서 필요한 정보를 더 추가한다.(테이블 행 추가)

데이터 변환

  • 데이터에 포함되어 있는 불필요한 데이터를 삭제하거나 새로운 파생 데이터를 생성한다.

데이터 변환 예

  • 생년월일을 나이로 환산
  • TRUE 혹은 FALSE, YES 혹은 NO, M 또는 F를 1과 2로 변환한다.
  • 구매일자를 월 단위로 환산

데이터마이닝

  • 데이터마이닝을 실행하기 위한 데이터마이닝 도구를 선정한다.
  • 데이터마이닝의 목적을 고려하여 올바른 데이터마이닝 기법을 선택한다.
  • 데이터마이닝 모형의 정확도와 신뢰성, 모형의 설명력 등이 고려되어야 한다.

데이터마이닝 도구 선정 방법

  • 한번에 처리 할 수 있는 데이터양은 어떻게 되는가?
  • 얼마나 많은 전처리를 수행해야 하는가?
  • 새로운 데이터를 얼마나 빠르고 쉽게 변경할 수 있는가?
  • 제공하는 데이터마이닝 기법은 무엇인가?

해석 및 평가

  • 데이터마이닝의 마지막 단계로 데이터마이닝 모형을 실제로 적용하여 모형의 적합성을 평가한다.
  • 분석결과를 사용자에게 가시화 기법을 사용해서 전달한다.
    리포팅 툴을 사용해서 분석결과를 가시화 할 수 있다.
  • 비즈니스 인텔리전스, DSS 등과 함께 사용된다.

SEMMA

  • Sampling, Exploration, Modification, Modeling, Assessment
  • 샘플링, 데이터 탐색/전처리 등의 단계를 수행한다.
  • 통계관점으로 개발된 데이터마이닝 방법론

Sampling

  • 데이터마이닝에서 사용될 데이터를 선정하고 추출한다.
  • 학습용데이터, 검증용 데이터, 평가용 데이터의 표본을 추출한다.

Exploration

  • 추출된 데이터를 조사하고 기초 통계량을 산출하여 데이터 셋에 대한 통찰력을 제공한다.
  • 데이터에 포함되어 있는 변수의 분포와 변수들 간의 관계를 파악한다.

Modification

  • 중복된 데이터를 제거하거나 데이터 정규화, 차원축소 등을 통해서 데이터를 변환하는 과정이다.
  • 분석 목적에 맞게 데이터를 변환한다.

Modeling

  • 문제를 해결하기 위해 데이터마이닝 분석방법을 결정하고 적용한다.
  • 군집분석, 분류분석, 연관규칙 등을 사용한다.

Assessment

  • 데이터마이닝 분석 모델을 평가하고 시각화 도구를 사용해서 가시화 한다.
  • 데이터마이닝 분석결과를 비즈니스 의사결정에 효율적으로 적용한다.

CRISP-DM 방법론

  • Cross-Industry Standard Process for Data Mining
  • 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클이다.
  • 초보자 및 전문가 모두가 사용할 수 있는 포괄적인 데이터마이닝 프로세스

CRISP-DM 라이프사이클

① 비즈니스 이해
-프로젝트를 이해하고 비즈니스 관점에서 데이터마이닝 수행을 위해서 계획을 수립한다.
② 데이터 이해
-데이터마이닝을 위해서 데이터를 수집하고 데이터 품질을 확인해야한다.
-데이터에서 통찰력을 발견하고 숨겨진 의미를 가정하여 새로운 데이터를 이해한다.
③ 데이터 준비
-데이터를 수집하고 데이터 변환 및 정제를 수행한다.
-데이터의 테이블, 속성 등을 분석하고 기록한다.
④ 모델링
-다양한 데이터마이닝 기법을 사용하여 데이터마이닝을 수행한다.
⑤ 평가
-최종 배포를 진행하기 위해서 데이터 분석 모델을 평가한다.

데이터와 과적합

학습용 데이터

  • 학습용 데이터는 모델을 만들기 위해서 사용되는 데이터이다.

검증용 데이터

  • 학습용 데이터를 사용해서 모델의 성능을 검증한다.
  • 학습용 데이터로 만든 모델을 검증하고 조종한다.
    지속적으로 검증하면서 모델을 검증한다.

평가용 데이터

  • 예측 및 분류 모델의 성능을 평가할 때 사용한다.
  • 모델을 완료하고 모델을 검증할 때 사용한다.

과적합

  • 분석모델을 만들기 위해서 학습 데이터를 너무 과하게 학습시키는 것을 의미한다.
  • 학습데이터는 실제 데이터의 일부분으로 학습 데이터를 너무 과하게 학습하게 되면, 학습데이터는 정확하게 맞지만 실제 데이터에 대해서 오차가 증가하는 문제를 말한다.
  • 학습 데이터를 사용해서 실제 데이터의 오차를 예측하거나 감소시키는 것은 매우 어렵거나 불가능하다.
  • 학습데이터에 맞는 모델을 만드는 것이 아니라 실제 사용할 수 있는 모델을 만들어야 한다.
  • 학습용 데이터는 높은 성과를 보이지만 평가용 데이터는 성과는 낮기 때문에 예측 모델로 사용할 수 가 없다.
profile
NullpointException

0개의 댓글