데이터마이닝
데이터마이닝 개념
- 데이터마이닝은 대규모 데이터베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정이다.
- 컴퓨터 과학의 패턴인식 기술, 통계 및 수학적 분석방법 등을 사용해서 새로운 관계, 성향, 패턴 등 가치를 발견하는 일련의 과정이다.
- KDD(Knowledge Discovery Database)라고도 한다.
데이터마이닝의 발전
- 60년대 Data Collection
- 80년대 Data Access
- Ad-hoc Query 형태 데이터베이스를 조회한다.
- 90년대 Data Queries
- Data warehouse, OLAP 등을 사용하여 Drill-up, Drill-down 분석을 한다.
- 00년대 Data Mining
- 데이터 간에 의미 있는 정보를 추출하고 분석한다.
데이터마이닝의 활성
- 데이터
- 데이터웨어하우스 구축으로 고품질의 대용량 데이터베이스가 구축되었다.
- 소프트웨어
- User-friendly 데이터마이닝 도구가 출현되었다.
- 하드웨어
- 컴퓨터 성능의 향상으로 Large-scale 데이터마이닝이 가능하게 되었다.
- 비즈니스
- 비즈니스 경쟁심화로 고객관계 관리의 중요성이 부각되고
- 온라인 마켓의 등장으로 비즈니스가 빠르게 변화되었다.
인공지능, 머신러닝, 딥러닝 그리고 데이터마이닝
- 데이터마이닝과 딥러닝의 차이점은 데이터마이닝은 분석결과를 비즈니스에 응용하는 관점이고 딥러닝은 예측값을 중요하게 생각하는 기법이다.
데이터마이닝 기법
지도학습과 자율학습
- 데이터마이닝은 대규모 데이터베이스를 사용해서 기존에 알려지지 않는 패턴이나 규칙을 찾는 것으로 목표변수를 알고 분석하는 지도학습과 목표변수 없이 분석하는 자율학습으로 분류된다.
- 데이터마이닝 기법은 예측, 분류, 군집, 연관규칙이 있다.
- 예측은 과거 데이터를 분석하여 모델을 만들고 새로운 케이스를 예측하는 방법이고
분류는 새로운 데이터가 어느 범주에 속하는지 분류하는 방법
- 군집은 데이터 특성을 유사성으로 군집화하여 새로운 데이터의 군집으로 분석
- 연관규칙은 동시다발성 메트릭스를 사용해서 변수 간에 관련성을 분석하여 마케팅 전략으로 사용
예측과 설명
- 데이터마이닝 기법은 예측과 설명으로 하는 것으로 분류될 수가 있다.
- 예측기법으로는 분류, 시계열분석, 회귀분석 등이 있고 설명기법으로 연관규칙, 군집분석, 비정형 분석이 Text mining 기법이 있다.
- 위 그림 암기하기
예측 및 분류
- 예측지법은 분류와 예측으로 구분된다. 분류느 범주형 결과변수이고 예측은 연속현 결과변수이다.
- 분류는 신경망, 로지스틱 회귀분석, 의사결정 나무 중 분류나무, 앙상블, 나이브베이즈, KNN기법이 있다.
- 예측은 선형 회귀 분석, 신경망, 의사결정 나무 중 회귀 나무, 앙상블, KNN이 있다.
예측 및 분류모듈
- Model-based Learning
- 데이터로 모델을 생성하고 분류 혹은 예측을 수행
- 선형회귀 모델, 비선형회귀 모델, 로지스틱 회귀분석
- 신경망, 의사결정나무, Support Vector Machine
- Instance-based Learning
- 모델을 생성하지 않고 인접 데이터를 분류 및 예측
- KNN(K-nearest neighbor method)
- Locally weighted regression
설명
- 군집분석, 연관규칙, 텍스트마이닝 기법이 있다.
데이터마이닝 기법
- 결과값이 y값을 알고 분석하는 것이 지도학습이고 y값을 모르고 분석하는 것은 자율학습이다.
지도학습
- 결과변수가 주어진 경우에 변수 간의 관계를 분석한다.
종류 |
내용 |
기법 |
예측 |
주어진 데이터를 사용해서 모델을 만들고 결과 값을 예측한다. |
다중 회귀분석 주성분 회귀분석 부분 최소 자승법 신경망 |
분류 |
데이터를 기반으로 분류규칙을 생성하고 분류규칙을 검증한다. |
의사결정 나무 선형 판별분석 로지스틱 회귀분석 서포트 벡터 머신 |
비지도학습(자율학습)
- 결과변수가 없는 경우 분석하는 방법이다.
- 객체 간의 관계를 분석하여 결과변수를 분석한다.
종류 |
내용 |
기법 |
군집 |
주어진 데이터의 속성을 사용해서 군집화하는 분석기법이다. |
계층형 군집분석 K-Means 알고리즘 |
연관규칙 |
연관성 변수들 간의 동시발생 빈도를 분석하여 변수들 간의 관계를 파악한다. |
연관규칙 분석 |
기계학습 측면에서 데이터마이닝 기법
-
강화학습은 기계학습의 한 분야로 에이전트가 현재 상태를 분석하고 선택한 행동에 대해서 보상을 하여 학습하게 하는 방법이다.
-
스스로 의사결정을 할 수 있는 학습방법으로 지도학습과 다르게 목표는 보상이고 예측 값은 수행전략이 된다.
-
보상을 최대로 하여 학습하는 모델이다.
-
강화학습은 게임분야, 구글 알파고에서 사용된다.
-
머신러닝
데이터마이닝 분석절차
데이터마이닝 절차
- 데이터마이닝 프로세스는 지식발견 프로세스(KDD : Knowledge Discovery in Database)로 대용량의 데이터로부터 의미 있는 정보와 지식을 추출하는 과정이다.
- 데이터마이닝 절차는 비즈니스 목적 정의, 데이터 선택, 데이터 정제, 데이터 보완, 데이터 변환, 데이터마이닝, 해석 및 평가이다.
비스니스 목적 정의
- 데이터마이닝 분석을 통해서 얻고자 하는 목표를 명확히 한다.
- 데이터마이닝을 적용할 업무범위를 정의하고 특정분야로 한정하면 성공확률이 높아진다.
- 적용업무에 필요한 데이터를 정의하고 현재 보유하고 있는 데이터 종류를 확인한다.
데이터 선택
- 계정계 시스템 및 정보계 시스템에서 데이터마이닝 분석 목적에 맞는 데이터를 선택
- 데이터 웨어하우스가 존재하면 어느 정도 데이터 품질을 보장할 수 있으며 데이터마이닝 과정의 시간과 노력을 절감할 수 있다.
- 데이터마이닝을 위해서 데이터를 선택하고 선택된 데이터를 관계형 데이터베이스에 저장한다.
데이터 정제
- 수집된 데이터를 평가하고 오류값 및 이상값 등을 보정한다.
- 결측값, 중복 데이터 등을 정제한다.
- 업무규칙을 파악하여 도메인 무결성에 위배되는 데이터를 제거하거나 변환한다.
- ex) 비어있는 데이터 값을 NULL로 대체함으로써 분석과정에서 제외시킨다.
데이터 보완
- 데이터의 정확성을 높이기 위해서 데이터 양과 깊이를 늘린다.
- 충분한 데이터가 수집되어서 분석을 수행한다.
- 데이터 분석을 위해서 필요한 정보를 더 추가한다.(테이블 행 추가)
데이터 변환
- 데이터에 포함되어 있는 불필요한 데이터를 삭제하거나 새로운 파생 데이터를 생성한다.
데이터 변환 예
- 생년월일을 나이로 환산
- TRUE 혹은 FALSE, YES 혹은 NO, M 또는 F를 1과 2로 변환한다.
- 구매일자를 월 단위로 환산
데이터마이닝
- 데이터마이닝을 실행하기 위한 데이터마이닝 도구를 선정한다.
- 데이터마이닝의 목적을 고려하여 올바른 데이터마이닝 기법을 선택한다.
- 데이터마이닝 모형의 정확도와 신뢰성, 모형의 설명력 등이 고려되어야 한다.
데이터마이닝 도구 선정 방법
- 한번에 처리 할 수 있는 데이터양은 어떻게 되는가?
- 얼마나 많은 전처리를 수행해야 하는가?
- 새로운 데이터를 얼마나 빠르고 쉽게 변경할 수 있는가?
- 제공하는 데이터마이닝 기법은 무엇인가?
해석 및 평가
- 데이터마이닝의 마지막 단계로 데이터마이닝 모형을 실제로 적용하여 모형의 적합성을 평가한다.
- 분석결과를 사용자에게 가시화 기법을 사용해서 전달한다.
리포팅 툴을 사용해서 분석결과를 가시화 할 수 있다.
- 비즈니스 인텔리전스, DSS 등과 함께 사용된다.
SEMMA
- Sampling, Exploration, Modification, Modeling, Assessment
- 샘플링, 데이터 탐색/전처리 등의 단계를 수행한다.
- 통계관점으로 개발된 데이터마이닝 방법론
Sampling
- 데이터마이닝에서 사용될 데이터를 선정하고 추출한다.
- 학습용데이터, 검증용 데이터, 평가용 데이터의 표본을 추출한다.
Exploration
- 추출된 데이터를 조사하고 기초 통계량을 산출하여 데이터 셋에 대한 통찰력을 제공한다.
- 데이터에 포함되어 있는 변수의 분포와 변수들 간의 관계를 파악한다.
Modification
- 중복된 데이터를 제거하거나 데이터 정규화, 차원축소 등을 통해서 데이터를 변환하는 과정이다.
- 분석 목적에 맞게 데이터를 변환한다.
Modeling
- 문제를 해결하기 위해 데이터마이닝 분석방법을 결정하고 적용한다.
- 군집분석, 분류분석, 연관규칙 등을 사용한다.
Assessment
- 데이터마이닝 분석 모델을 평가하고 시각화 도구를 사용해서 가시화 한다.
- 데이터마이닝 분석결과를 비즈니스 의사결정에 효율적으로 적용한다.
CRISP-DM 방법론
- Cross-Industry Standard Process for Data Mining
- 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클이다.
- 초보자 및 전문가 모두가 사용할 수 있는 포괄적인 데이터마이닝 프로세스
CRISP-DM 라이프사이클
① 비즈니스 이해
-프로젝트를 이해하고 비즈니스 관점에서 데이터마이닝 수행을 위해서 계획을 수립한다.
② 데이터 이해
-데이터마이닝을 위해서 데이터를 수집하고 데이터 품질을 확인해야한다.
-데이터에서 통찰력을 발견하고 숨겨진 의미를 가정하여 새로운 데이터를 이해한다.
③ 데이터 준비
-데이터를 수집하고 데이터 변환 및 정제를 수행한다.
-데이터의 테이블, 속성 등을 분석하고 기록한다.
④ 모델링
-다양한 데이터마이닝 기법을 사용하여 데이터마이닝을 수행한다.
⑤ 평가
-최종 배포를 진행하기 위해서 데이터 분석 모델을 평가한다.
데이터와 과적합
학습용 데이터
- 학습용 데이터는 모델을 만들기 위해서 사용되는 데이터이다.
검증용 데이터
- 학습용 데이터를 사용해서 모델의 성능을 검증한다.
- 학습용 데이터로 만든 모델을 검증하고 조종한다.
지속적으로 검증하면서 모델을 검증한다.
평가용 데이터
- 예측 및 분류 모델의 성능을 평가할 때 사용한다.
- 모델을 완료하고 모델을 검증할 때 사용한다.
과적합
- 분석모델을 만들기 위해서 학습 데이터를 너무 과하게 학습시키는 것을 의미한다.
- 학습데이터는 실제 데이터의 일부분으로 학습 데이터를 너무 과하게 학습하게 되면, 학습데이터는 정확하게 맞지만 실제 데이터에 대해서 오차가 증가하는 문제를 말한다.
- 학습 데이터를 사용해서 실제 데이터의 오차를 예측하거나 감소시키는 것은 매우 어렵거나 불가능하다.
- 학습데이터에 맞는 모델을 만드는 것이 아니라 실제 사용할 수 있는 모델을 만들어야 한다.
- 학습용 데이터는 높은 성과를 보이지만 평가용 데이터는 성과는 낮기 때문에 예측 모델로 사용할 수 가 없다.