5장 정형 데이터 마이닝
5.1 데이터 마이닝의 개요
데이터 마이닝
- 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 활용
데이터 마이닝의 특징
- 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
- 2000년대 CRM의 중요한 요소로 부각
지도학습 / 비지도학습
분할
- train 50% / valid 30% / test 20%
- 충분하지 않은 데이터의 경우 홀드아웃(train/test 로 랜덤하게 분리) / k-fold 교차분석 사용
오분류 추정치
precision
- TP / TP+FP ( 정답으로 예측한 것이 맞았을 확률 / 유죄 판단 중요 )
recall
- TP / TP+FN ( 실제 정답중에 맞춘 정답 / 암 진단 중요 )
accuracy
- TP+TN / 전체 데이터
ROC curve
- 가로축을 FPR( 1 - 특이도 ) / 세로축을 TPR ( 민감도 ) 로 시각화
- ROC curve의 아래 면적인 AUROC가 1에 가까울수록 좋은 모형
- TPR - 1인 케이스를 1로 예측한 비율 ( recall)
- FPR - 0인 케이스를 1로 예측한 비율 ( 1- 특이도)
- AUROC > 80 이면 good / AUROC > 75 면 moderate
Lift chart(이익도표)
- 분류모형의 성능 평가
- 반응검출율 / 반응률 / 리프트 로 구성
% captured Response
- 실제 구매자 / 총 구매자
% response
- 실제 구매자 / 200명( 단위 )
lift
- 반응률 / 기본 향상도
- 좋은 모델이면 lift가 빠른 속도로 감소
5.2 분류분석
분류분석
- 데이터가 어떤 그룹에 속하는지 예측
- 클러스터링과 달리 각 그룹이 정의되어 있음
분류 / 예측
- 분류 : 내신등급 맞추기 , 신용등급 맞추기 ( 범주형 )
- 예측 : 수능성적 맞추기 , 매출액 맞추기 ( 연속형 )
분류 기법
- 로지스틱 회귀
- 의사결정나무
- 나이브 베이즈 분류
- 인공신경망
- 서포트 벡터 머신
- k 최근접 이웃
- 규칙기반 분류 / 사례기반 추론
오즈비
- exp() 의 의미는 x가 한 단위 증가할때 오즈비가 얼마 증가하는지 나타냄
선형 회귀 / 로지스틱 회귀
-
선형회귀
종속변수 : 연속형
계수추정 : 최소제곱법
모형검정 : F-검정 , t-검정
-
로지스틱 회귀 - glm()
종속변수 : ( 0 , 1 )
계수추정 : 최대우도추정법
모형검정 : 카이제곱 검정
의사결정나무(decision tree)
- 시각화 강점
- 분류나무 / 회귀나무 존재
- 예측력 : 고객의 유치방안을 예측하기 위해서는 예측력 중시
- 해석력 : 신용평가 거절을 설명해야 하므로 해석력 중시
의사결정나무의 활용
- 세분화 - 비슷한 속성을 갖는 그룹으로 분할해 특성 발견
- 분류
- 예측
- 차원축소 및 변수선택 - 목표변수에 큰 영향을 미치는 변수들을 골라낼 때
- 교호작용효과 파악 - 예측변수를 결합해 목표변수에 작용하는 규칙을 파악
의사결정나무의 특징
- 설명이 쉽다
- 복잡하지 않다
- 대용량 데이터도 빠르게 처리 가능
- 상관성이 높은 불필요한 변수가 있어도 크게 영향 받지 않음
- 수치형 / 범주형 모두 사용 가능
- 정확도가 높음
분석 과정
성장
-> 가지치기
-> 타당성 평가
-> 해석 및 예측
분리 기준
- 카이제곱 통계량 p 값
- 지니 지수
- 엔트로피 지수
의사결정나무 알고리즘
CART
- 목적 변수가 범주형일 경우 지니지수 , 연속형일 경우 분산을 이용한 이진분리 사용
C4.5
, C5.0
- 각 마디에서 다지분리 가능
CHAID
- 적당한 크기에서 성장을 중지 , 입력변수 범주형 , 카이제곱 통계량 사용
party 패키지
- 의사결정나무의 사용을 위한 패키지
- 분실값을 잘 처리하지 못하는 단점
5.3 앙상블 분석
앙상블
배깅
- 같은 크기를 갖는 표본을 복원추출(Bootstrap)하여 각각 학습하는 방법
ex = {1,2,3,4,4,5,7,8,10}
set1 = {1,2,3,4,4}
set2 = {4,5,7,8,10}
set3 = {1,1,3,3,3}
각각 모델 학습 후 결과 조합
부스팅
- 가중치를 설정하여 최종 분류기를 만드는 방법
- Adaboost / GBM / XGBoost / lightGBM 등
랜덤 포레스트
- 의사결정나무는 분산이 큼
- 약한 학습기들을 결합하여 최종 학습기를 만듬
- 최종 결과에 대한 해석이 어렵지만 예측력이 매우 높음
5.4 인공신경망 분석
활성화 함수(activation function)
- 시그모이드 - 1/(1+e-^x)
- 소프트맥스 - exp()함수를 통해 총합이 1인 확률로 값을 변환
- 렐루
신경망 모형 구축시 고려사항
-
입력변수
범주형 변수 : 모든 범주에서 일정 빈도 이상 값을 갖고 범주 빈도가 일정
연속형 변수 : 입력변수 값들의 범위가 변수간의 큰 차이가 없을 때
-
연속형 변수는 고객의 소득과 같은 데이터는 로그변환 , 혹은 범주화를 진행하면 좋음
-
가중치 초기값 / 다중 최소값
초기값 선택은 매우 중요
-
학습모드
온라인 학습 모드 - 각 관측값을 순차적으로 신경망에 투입
확률적 학습 모드 - 관측값의 순서 랜덤
배치 학습 모드 - 전체 훈련자료를 동시에 투입
5.5 군집분석
군집분석
- 각 객체의 유사성을 측정하여 유사성이 높은 집단 분류
- 데이터들 사이의 거리를 기준으로 군집화
연속형 변수의 거리
- 유클리디안
- 표준화
- 마할라노비스
- 체비셰프
- 맨하탄
- 캔버라
- 민코우스키
범주형 변수의 거리
- 자카드 거리
- 자카드 계수
- 코사인 거리
- 코사인 유사도
계층적 군집분석
비계층적 군집분석
- K-평균 군집분석 ( K-means clustering )
n개의 개체를 k개의 클러스터로 묶는 알고리즘
각 클러스터와 거리 차이의 분산을 최소화
K-means 특징
- 초기 중심값의 선정이 중요 ( 결과가 달라질 수 있음 )
- 연속형 변수에 활용 가능
- 안정된 군집이지만 최적을 보장하지는 않음
혼합 분포 군집
- 모형 기반( Model - based ) 군집 방법
- 데이터가 모집단 모형으로부터 나왔다는 가정
- k개의 모형은 군집을 의미
- 모수와 가중치의 추정은 EM 알고리즘 사용
EM 알고리즘
- 편향된 동전을 던져 편향률을 알고 싶을 때, 심지어 어떤 동전인지 몰라도 추측할 수 있는 알고리즘
- A 동전 -> 8H2T -> 0.8 / B 동전 -> 5H5T -> 0.5 라고 예측할 수 있지만
어떤 동전을 던졌는지도 모르는 채로 구할 수 있음
SOM - 자기조직화지도 - 코호넨 맵
입력층 - 입력 변수의 개수와 동일한 뉴런 존재
경쟁층 - 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 지도 형태로 형상화 하므로 시각적인 이해가 쉬움
5.6 연관분석
연관규칙
- 연관분석은 장바구니 분석
- 아메리카노를 사면 케잌을 산다.
연관규칙 측도
- 지지도
전체 거래중 A와 B를 동시에 포함하는 거래의 비율
- 신뢰도
A를 포함한 거래 중 A와 B를 동시에 포함한 거래의 비율
- Lift
p(a n b) / p(a) * p(b)
연관규칙 절차
군집모형 평가지표
- 실루엣 - 한 클러스터 안에서 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가
-1과 1사이의 값을 지님
- 던 지수 - 군집 간 거리의 최솟값을 분자 / 군집 내 요소간 거리의 최댓값을 분모
클 수록 군집이 좋다