[ADsP 정리] 6. 데이터 분석 - 3

김성욱·2023년 5월 18일

ADsP 데이터 분석 데이터 자격증

ADsP

목록 보기

6/6

5장 정형 데이터 마이닝

5.1 데이터 마이닝의 개요

데이터 마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 활용

데이터 마이닝의 특징

알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
2000년대 CRM의 중요한 요소로 부각

지도학습 / 비지도학습

지도학습
의사결정나무
인공신경망
일반화 선형 모형
선형/로지스틱 회귀분석
사례기반 추론
최근접 이웃 ( k-nearest neighbor )
비지도학습
OLAP
연관성규칙
군집분석
SOM

분할

train 50% / valid 30% / test 20%
충분하지 않은 데이터의 경우 홀드아웃(train/test 로 랜덤하게 분리) / k-fold 교차분석 사용

오분류 추정치

precision - TP / TP+FP ( 정답으로 예측한 것이 맞았을 확률 / 유죄 판단 중요 )
recall - TP / TP+FN ( 실제 정답중에 맞춘 정답 / 암 진단 중요 )
accuracy - TP+TN / 전체 데이터

ROC curve

가로축을 FPR( 1 - 특이도 ) / 세로축을 TPR ( 민감도 ) 로 시각화
ROC curve의 아래 면적인 AUROC가 1에 가까울수록 좋은 모형
TPR - 1인 케이스를 1로 예측한 비율 ( recall)
FPR - 0인 케이스를 1로 예측한 비율 ( 1- 특이도)
AUROC > 80 이면 good / AUROC > 75 면 moderate

Lift chart(이익도표)

분류모형의 성능 평가
반응검출율 / 반응률 / 리프트 로 구성
% captured Response - 실제 구매자 / 총 구매자
% response - 실제 구매자 / 200명( 단위 )
lift - 반응률 / 기본 향상도
좋은 모델이면 lift가 빠른 속도로 감소

5.2 분류분석

분류분석

데이터가 어떤 그룹에 속하는지 예측
클러스터링과 달리 각 그룹이 정의되어 있음

분류 / 예측

분류 : 내신등급 맞추기 , 신용등급 맞추기 ( 범주형 )
예측 : 수능성적 맞추기 , 매출액 맞추기 ( 연속형 )

분류 기법

로지스틱 회귀
의사결정나무
나이브 베이즈 분류
인공신경망
서포트 벡터 머신
k 최근접 이웃
규칙기반 분류 / 사례기반 추론

오즈비

exp() 의 의미는 x가 한 단위 증가할때 오즈비가 얼마 증가하는지 나타냄

선형 회귀 / 로지스틱 회귀

선형회귀
종속변수 : 연속형
계수추정 : 최소제곱법
모형검정 : F-검정 , t-검정
로지스틱 회귀 - glm()
종속변수 : ( 0 , 1 )
계수추정 : 최대우도추정법
모형검정 : 카이제곱 검정

의사결정나무(decision tree)

시각화 강점
분류나무 / 회귀나무 존재
예측력 : 고객의 유치방안을 예측하기 위해서는 예측력 중시
해석력 : 신용평가 거절을 설명해야 하므로 해석력 중시

의사결정나무의 활용

세분화 - 비슷한 속성을 갖는 그룹으로 분할해 특성 발견
분류
예측
차원축소 및 변수선택 - 목표변수에 큰 영향을 미치는 변수들을 골라낼 때
교호작용효과 파악 - 예측변수를 결합해 목표변수에 작용하는 규칙을 파악

의사결정나무의 특징

설명이 쉽다
복잡하지 않다
대용량 데이터도 빠르게 처리 가능
상관성이 높은 불필요한 변수가 있어도 크게 영향 받지 않음
수치형 / 범주형 모두 사용 가능
정확도가 높음

분석 과정

성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측

분리 기준

카이제곱 통계량 p 값
지니 지수
엔트로피 지수

의사결정나무 알고리즘

CART - 목적 변수가 범주형일 경우 지니지수 , 연속형일 경우 분산을 이용한 이진분리 사용
C4.5 , C5.0 - 각 마디에서 다지분리 가능
CHAID - 적당한 크기에서 성장을 중지 , 입력변수 범주형 , 카이제곱 통계량 사용

party 패키지

의사결정나무의 사용을 위한 패키지
분실값을 잘 처리하지 못하는 단점

5.3 앙상블 분석

앙상블

다중 모델을 조합하여 결과를 내는 방법

배깅

같은 크기를 갖는 표본을 복원추출(Bootstrap)하여 각각 학습하는 방법

ex = {1,2,3,4,4,5,7,8,10}

set1 = {1,2,3,4,4}
set2 = {4,5,7,8,10}
set3 = {1,1,3,3,3}

각각 모델 학습 후 결과 조합

부스팅

가중치를 설정하여 최종 분류기를 만드는 방법
Adaboost / GBM / XGBoost / lightGBM 등

랜덤 포레스트

의사결정나무는 분산이 큼
약한 학습기들을 결합하여 최종 학습기를 만듬
최종 결과에 대한 해석이 어렵지만 예측력이 매우 높음

5.4 인공신경망 분석

활성화 함수(activation function)

시그모이드 - 1/(1+e-^x)
소프트맥스 - exp()함수를 통해 총합이 1인 확률로 값을 변환
렐루

신경망 모형 구축시 고려사항

입력변수
범주형 변수 : 모든 범주에서 일정 빈도 이상 값을 갖고 범주 빈도가 일정
연속형 변수 : 입력변수 값들의 범위가 변수간의 큰 차이가 없을 때
연속형 변수는 고객의 소득과 같은 데이터는 로그변환 , 혹은 범주화를 진행하면 좋음
가중치 초기값 / 다중 최소값
초기값 선택은 매우 중요
학습모드
온라인 학습 모드 - 각 관측값을 순차적으로 신경망에 투입
확률적 학습 모드 - 관측값의 순서 랜덤
배치 학습 모드 - 전체 훈련자료를 동시에 투입

5.5 군집분석

군집분석

각 객체의 유사성을 측정하여 유사성이 높은 집단 분류
데이터들 사이의 거리를 기준으로 군집화

연속형 변수의 거리

유클리디안
표준화
마할라노비스
체비셰프
맨하탄
캔버라
민코우스키

범주형 변수의 거리

자카드 거리
자카드 계수
코사인 거리
코사인 유사도

계층적 군집분석

n개의 군집으로 시작해 개수를 줄이는 방법
합병형 방법 ( Bottom - Up ) / 분리형 방법 ( Top-Down )

최단 연결법
거리행렬 수정 시 최단거리를 거리로 계산

최장 연결법
거리행렬 수정 시 최장거리를 거리로 계산

평균 연결법
거리행렬 수정 시 평균거리를 거리로 계산

와드 연결법
군집내 편차들의 제곱합을 고려

비계층적 군집분석

K-평균 군집분석 ( K-means clustering )

n개의 개체를 k개의 클러스터로 묶는 알고리즘
각 클러스터와 거리 차이의 분산을 최소화

K-means 특징

초기 중심값의 선정이 중요 ( 결과가 달라질 수 있음 )
연속형 변수에 활용 가능
안정된 군집이지만 최적을 보장하지는 않음

혼합 분포 군집

모형 기반( Model - based ) 군집 방법
데이터가 모집단 모형으로부터 나왔다는 가정
k개의 모형은 군집을 의미
모수와 가중치의 추정은 EM 알고리즘 사용

EM 알고리즘

편향된 동전을 던져 편향률을 알고 싶을 때, 심지어 어떤 동전인지 몰라도 추측할 수 있는 알고리즘
A 동전 -> 8H2T -> 0.8 / B 동전 -> 5H5T -> 0.5 라고 예측할 수 있지만
어떤 동전을 던졌는지도 모르는 채로 구할 수 있음

SOM - 자기조직화지도 - 코호넨 맵

입력층 / 경쟁층 으로 구성

입력층 - 입력 변수의 개수와 동일한 뉴런 존재
경쟁층 - 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨

지도 형태로 형상화 하므로 시각적인 이해가 쉬움

5.6 연관분석

연관규칙

연관분석은 장바구니 분석
아메리카노를 사면 케잌을 산다.

연관규칙 측도

지지도
전체 거래중 A와 B를 동시에 포함하는 거래의 비율
신뢰도
A를 포함한 거래 중 A와 B를 동시에 포함한 거래의 비율
Lift
p(a n b) / p(a) * p(b)

연관규칙 절차

최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는다
최소 지지도 결정 -> 품목 중 최소 지지도를 넘는 품목 분류 -> 2가지 품목 집합 생성 -> 반복적으로 수행해 반발품목 집합을 찾음

군집모형 평가지표

실루엣 - 한 클러스터 안에서 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가
-1과 1사이의 값을 지님
던 지수 - 군집 간 거리의 최솟값을 분자 / 군집 내 요소간 거리의 최댓값을 분모
클 수록 군집이 좋다

김성욱

someone

이전 포스트