[ADsP 정리] 6. 데이터 분석 - 3

김성욱·2023년 5월 18일
0

ADsP

목록 보기
6/6

5장 정형 데이터 마이닝

5.1 데이터 마이닝의 개요

데이터 마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 활용

데이터 마이닝의 특징

  • 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
  • 2000년대 CRM의 중요한 요소로 부각

지도학습 / 비지도학습

  • 지도학습
    의사결정나무
    인공신경망
    일반화 선형 모형
    선형/로지스틱 회귀분석
    사례기반 추론
    최근접 이웃 ( k-nearest neighbor )

  • 비지도학습
    OLAP
    연관성규칙
    군집분석
    SOM

분할

  • train 50% / valid 30% / test 20%
  • 충분하지 않은 데이터의 경우 홀드아웃(train/test 로 랜덤하게 분리) / k-fold 교차분석 사용

오분류 추정치

precision - TP / TP+FP ( 정답으로 예측한 것이 맞았을 확률 / 유죄 판단 중요 )
recall - TP / TP+FN ( 실제 정답중에 맞춘 정답 / 암 진단 중요 )
accuracy - TP+TN / 전체 데이터

ROC curve

  • 가로축을 FPR( 1 - 특이도 ) / 세로축을 TPR ( 민감도 ) 로 시각화
  • ROC curve의 아래 면적인 AUROC가 1에 가까울수록 좋은 모형
  • TPR - 1인 케이스를 1로 예측한 비율 ( recall)
  • FPR - 0인 케이스를 1로 예측한 비율 ( 1- 특이도)
  • AUROC > 80 이면 good / AUROC > 75 면 moderate

Lift chart(이익도표)

  • 분류모형의 성능 평가
  • 반응검출율 / 반응률 / 리프트 로 구성
  • % captured Response - 실제 구매자 / 총 구매자
  • % response - 실제 구매자 / 200명( 단위 )
  • lift - 반응률 / 기본 향상도
  • 좋은 모델이면 lift가 빠른 속도로 감소

5.2 분류분석

분류분석

  • 데이터가 어떤 그룹에 속하는지 예측
  • 클러스터링과 달리 각 그룹이 정의되어 있음

분류 / 예측

  • 분류 : 내신등급 맞추기 , 신용등급 맞추기 ( 범주형 )
  • 예측 : 수능성적 맞추기 , 매출액 맞추기 ( 연속형 )

분류 기법

  • 로지스틱 회귀
  • 의사결정나무
  • 나이브 베이즈 분류
  • 인공신경망
  • 서포트 벡터 머신
  • k 최근접 이웃
  • 규칙기반 분류 / 사례기반 추론

오즈비

  • exp() 의 의미는 x가 한 단위 증가할때 오즈비가 얼마 증가하는지 나타냄

선형 회귀 / 로지스틱 회귀

  • 선형회귀
    종속변수 : 연속형
    계수추정 : 최소제곱법
    모형검정 : F-검정 , t-검정

  • 로지스틱 회귀 - glm()
    종속변수 : ( 0 , 1 )
    계수추정 : 최대우도추정법
    모형검정 : 카이제곱 검정

의사결정나무(decision tree)

  • 시각화 강점
  • 분류나무 / 회귀나무 존재
  • 예측력 : 고객의 유치방안을 예측하기 위해서는 예측력 중시
  • 해석력 : 신용평가 거절을 설명해야 하므로 해석력 중시

의사결정나무의 활용

  • 세분화 - 비슷한 속성을 갖는 그룹으로 분할해 특성 발견
  • 분류
  • 예측
  • 차원축소 및 변수선택 - 목표변수에 큰 영향을 미치는 변수들을 골라낼 때
  • 교호작용효과 파악 - 예측변수를 결합해 목표변수에 작용하는 규칙을 파악

의사결정나무의 특징

  • 설명이 쉽다
  • 복잡하지 않다
  • 대용량 데이터도 빠르게 처리 가능
  • 상관성이 높은 불필요한 변수가 있어도 크게 영향 받지 않음
  • 수치형 / 범주형 모두 사용 가능
  • 정확도가 높음

분석 과정

성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측

분리 기준

  • 카이제곱 통계량 p 값
  • 지니 지수
  • 엔트로피 지수

의사결정나무 알고리즘

CART - 목적 변수가 범주형일 경우 지니지수 , 연속형일 경우 분산을 이용한 이진분리 사용
C4.5 , C5.0 - 각 마디에서 다지분리 가능
CHAID - 적당한 크기에서 성장을 중지 , 입력변수 범주형 , 카이제곱 통계량 사용

party 패키지

  • 의사결정나무의 사용을 위한 패키지
  • 분실값을 잘 처리하지 못하는 단점

5.3 앙상블 분석

앙상블

  • 다중 모델을 조합하여 결과를 내는 방법

배깅

  • 같은 크기를 갖는 표본을 복원추출(Bootstrap)하여 각각 학습하는 방법

ex = {1,2,3,4,4,5,7,8,10}

set1 = {1,2,3,4,4}
set2 = {4,5,7,8,10}
set3 = {1,1,3,3,3}

각각 모델 학습 후 결과 조합

부스팅

  • 가중치를 설정하여 최종 분류기를 만드는 방법
  • Adaboost / GBM / XGBoost / lightGBM 등

랜덤 포레스트

  • 의사결정나무는 분산이 큼
  • 약한 학습기들을 결합하여 최종 학습기를 만듬
  • 최종 결과에 대한 해석이 어렵지만 예측력이 매우 높음

5.4 인공신경망 분석

활성화 함수(activation function)

  • 시그모이드 - 1/(1+e-^x)
  • 소프트맥스 - exp()함수를 통해 총합이 1인 확률로 값을 변환
  • 렐루

신경망 모형 구축시 고려사항

  • 입력변수
    범주형 변수 : 모든 범주에서 일정 빈도 이상 값을 갖고 범주 빈도가 일정
    연속형 변수 : 입력변수 값들의 범위가 변수간의 큰 차이가 없을 때

  • 연속형 변수는 고객의 소득과 같은 데이터는 로그변환 , 혹은 범주화를 진행하면 좋음

  • 가중치 초기값 / 다중 최소값
    초기값 선택은 매우 중요

  • 학습모드
    온라인 학습 모드 - 각 관측값을 순차적으로 신경망에 투입
    확률적 학습 모드 - 관측값의 순서 랜덤
    배치 학습 모드 - 전체 훈련자료를 동시에 투입

5.5 군집분석

군집분석

  • 각 객체의 유사성을 측정하여 유사성이 높은 집단 분류
  • 데이터들 사이의 거리를 기준으로 군집화

연속형 변수의 거리

  • 유클리디안
  • 표준화
  • 마할라노비스
  • 체비셰프
  • 맨하탄
  • 캔버라
  • 민코우스키

범주형 변수의 거리

  • 자카드 거리
  • 자카드 계수
  • 코사인 거리
  • 코사인 유사도

계층적 군집분석

  • n개의 군집으로 시작해 개수를 줄이는 방법

  • 합병형 방법 ( Bottom - Up ) / 분리형 방법 ( Top-Down )

    최단 연결법

  • 거리행렬 수정 시 최단거리를 거리로 계산

    최장 연결법

  • 거리행렬 수정 시 최장거리를 거리로 계산

    평균 연결법

  • 거리행렬 수정 시 평균거리를 거리로 계산

    와드 연결법

  • 군집내 편차들의 제곱합을 고려

비계층적 군집분석

  • K-평균 군집분석 ( K-means clustering )

n개의 개체를 k개의 클러스터로 묶는 알고리즘
각 클러스터와 거리 차이의 분산을 최소화

K-means 특징

  • 초기 중심값의 선정이 중요 ( 결과가 달라질 수 있음 )
  • 연속형 변수에 활용 가능
  • 안정된 군집이지만 최적을 보장하지는 않음

혼합 분포 군집

  • 모형 기반( Model - based ) 군집 방법
  • 데이터가 모집단 모형으로부터 나왔다는 가정
  • k개의 모형은 군집을 의미
  • 모수와 가중치의 추정은 EM 알고리즘 사용

EM 알고리즘

  • 편향된 동전을 던져 편향률을 알고 싶을 때, 심지어 어떤 동전인지 몰라도 추측할 수 있는 알고리즘
  • A 동전 -> 8H2T -> 0.8 / B 동전 -> 5H5T -> 0.5 라고 예측할 수 있지만
    어떤 동전을 던졌는지도 모르는 채로 구할 수 있음

SOM - 자기조직화지도 - 코호넨 맵

  • 입력층 / 경쟁층 으로 구성

입력층 - 입력 변수의 개수와 동일한 뉴런 존재
경쟁층 - 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨

  • 지도 형태로 형상화 하므로 시각적인 이해가 쉬움

5.6 연관분석

연관규칙

  • 연관분석은 장바구니 분석
  • 아메리카노를 사면 케잌을 산다.

연관규칙 측도

  • 지지도
    전체 거래중 A와 B를 동시에 포함하는 거래의 비율
  • 신뢰도
    A를 포함한 거래 중 A와 B를 동시에 포함한 거래의 비율
  • Lift
    p(a n b) / p(a) * p(b)

연관규칙 절차

  • 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는다

  • 최소 지지도 결정 -> 품목 중 최소 지지도를 넘는 품목 분류 -> 2가지 품목 집합 생성 -> 반복적으로 수행해 반발품목 집합을 찾음

군집모형 평가지표

  • 실루엣 - 한 클러스터 안에서 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가
    -1과 1사이의 값을 지님
  • 던 지수 - 군집 간 거리의 최솟값을 분자 / 군집 내 요소간 거리의 최댓값을 분모
    클 수록 군집이 좋다
profile
someone

0개의 댓글