[ADsP] 14강 정형 데이터 마이닝 02

Data_Student·2024년 10월 29일
0

ADsP

목록 보기
11/11

[ADsP] 14강 정형 데이터 마이닝 02


3. 앙상블 분석 (분석 종류 구분하기!)

1) 앙상블 분석 개요
 - 여러 개의 모형을 생성 및 조합하여 예측력을 높이는 모형을 만드는 것
 - 대표적인 방법 : 배깅, 부스팅, 랜덤 포레스트

2) 앙상블 분석의 종류 ★★★
(1) 배깅
 - 여러 개의 부스트랩을 집계하는 알고리즘
 - 보팅 : 분류기에 의한 결과를 놓고 다수결에 의하여 최종 결괏값을 선정하는 작업
 - 장점 : 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력
(2) 부스팅
 - 여러 개의 모형을 구축한다는 점에서 배깅과 유사, 각 분류기가 독립적이지 않음
 - 이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 부스트랩을 구성
 - 약한 모델을 결합하여 나감으로써 점차적으로 강한 분류기를 만들어 나가는 과정
 - 예측 성능 또한 배깅보다 뛰어나다
(3) 랜덤 포레스트
 - 서로 상관성이 없는 나무들로 이루어진 숲을 의미
 - 서로 다른 여러 개의 트리로 구성
 - 의사결정나무의 특징을 물려받아 이상값에 민강하지 않음

4. 인공신경망 구성

1) 인공신경망 개요
  - 인간의 뇌를 모방하여 만들어진 학습 및 추론 모형
  - 뇌의 구조를 수학적으로 단순화해 모델링
  - 값이 입력되면 개별 신호의정도에 따라 값이 가중
  - 장점 ★★
   * 잡음에 민감하게 반응하지 않는다.
   * 비선형적인 문제를 분석하는데 유용
   * 패턴인식, 분류, 예측 등의 문제에 효과적
   * 스스로 가중치를 학습하므로 다양하고 많은 데이터에 효과적
  - 단점 ★★
   * 모형이 복잡할 경우 학습에 오랜 시간이 소요
   * 초기 가중치에 따라 전역해가 아닌 지역해로 수렴
   * 추정한 가중치의 신뢰도가 낮음
   * 결과에 대한 해석이 쉽지 않음
   * 은닉층의 수와 은닉 노드의 수를 결정하기 어려움

2) 인공신경망의 알고리즘
(1) 활성함수
 - 노드에 입력되는 값을 바로 다음 노드로 전달하지 않고 비선형 함수에 통과시킨 후 전달할 때 사용되는 비선형 함수
 - 대표적인 활성함수 : 시그모이드 함수, 소프트맥스 함수, ReLU 등
 - 그외 함수 : 스텝함수, 사인, 탄 함수 등
(2) 인공신경망의 계층 구조 ★★★ (은닉층에 대한 설명 중심)
 - 일반적으로 입력층, 출력층을 갖고 보이지 않는 은닉층을 가진 다층 신경망을 의미
 - 은닉층 : 신경망 외부에서는 은닉층의 노드에 직접 접근할 수 없도록 숨겨진 말 그대로 은닉한 층
(3) 인공신경망 학습(역전파 알고리즘)
 - 가중치 값의 결정은 입력층에서 출력층으로 찾아 나가는 순전파 알고리즘을 먼저 활용
 - 오차들을 줄이고자 출력층에서 입력층 방향으로 거꾸로 찾아 나가는 역전파 알고리즘을 활용하여 가중치 값들을 새롭게 조정

3) 인공신경망의 종류 ★★★
(1) 단층 퍼셉트론(단층 신경망)
 - 입력층이 은닉층을 거치지 않고 바로 출력층으로 연결
(2) 다층 퍼셉트론(다층 신경망)
 - 입력층과 출력층 사이에 다수의 은닉층을 보유
 - 일반적으로 인공신경망을 부를 때 다층 퍼셉트론을 의미
 - 과적합과 과소적합 문제가 발생할 수 있기 때문에 적절한 노드의 수를 찾는 것이 중요

5. 나이즈베이즈 분류

1) 베이즈 이론(Bayes Theorem)
(1) 베이즈 이론(베이지안 확률) ★★
 - 확률을 해석하는 이론
 - 빈도확률 vs 베이지안 확률
  * 빈도확률 : 사건이 발생한 횟수의 장기적인 비율을 의미
  * 베이지안 확률 : 사전확률과 우도확률을 통해 사후확률을 추정하는 정리
 - 두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리

2) 나이브 베이즈 분류
(1) 나이브 베이즈 개념
 - 나이브 베이즈 분류 모델은 베이즈 정리를 기반으로 한 지도학습 모델
 - 예시) 스팸 메일 필터링 등
(2) 나이브 베이즈 알고리즘
 -이진 분류 데이터가 주어졌을 때 베이즈 이론을 통해 범주가 될 확률을 구하고, 더 큰 확률값이 나오는 범주에 데이터를 할당하는 알고리즘

6. k-NN 알고리즘

1) k-NN(k-Nearest Neighbor) 알고리즘의 개요
 - k-최근접이웃으로도 불리는 분류 알로기즘
 - 지도학습인 분류 분석에 속하지만 군집의 특성도 보유
  참고 : 분류 - 지도학습, 군집 - 비지도학습

2) k-NN 알고리즘의 원리 ★★★
 - 정답 라벨이 없는 새로운 데이터를 입력 받았을 때 그 데이터로부터 가장 가까이에 있는 데이터의 정답 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정
 - 일반적으로 최적의 k값을 찾기 위해 총 데이터들의 제곱값을 사용

7. 서포트벡터머신

1) 서포트벡터머신의 개요
 - 지도학습에 주로 이용되며 특히 분류 성능이 뛰어나 분류 분석에 자주 사용
 - 초평면(hyper-plane)을 이용하여 카테고리르 나누어 비확률적 이진 선형모델을 제작

2) 서포트벡터머신(SVM) 알고리즘 ★★
 - 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평면들의 집합으로 구성

8. 분류 모형 성과 평가 ★★★ (계산 및 암기 필요!)

1) 성과 평가 개요
 - 컨퓨전매트릭스(혼동행렬)라고도 불리는 오분류표, ROC 커프, 이익도표 등

2) 오분류표와 평가 지표 ★★★ (계산방법 필수로 암기!)
 - 분류 분석 후 예측한 값과 실제 값의 차이를 교차표 형태로 정리한 것
  * 정분류표=정확도(Accuracy) : 전체 관측치 중 올발게 예측한 비율
  * 오분류율(Error Rate) : 전체 관측치 중 잘못 예측한 비율
  * 민감도=재현율(Sensitivity) : 실제 True 중 올바르게 True를 찾아낸 비율, 민감도와 동일한 지표로 모형의 완전성을 평가하는 지표
  * 특이도(Specificity) : 실제 False 중 올바르게 False를 찾아낸 비율
  * 정밀도(Precision) : 예측 True 중 올바르게 True를 찾아낸 비율
  * F1 Score : 정밀도와 재현율의 조화평균 값으로 정밀도의 재현율은 높은 확률로 음의 상관관계를 가질 수 있는 효과를 보정하기 위한 지표로 값이 높을수록 좋다.
  * 거짓 긍정률(FPR: False Positive Rate) 실제 Negative인 값 중 Positive로 잘못 분류한 비율

3) ROC 커브 ★★★
 - 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
 - ROC 커브의 아래 면적을 나타내는 AUROC의 값이 1에 가까울수록 모형의 성능이 우수

4) 이익도표(Lift Chart) ★★
 - 모델의 성능을 판단하기 위해 작성한 표
 - 일반적으로 0.5에서 cut-off하며, 1이 가장 높은 기준
 - 랜덤모델의 예측력 = (목표범주 그룹 1에 속한 데이터 개수)/(전체 데이터 개수)
 - 향상도 = (반응률)/(랜덤모델 예측력)

5) 향상도 곡선(Lift Curve) ★★
 - 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 구간별로 파악하기 위한 그래프
 - 좋은 모델일수록 큰 값에서 시작하여 급격히 감소

03 군집분석

1. 군집분석

1) 군집분석 개요
- 비지도학슴 중 하나인 군집분석은 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악하는 기법
- 거리가 가까울수록 유사성이 크다

2) 거리 측도 ★★★
(1) 변수가 연속형인 경우 (계산법 알아두기!)
 - 유클리디안 거리 : 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법, 가장 짧은 거리를 계산
 - 맨하튼 거리 : 도시에서 최단거리를 움직이듯 변수들의 차이의 단순합으로 계산한 거리
 - 체비셰프 거리 :변수 간 거리 차이 중 최댓값을 데이터 간의 거리로 정의
 - 표준화 거리 : 유클리디안 거리에서 표준편차로 나눔으로써 해결한 거리
 - 마할라노비스 거리 : 표준화 거리가 고려하지 못한 변수 간 상관성까지 고려한 거리
 - 민코프스키 거리 : 유클리디안 거리와 맨하튼 거리를 한번에 표현한 거리

(2) 변수가 범주형인 경우 (참고만)
 - 단순 일치 계수
 - 자카드 지수
 - 자카드 거리
 - 코사인 유사도
 - 코사인 거리
 - 순위 상관계수

2. 계층적 군집분석

1) 계층적 군집분석 개요
 - 계층적 트리 구조를 형성하고 이를 통해 군집화를 수행하는 과정
 - 병합적 방법 : 각 데이터를 하나의 군집으로 간주하고 가까운 데이터부터 순차적으로 병합하는 방법
 - 분할적 방법 : 전체 데이터를 하나의 군집으로 간주하고 각각의 관측치가 하나의 군집이 될 때까지(혹은 종료조건까지) 군집을 순차적으로 분할하는 방법
 - 병합적 방법이 대표적이며, 분석 결과를 바탕으로 분석가가 판단하여 설명 가능한 수준으로 군집화하면 된다.

2) 군집 간의 거리 ★★★ (연결법과 설명 숙지)
 - 단일연결법(최단연결법) : 생성된 군집과 기존의 데이터들의 거리를 가장 가까운 데이터로 계산하는 방법
 - 완전연결법(최장연결법) : 생성된 군집과 기존의 데이터들의 거리를 가장 먼 데이터로 계산하는 방법
 - 평균연결법 : 생성된 군집과 기존의 데이터들의 거리를 군집 내 평균 데이터로 계산하는 방법
 - 중심연결법 : 각 군집의 중심점 사이의 거리를 거리로 정의한 방법
 - 와드연결법 : 생성된 군집과 기존의 데이터들의 거리를 군집 내 오차가 최소가 되는 데이터로 계산하는 방법

3) 비계층적 군집분석
 - 구하고자 하는 군집의 수를 사전에 정의해 정해진 군집의 수만큼 형성하는 방법
(1) k-means 군집 ★★★
 - 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할하는 알고리즘
 - 임의로 설정된 k개의 데이터를 seed라 한다.
(2) k-means 군집 방법 ★★★
 - 단계1: 군집의 수 K의 초깃값을 설정하고 각각의 K를 설명할 변수의 값을 임의로 설정하거나 데이터 중에서 K개를 선택한다. 이때 임의로 설정된 K개의 데이터를 Seed라고 한다.
 - 단계2: 각 데이터를 가장 가까운 seed로 할당
 - 단계3: 각 군집의 데이터들 사이의 평균값 또는 중앙값을 계산하여 새로운 seed를 설정
 - 단계4: 새로운 seed를 중심으로 군집을 재할당
 - 단계5: 각 군집의 중심이 변하지 않을 때까지 위 과정을 반복
(3) k-means 군집의 특징 ★★
 - 장점
  * 분석 기법 적용이 비교적 단순하고 빠르다
  * 다양한 데이터에서 사용 가능
 - 단점
  * 초깃값 K개의 설정이 어려움
  * 결과 해석이 어려움
  * 데이터의 변수들이 연속형 변수이어야 함
  * 안정된 군집은 보장하나 최적의 군집의 보장은 없음
  * 이상값에 민감하게 반응
(4) DBScan (참고만 하기)
 - 밀도 기반 군집분석의 한 방법, 개체들이 밀집한 정도에 기초해 군집을 형성

3. 혼합 분포 군집 (참고만 하기)

1) 혼합 분포 군집 개요
2) EM 알고리즘 ★★
 - 확률모델의 최대가능도를 갖는 모수와 함께 그 확률모델의 가중치를 추정
3) EM 알고리즘 과정

4. 자기조직화지도(SOM) (내용 다시 읽어보기!)

1) 자기조직화지도 개요
 - 코호넨 맵이라고도 불리며, 인공신경망 기반 차원 축소와 군집화를 동시에 수행할 수 있는 알고리즘
2) 자기조직화지도 구성 ★★
3) 자기조직화지도 과정 ★★★
4) 자기조직화지도 특성 ★★

04 연관분석

1. 연관분석의 개요 및 측도

1) 연관분석의 개요
2) 연관분석의 측도 ★★★
(1) 지지도 : 전체 거래 중에서 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율
(2) 신뢰도 : 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률
(3) 향상도 : 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸 값

2. 연관분석의 알고리즘과 특징

1) 연관분석의 알고리즘 ★★★
(1) apriori 알고리즘
 - 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소 시키는 알고리즘
(2) apriori 알고리즘 절차
 - 단계1: 최소 지지도를 설정
 - 단계2: 최소 지지도보다 큰 지지도를 갖는 단일 품목을 설정
 - 단계3: 위 과정에서 찾은 단일 품목에서 2가지 품목으로 생성되는 연관 규칙 중 최소 지지도 이상의 연관 규칙을 찾기
 - 단계4: 위 과정을 반복하면서 3가지 이상의 품목에 대한 연관 규칙을 생성
(3) FP-Growth 알고리즘
 - 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 차츰 올라가면서 빈도수가 높은 아이템 집합을 생성하는 상향식 알고리즘

2) 연관분석의 특징 ★★
 - 장점
  * 결과가 단순하고 분명
  * 분석을 위한 계산이 간단
  * 목적변수가 없으므로 데이터 탐색을 위해 사용 가능
 - 단점
  * 품목 세분화에 어려움
  * 품목 수의 증가는 기하급수적인 계산량의 증가를 초래
  * 거래가 발생하지 않은 품목에 대해서는 분석이 불가능

0개의 댓글