[Adsp] 3-8. 데이터마이닝

Mini·2022년 8월 23일

ADsP

목록 보기

14/17

(1) 데이터 마이닝 (Data Mining)

방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것이 목적
머신러닝을 구현하기 위한 바탕이 됨.
굳이 가설이나 검정을 하지 않아도 됨.
숨겨진 규칙이나 패턴을 찾아내는 것이 중요 -> 예측이나 설명 위함
데이터 마이닝을 통해 인사이트 (예측이나 설명) 얻음.
절차 : 목적정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
- (1) 목적정의 -> 데이터 정의
- (2) 데이터 준비 -> 데이터 정제를 통해 데이터 품질 보장
- (3) 데이터 가공 -> 분석 목적에 맞게 목표 변수를 정의하고 분석기법이 적용 가능한 형태로 데이터 가공 (변환)
- (4) 데이터 마이닝 기법 적용
  - 분석기법을 적용해 목적하는 정보를 추출
  - 어떤 알고리즘을 적용하느냐에 따라 결과가 달라져 분석 전문가 필요
- (5) 검증 -> 추출한 정보를 검증

(2) 데이터 마이닝의 종류

지도학습
- 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것
- 컴퓨터가 학습할 때 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법
- 독립변수에 따른 종속변수가 있음.
  - 회귀 (종속변수 형태: 연속형)
    - 선형회귀분석
    - 의사결정나무 (회귀트리모형)
    - SVR
    - 신경망 모형
    - 릿지
    - 라쏘
  - 분류 (종속변수 형태: 범주형) -> 데이터가 어느 그룹에 속하는지 판별하고자 하는 분석 기법
    - 로지스틱 회귀 분석
    - 신경망 모형
    - 의사결정나무(분류트리모형)
    - K-NN
    - 앙상블모형
    - SVM
    - 나이브 베이즈 분류
비지도학습
- 정답을 알려주지 않고 학습하는 것
- 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴만 찾아내는 학습 방법 (특징 추출)
- 독립변수에 따른 종속변수가 없음.
  - 군집 (Clustering) 분석 -> 여러 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위한 분석 방법
    - K-means
    - SOM
    - DESCAN (밀도 기반 군집)
    - 병합 군집
    - 계층 군집
  - 연관 (Association) 분석 -> 장바구니 분석, 데이터 간의 연관성 파악하는 분석 방법
    - Apriori
  - 차원축소
    - PCA(주성분 분석), LDA (선형판별분석), SVD(특잇값 분해), MDS(다차원 척도법)

(3) 데이터 분할

데이터 마이닝에 앞서 훈련용, 검정용, 평가용 데이터 세 가지 데이터로 분할
- 훈련용 데이터 -> 모델 구축 위해 사용
- 검정용 데이터
  - 구축된 모델이 적합한지 검증
  - 모형의 과대추정 및 과소추정을 방지하기 위해 활용
- 평가용 데이터 -> 최종적으로 구축된 모델의 성능을 평가하기 위함.

(4) 과적합과 과소 적합

과적합
- 데이터가 훈련용 데이터에 대하여 너무 많이 설명하려고 하여 모델이 복잡해지고 해석의 어려움이 발생하는 것
- 실제 데이터 예측력이 떨어짐
- 과적합 방지 위해 데이터 분할 실행
과소적합
- 데이터 부족 문제로 발생할 수 있음.
- 모델이 너무 단순하여 데이터를 충분히 설명하지 못하는 문제

(5) 데이터 분할을 통한 검증

홀드아웃
- 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식
- 일반적 : 학습 데이터- 80%, 테스트 데이터 - 20%
- 또는 학습 데이터- 60%, 검증 데이터 - 20%, 테스트 데이터 - 20%
- 각 데이터 셋이 전체 데이터 대표하지 못할 가능성 큼
  - 검증 세트를 이용하여 모델을 훈련하는 것을 계속 반복하고 성능 평가 -> 만족할 만한 성능이 나온 하이퍼 파라미터를 이용하여 테스트 세트에서 모델의 일반화 성능 추정
k-Fold 교차검증 (cross-validation)
- 전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용 -> 구축된 k개의 모델을 종합하여 최종 모델 구축
- 정확도를 향상, 과소적합 방지시킬 수 있음
- k번의 모델 구축으로 모델 훈련에 많은 시간을 필요로 함.
붓스트랩
- 표본을 다시 추출하는 방법의 일종
  * 모집단과 크기가 동일해야함.
- 복원추출을 하여 중복 추출을 허용
- 항상 관측된 데이터로부터 복원 추출, 추정의 신뢰성 평가에 사용
- 데이터셋의 분포가 고르지 않을 경우에 사용, 과적합 줄이는데 도움
계층별 k-겹 교차 검증
- 주로 불균형 데이터를 분류
- 각 폴드가 가지는 레이블의 분포가 유사하도록 폴드를 추출해 교차검증 실시

Mini

이전 포스트

[Adsp] 3-7. 시계열 분석

다음 포스트

[Adsp] 3-8. 데이터마이닝

ADsP

(1) 데이터 마이닝 (Data Mining)

(2) 데이터 마이닝의 종류

(3) 데이터 분할

(4) 과적합과 과소 적합

(5) 데이터 분할을 통한 검증

[Adsp] 3-7. 시계열 분석

[ADsP] 3-9. 분류분석

0개의 댓글