[Adsp] 3-8. 데이터마이닝

Mini·2022년 8월 23일
0

ADsP

목록 보기
14/17

(1) 데이터 마이닝 (Data Mining)

  • 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것이 목적
  • 머신러닝을 구현하기 위한 바탕이 됨.
  • 굳이 가설이나 검정을 하지 않아도 됨.
  • 숨겨진 규칙이나 패턴을 찾아내는 것이 중요 -> 예측이나 설명 위함
  • 데이터 마이닝을 통해 인사이트 (예측이나 설명) 얻음.
  • 절차 : 목적정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
    • (1) 목적정의 -> 데이터 정의
    • (2) 데이터 준비 -> 데이터 정제를 통해 데이터 품질 보장
    • (3) 데이터 가공 -> 분석 목적에 맞게 목표 변수를 정의하고 분석기법이 적용 가능한 형태로 데이터 가공 (변환)
    • (4) 데이터 마이닝 기법 적용
      • 분석기법을 적용해 목적하는 정보를 추출
      • 어떤 알고리즘을 적용하느냐에 따라 결과가 달라져 분석 전문가 필요
    • (5) 검증 -> 추출한 정보를 검증

(2) 데이터 마이닝의 종류

  • 지도학습
    • 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것
    • 컴퓨터가 학습할 때 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법
    • 독립변수에 따른 종속변수가 있음.
      • 회귀 (종속변수 형태: 연속형)
        • 선형회귀분석
        • 의사결정나무 (회귀트리모형)
        • SVR
        • 신경망 모형
        • 릿지
        • 라쏘
      • 분류 (종속변수 형태: 범주형) -> 데이터가 어느 그룹에 속하는지 판별하고자 하는 분석 기법
        • 로지스틱 회귀 분석
        • 신경망 모형
        • 의사결정나무(분류트리모형)
        • K-NN
        • 앙상블모형
        • SVM
        • 나이브 베이즈 분류
  • 비지도학습
    • 정답을 알려주지 않고 학습하는 것
    • 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴만 찾아내는 학습 방법 (특징 추출)
    • 독립변수에 따른 종속변수가 없음.
      • 군집 (Clustering) 분석 -> 여러 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위한 분석 방법
        • K-means
        • SOM
        • DESCAN (밀도 기반 군집)
        • 병합 군집
        • 계층 군집
      • 연관 (Association) 분석 -> 장바구니 분석, 데이터 간의 연관성 파악하는 분석 방법
        • Apriori
      • 차원축소
        • PCA(주성분 분석), LDA (선형판별분석), SVD(특잇값 분해), MDS(다차원 척도법)

(3) 데이터 분할

  • 데이터 마이닝에 앞서 훈련용, 검정용, 평가용 데이터 세 가지 데이터로 분할
    • 훈련용 데이터 -> 모델 구축 위해 사용
    • 검정용 데이터
      • 구축된 모델이 적합한지 검증
      • 모형의 과대추정 및 과소추정을 방지하기 위해 활용
    • 평가용 데이터 -> 최종적으로 구축된 모델의 성능을 평가하기 위함.

(4) 과적합과 과소 적합

  • 과적합
    • 데이터가 훈련용 데이터에 대하여 너무 많이 설명하려고 하여 모델이 복잡해지고 해석의 어려움이 발생하는 것
    • 실제 데이터 예측력이 떨어짐
    • 과적합 방지 위해 데이터 분할 실행
  • 과소적합
    • 데이터 부족 문제로 발생할 수 있음.
    • 모델이 너무 단순하여 데이터를 충분히 설명하지 못하는 문제

(5) 데이터 분할을 통한 검증

  • 홀드아웃
    • 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식
    • 일반적 : 학습 데이터- 80%, 테스트 데이터 - 20%
    • 또는 학습 데이터- 60%, 검증 데이터 - 20%, 테스트 데이터 - 20%
    • 각 데이터 셋이 전체 데이터 대표하지 못할 가능성 큼
      • 검증 세트를 이용하여 모델을 훈련하는 것을 계속 반복하고 성능 평가 -> 만족할 만한 성능이 나온 하이퍼 파라미터를 이용하여 테스트 세트에서 모델의 일반화 성능 추정
  • k-Fold 교차검증 (cross-validation)
    • 전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용 -> 구축된 k개의 모델을 종합하여 최종 모델 구축
    • 정확도를 향상, 과소적합 방지시킬 수 있음
    • k번의 모델 구축으로 모델 훈련에 많은 시간을 필요로 함.
  • 붓스트랩
    • 표본을 다시 추출하는 방법의 일종
      * 모집단과 크기가 동일해야함.
    • 복원추출을 하여 중복 추출을 허용
    • 항상 관측된 데이터로부터 복원 추출, 추정의 신뢰성 평가에 사용
    • 데이터셋의 분포가 고르지 않을 경우에 사용, 과적합 줄이는데 도움
  • 계층별 k-겹 교차 검증
    • 주로 불균형 데이터를 분류
    • 각 폴드가 가지는 레이블의 분포가 유사하도록 폴드를 추출해 교차검증 실시

0개의 댓글