(1) 데이터 마이닝 (Data Mining)
- 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것이 목적
- 머신러닝을 구현하기 위한 바탕이 됨.
- 굳이 가설이나 검정을 하지 않아도 됨.
- 숨겨진 규칙이나 패턴을 찾아내는 것이 중요 -> 예측이나 설명 위함
- 데이터 마이닝을 통해 인사이트 (예측이나 설명) 얻음.
- 절차 : 목적정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
- (1) 목적정의 -> 데이터 정의
- (2) 데이터 준비 -> 데이터 정제를 통해 데이터 품질 보장
- (3) 데이터 가공 -> 분석 목적에 맞게 목표 변수를 정의하고 분석기법이 적용 가능한 형태로 데이터 가공 (변환)
- (4) 데이터 마이닝 기법 적용
- 분석기법을 적용해 목적하는 정보를 추출
- 어떤 알고리즘을 적용하느냐에 따라 결과가 달라져 분석 전문가 필요
- (5) 검증 -> 추출한 정보를 검증
(2) 데이터 마이닝의 종류
- 지도학습
- 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것
- 컴퓨터가 학습할 때 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법
- 독립변수에 따른 종속변수가 있음.
- 회귀 (종속변수 형태: 연속형)
- 선형회귀분석
- 의사결정나무 (회귀트리모형)
- SVR
- 신경망 모형
- 릿지
- 라쏘
- 분류 (종속변수 형태: 범주형) -> 데이터가 어느 그룹에 속하는지 판별하고자 하는 분석 기법
- 로지스틱 회귀 분석
- 신경망 모형
- 의사결정나무(분류트리모형)
- K-NN
- 앙상블모형
- SVM
- 나이브 베이즈 분류
- 비지도학습
- 정답을 알려주지 않고 학습하는 것
- 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴만 찾아내는 학습 방법 (특징 추출)
- 독립변수에 따른 종속변수가 없음.
- 군집 (Clustering) 분석 -> 여러 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위한 분석 방법
- K-means
- SOM
- DESCAN (밀도 기반 군집)
- 병합 군집
- 계층 군집
- 연관 (Association) 분석 -> 장바구니 분석, 데이터 간의 연관성 파악하는 분석 방법
- 차원축소
- PCA(주성분 분석), LDA (선형판별분석), SVD(특잇값 분해), MDS(다차원 척도법)
(3) 데이터 분할
- 데이터 마이닝에 앞서 훈련용, 검정용, 평가용 데이터 세 가지 데이터로 분할
- 훈련용 데이터 -> 모델 구축 위해 사용
- 검정용 데이터
- 구축된 모델이 적합한지 검증
- 모형의 과대추정 및 과소추정을 방지하기 위해 활용
- 평가용 데이터 -> 최종적으로 구축된 모델의 성능을 평가하기 위함.
(4) 과적합과 과소 적합
- 과적합
- 데이터가 훈련용 데이터에 대하여 너무 많이 설명하려고 하여 모델이 복잡해지고 해석의 어려움이 발생하는 것
- 실제 데이터 예측력이 떨어짐
- 과적합 방지 위해 데이터 분할 실행
- 과소적합
- 데이터 부족 문제로 발생할 수 있음.
- 모델이 너무 단순하여 데이터를 충분히 설명하지 못하는 문제
(5) 데이터 분할을 통한 검증
- 홀드아웃
- 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식
- 일반적 : 학습 데이터- 80%, 테스트 데이터 - 20%
- 또는 학습 데이터- 60%, 검증 데이터 - 20%, 테스트 데이터 - 20%
- 각 데이터 셋이 전체 데이터 대표하지 못할 가능성 큼
- 검증 세트를 이용하여 모델을 훈련하는 것을 계속 반복하고 성능 평가 -> 만족할 만한 성능이 나온 하이퍼 파라미터를 이용하여 테스트 세트에서 모델의 일반화 성능 추정
- k-Fold 교차검증 (cross-validation)
- 전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용 -> 구축된 k개의 모델을 종합하여 최종 모델 구축
- 정확도를 향상, 과소적합 방지시킬 수 있음
- k번의 모델 구축으로 모델 훈련에 많은 시간을 필요로 함.
- 붓스트랩
- 표본을 다시 추출하는 방법의 일종
* 모집단과 크기가 동일해야함.
- 복원추출을 하여 중복 추출을 허용
- 항상 관측된 데이터로부터 복원 추출, 추정의 신뢰성 평가에 사용
- 데이터셋의 분포가 고르지 않을 경우에 사용, 과적합 줄이는데 도움
- 계층별 k-겹 교차 검증
- 주로 불균형 데이터를 분류
- 각 폴드가 가지는 레이블의 분포가 유사하도록 폴드를 추출해 교차검증 실시