데이터 준비과정
- Dataset Exploration (EDA)
- 데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해
- Missing Value
- 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
- Data Types and Conversion
- 데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
- Normalization
- 데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
- Outliers
- 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.
- Feature Selection
- 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
- Data Sampling
- 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함
머신러닝 – 분류
문제 상황에 따라 3가지로 분류 가능
- 지도
- 비지도
- 강화학습
Bias-Variance Tradeoff
- 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
- 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
- 모형의 오차
KNN (K- Nearest Neighbors)
- K : 이웃의 개념, 임의의 숫자
- 두 관측치의 거리가 가까우면 Y, Target또는 그 해당 관측치의 Label도 비슷하다.
- K 개의 주변 관측치의 Class에 대한 majority voting
- Lazy Learning Algorithm
거리
- 두 관측치 사이의 거리를 측정할 수 있는 방법
- 범주형 변수는 Dummy Variable으로 변환하여 거리 계산
K의 영향
- K : KNN의 하이퍼파라미터(거리를 어떻게 계산할 것인가?)
- K가 클수록 Underfitting, K가 작을수록 Overfitting
- Validation dataset을 이용해 최적의 K결정
Logistic Regression
다중선형회귀분석
- 목적: 수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수를 추정
- 필요성: 종속 변수의 속성이 이진 변수일 때 (0 or 1)