Data Science Process
- Business Understanding (prior knowledge)
- Data Understanding
➡️ Prepare Data
➡️ Building Model Using Algorithms
➡️ Applying Model and performance evaluation
➡️ Deployment
➡️ Knowledge and Actions
Data 관련 용어
- Dataset : 정의된 구조로 모아져 있는 데이터 집합
- Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
- Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성
- Label(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수
분류와 회귀
Data 준비과정
- Dataset Exploration (EDA)
- 데이터 모델링을 하기 전에 데이터 변수 별 기본적인 특성들을 탐색하고 데이터의 분포적인 특징 이해
- Missing Value
- 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
- Data Types and Conversion
- 데이터셋 안에 여러 종류의 데이터 타입(숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
- Normalization
- 데이터 변수들의 단위가 크게 다른 경우도 있고 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
- Outliers
- 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함
- Feature Selection
- 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
- Data Sampling
- 모델을 검증하거나 이상 관측치를 찾는 모델링 할 때 또는 앙상블 모델링 할 때 가지고 있는 데이터 일부분 추출하는 과정을 거치고도 함
Modeling
- Model : 모델은 입력 변수와 출력 변수간의 관계를 정의해줄 수 있는 추상적인 함수 구조
Modeling 검증
- Underfit
: prediction error to training data (Loss)
- Overfit
: prediction error to validation data (Generalization error)
reference : K-MOOC 실습으로 배우는 머신러닝