Classification
- 틀린 개수가 많으면 에러가 높고, 적으면 낮다
- 이 두 개가 얼마나 정확한가를 이런 식으로 Error Function에 카운트를 하고,
최종적인 Indicator function의 결과를 다 더한 다음, 평균을 낸 후 일종의 percentage로 변환할 수 있다.
Error
- Training error : 내가 학습시키는 그 데이터 내에서 발생하는 오차.
- Validation error는 내가 학습할 때 사용하지 않았던 데이터에 대해서 검증했을 때 발생하는 오차
복잡도 (complexity)
선형회귀
- 복잡도가 낮을 때 : 직선, 너무 심플할 경우 Under-fitting
- 복잡도가 높을 때 : 곡선, 너무 복잡할 경우 Over-fitting
=> Validation error가 최소가 되는 적절한 모형에서 학습을 해야함.
하이퍼파라미터
- 이 모형을 구축하는 모형의 형태들이나 특성을 규정하는 외적인 요소
하이퍼파라미터 찾는법
- 트레이닝 데이터만 이용 => bad
- 트레이닝 데이터 + 테스트 데이터 이용 => 하이퍼파라미터가 튜닝된 이후 사용
- 트레이닝 + validation + 테스트 데이터 이용 => Best
- Cross validation
=> 추천 3번 방법을 통해서 좋은 모형을 찾고 그 다음 일반화 오류를 계산하는 절차를 꼭 거쳐야함.
데이터 사이언스
- 비즈니스 언더스텐딩 필요
- 데이터 자체에 대한 언더스탠딩 필요
- 트레이닝 데이터를 모형에 넣어서 학습
- 테스트 데이터를 이용하여 검증
- 검증 후 현실 문제 상황에 적용
- 나온 결과를 액션
데이터 관련 용어
- Dataset : 정의된 구조로 모아져 있는 데이터 집합
- Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
- Feature(variable,Attribute) : 데이터를 구성하는 하나의 특성 – 숫자형, 범주형, 시간, 텍스트, 이진형
- Label(Target, Respopnse) : 입력 변수들에 의해 예측, 분류되는 출력 변수
- 정형데이터 : 표 형식으로 된 데이터
- 비정형데이터 : 이미지나 텍스트, 음성 같은 데이터
데이터 준비과정
- Dataset Exploration (EDA)
- 데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해
- Missing Value
- 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
- Data Types and Conversion
- 데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
- Normalization
- 데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
- Outliers
- 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.
- Feature Selection
- 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
- Data Sampling
- 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함
머신러닝 – 분류
문제 상황에 따라 3가지로 분류 가능
- 지도
- 비지도
- 강화학습
Bias-Variance Tradeoff
- 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
- 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
- 모형의 오차