멋쟁이 사자처럼 AI 스쿨 TIL-39

김영민·2022년 11월 22일
0

데이터 준비과정

  1. Dataset Exploration (EDA)
  • 데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해
  1. Missing Value
  • 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
  1. Data Types and Conversion
  • 데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
  1. Normalization
  • 데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
  1. Outliers
  • 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.
  1. Feature Selection
  • 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
  1. Data Sampling
  • 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함

머신러닝 – 분류

문제 상황에 따라 3가지로 분류 가능

  1. 지도
  2. 비지도
  3. 강화학습

Bias-Variance Tradeoff

  • 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
  • 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
  • 모형의 오차

KNN (K- Nearest Neighbors)

  • K : 이웃의 개념, 임의의 숫자
  • 두 관측치의 거리가 가까우면 Y, Target또는 그 해당 관측치의 Label도 비슷하다.
  • K 개의 주변 관측치의 Class에 대한 majority voting
  • Lazy Learning Algorithm

거리

  • 두 관측치 사이의 거리를 측정할 수 있는 방법
  • 범주형 변수는 Dummy Variable으로 변환하여 거리 계산

K의 영향

  • K : KNN의 하이퍼파라미터(거리를 어떻게 계산할 것인가?)
  • K가 클수록 Underfitting, K가 작을수록 Overfitting
  • Validation dataset을 이용해 최적의 K결정

Logistic Regression

다중선형회귀분석

  • 목적: 수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수를 추정
  • 필요성: 종속 변수의 속성이 이진 변수일 때 (0 or 1)
profile
배운걸 다 흡수하는 제로민

0개의 댓글