멋쟁이 사자처럼 AI 스쿨 TIL-38-2

김영민·2022년 11월 21일
0

Classification

  • 틀린 개수가 많으면 에러가 높고, 적으면 낮다
  • 이 두 개가 얼마나 정확한가를 이런 식으로 Error Function에 카운트를 하고,
    최종적인 Indicator function의 결과를 다 더한 다음, 평균을 낸 후 일종의 percentage로 변환할 수 있다.

Error

  • Training error : 내가 학습시키는 그 데이터 내에서 발생하는 오차.
  • Validation error는 내가 학습할 때 사용하지 않았던 데이터에 대해서 검증했을 때 발생하는 오차

복잡도 (complexity)

선형회귀

  • 복잡도가 낮을 때 : 직선, 너무 심플할 경우 Under-fitting
  • 복잡도가 높을 때 : 곡선, 너무 복잡할 경우 Over-fitting

=> Validation error가 최소가 되는 적절한 모형에서 학습을 해야함.

하이퍼파라미터

  • 이 모형을 구축하는 모형의 형태들이나 특성을 규정하는 외적인 요소

하이퍼파라미터 찾는법

  1. 트레이닝 데이터만 이용 => bad
  2. 트레이닝 데이터 + 테스트 데이터 이용 => 하이퍼파라미터가 튜닝된 이후 사용
  3. 트레이닝 + validation + 테스트 데이터 이용 => Best
  4. Cross validation

=> 추천 3번 방법을 통해서 좋은 모형을 찾고 그 다음 일반화 오류를 계산하는 절차를 꼭 거쳐야함.

데이터 사이언스

  1. 비즈니스 언더스텐딩 필요
  2. 데이터 자체에 대한 언더스탠딩 필요
  3. 트레이닝 데이터를 모형에 넣어서 학습
  4. 테스트 데이터를 이용하여 검증
  5. 검증 후 현실 문제 상황에 적용
  6. 나온 결과를 액션

데이터 관련 용어

  1. Dataset : 정의된 구조로 모아져 있는 데이터 집합
  2. Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
  3. Feature(variable,Attribute) : 데이터를 구성하는 하나의 특성 – 숫자형, 범주형, 시간, 텍스트, 이진형
  4. Label(Target, Respopnse) : 입력 변수들에 의해 예측, 분류되는 출력 변수
  5. 정형데이터 : 표 형식으로 된 데이터
  6. 비정형데이터 : 이미지나 텍스트, 음성 같은 데이터

데이터 준비과정

  1. Dataset Exploration (EDA)
  • 데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해
  1. Missing Value
  • 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
  1. Data Types and Conversion
  • 데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
  1. Normalization
  • 데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
  1. Outliers
  • 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.
  1. Feature Selection
  • 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
  1. Data Sampling
  • 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함

머신러닝 – 분류

문제 상황에 따라 3가지로 분류 가능

  1. 지도
  2. 비지도
  3. 강화학습

Bias-Variance Tradeoff

  • 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
  • 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
  • 모형의 오차
profile
배운걸 다 흡수하는 제로민

0개의 댓글