머신러닝 프로세스

psy4072·2022년 11월 21일
0

Data Science Process

  • Business Understanding (prior knowledge)
  • Data Understanding

➡️ Prepare Data

  • Training Data

➡️ Building Model Using Algorithms

  • Test Data

➡️ Applying Model and performance evaluation

➡️ Deployment

➡️ Knowledge and Actions

Data 관련 용어

  • Dataset : 정의된 구조로 모아져 있는 데이터 집합
  • Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
  • Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성
  • Label(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수

분류와 회귀

Data 준비과정

  • Dataset Exploration (EDA)
    - 데이터 모델링을 하기 전에 데이터 변수 별 기본적인 특성들을 탐색하고 데이터의 분포적인 특징 이해
  • Missing Value
    - 데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요
  • Data Types and Conversion
    - 데이터셋 안에 여러 종류의 데이터 타입(숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함
  • Normalization
    - 데이터 변수들의 단위가 크게 다른 경우도 있고 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함
  • Outliers
    - 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함
  • Feature Selection
    - 많은 변수 중에서 모델링을 할 때 중요한 변수가 있고 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음
  • Data Sampling
    - 모델을 검증하거나 이상 관측치를 찾는 모델링 할 때 또는 앙상블 모델링 할 때 가지고 있는 데이터 일부분 추출하는 과정을 거치고도 함

Modeling

  • Model : 모델은 입력 변수와 출력 변수간의 관계를 정의해줄 수 있는 추상적인 함수 구조

Modeling 검증



  • Underfit
    : prediction error to training data (Loss)
  • Overfit
    : prediction error to validation data (Generalization error)


reference : K-MOOC 실습으로 배우는 머신러닝

profile
Ⓓ🅰️🅣🄰 ♡♥︎

0개의 댓글