zeromin1997.log

zeromin1997.log

멋쟁이 사자처럼 AI 스쿨 TIL-38-2

김영민·2022년 11월 21일

AI스쿨 데이터분석가 머신러닝 멋쟁이사자처럼 특강

0

Classification

틀린 개수가 많으면 에러가 높고, 적으면 낮다
이 두 개가 얼마나 정확한가를 이런 식으로 Error Function에 카운트를 하고,
최종적인 Indicator function의 결과를 다 더한 다음, 평균을 낸 후 일종의 percentage로 변환할 수 있다.

Error

Training error : 내가 학습시키는 그 데이터 내에서 발생하는 오차.
Validation error는 내가 학습할 때 사용하지 않았던 데이터에 대해서 검증했을 때 발생하는 오차

복잡도 (complexity)

선형회귀

복잡도가 낮을 때 : 직선, 너무 심플할 경우 Under-fitting
복잡도가 높을 때 : 곡선, 너무 복잡할 경우 Over-fitting

=> Validation error가 최소가 되는 적절한 모형에서 학습을 해야함.

하이퍼파라미터

이 모형을 구축하는 모형의 형태들이나 특성을 규정하는 외적인 요소

하이퍼파라미터 찾는법

트레이닝 데이터만 이용 => bad
트레이닝 데이터 + 테스트 데이터 이용 => 하이퍼파라미터가 튜닝된 이후 사용
트레이닝 + validation + 테스트 데이터 이용 => Best
Cross validation

=> 추천 3번 방법을 통해서 좋은 모형을 찾고 그 다음 일반화 오류를 계산하는 절차를 꼭 거쳐야함.

데이터 사이언스

비즈니스 언더스텐딩 필요
데이터 자체에 대한 언더스탠딩 필요
트레이닝 데이터를 모형에 넣어서 학습
테스트 데이터를 이용하여 검증
검증 후 현실 문제 상황에 적용
나온 결과를 액션

데이터 관련 용어

Dataset : 정의된 구조로 모아져 있는 데이터 집합
Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
Feature(variable,Attribute) : 데이터를 구성하는 하나의 특성 – 숫자형, 범주형, 시간, 텍스트, 이진형
Label(Target, Respopnse) : 입력 변수들에 의해 예측, 분류되는 출력 변수
정형데이터 : 표 형식으로 된 데이터
비정형데이터 : 이미지나 텍스트, 음성 같은 데이터

데이터 준비과정

Dataset Exploration (EDA)

데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해

Missing Value

데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요

Data Types and Conversion

데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함

Normalization

데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함

Outliers

관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.

Feature Selection

많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음

Data Sampling

모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함

머신러닝 – 분류

문제 상황에 따라 3가지로 분류 가능

지도
비지도
강화학습

Bias-Variance Tradeoff

모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
모형의 오차

배운걸 다 흡수하는 제로민

이전 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-38-1

다음 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-39

0개의 댓글