zeromin1997.log

zeromin1997.log

멋쟁이 사자처럼 AI 스쿨 TIL-39

김영민·2022년 11월 22일

AI스쿨 데이터분석가 머신러닝 멋쟁이사자처럼 특강

0

데이터 준비과정

Dataset Exploration (EDA)

데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해

Missing Value

데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필요

Data Types and Conversion

데이터셋 안에 여러 종류의 데이터 타입 (숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용해야 함

Normalization

데이터 변수들의 단위가 크게 다른 경우들이 있고, 이러한 것들이 모델 학습에 영향을 주는 경우가 있어서 정규화 함

Outliers

관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함.

Feature Selection

많은 변수 중에서 모델링을 할 때 중요한 변수가 있고, 그렇지 않은 변수가 있어서 선택이 필요한 경우가 있음

Data Sampling

모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 E o 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함

머신러닝 – 분류

문제 상황에 따라 3가지로 분류 가능

지도
비지도
강화학습

Bias-Variance Tradeoff

모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 하이퍼파라미터를 결정해야함
모형의 오차

KNN (K- Nearest Neighbors)

K : 이웃의 개념, 임의의 숫자
두 관측치의 거리가 가까우면 Y, Target또는 그 해당 관측치의 Label도 비슷하다.
K 개의 주변 관측치의 Class에 대한 majority voting
Lazy Learning Algorithm

거리

두 관측치 사이의 거리를 측정할 수 있는 방법
범주형 변수는 Dummy Variable으로 변환하여 거리 계산

K의 영향

K : KNN의 하이퍼파라미터(거리를 어떻게 계산할 것인가?)
K가 클수록 Underfitting, K가 작을수록 Overfitting
Validation dataset을 이용해 최적의 K결정

Logistic Regression

다중선형회귀분석

목적: 수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수를 추정
필요성: 종속 변수의 속성이 이진 변수일 때 (0 or 1)

배운걸 다 흡수하는 제로민

이전 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-38-2

다음 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-40

0개의 댓글