[내가 헷갈려서 하는 정리: 평가모델]

HI,HYEN·2022년 11월 21일

내헷하정

KMOOC 실습으로 배우는 머신러닝 강의 정리 내용

1 -1

평가모델(오차 -> 작을수록 좋음)

MSE(Mean Squared Error)
: {(실제값 - 예측값)^2} 의 평균
출처: https://suboptimal.wiki/explanation/mse/

1 -2

Linear Regression
1. 기본식 y = f(x)(=> a + bx) (베타 : 회귀계수)
2. Loss 함수 정의(= MSE)
3. 최적화(Loss function(오차)를 가장 최소화로 해주는 베타를 찾음)
-> 미분해서 0이 되는 값이 최솟값

Machine Learning => optimization(최적화)

1 -3

Classification task

I(Indicator function)
: y랑 y^이 틀리면 1, 맞으면 0.
-> 틀린 개수가 많으면 에러가 높을 거고 틀린 개수가 적으면 0.

2 -1

Dataset : 정의된 구조로 모아져 있는 데이터 집합
Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성
-> 숫자형, 범주형, 시간, 텍스트, 이진형
Lable(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수

Data 준비 과정

Dataset Exploration (=> EDA)
- 변수 별 기본적인 특성들을 탐색하고 분포적인 특징 이해
Missing Value
- 결측치로 남아 있는 부분 보정 필요
Data Types and Conversion
- 여러 종류의 데이터 타입(숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용
Normalization
- 변수들의 단위가 크게 다른 경우 모델 학습에 영향을 주는 경우가 있어 정규화 함.
Outliers
- 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함
Feature Selection
- 변수중에서 모델링을 할 때 중요한 변수가 있고 그렇지 않은 변수가 있어 선택이 필요한 경우가 있음.
Data Sampling
- 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 때 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함.

Modeling 검증
-> Underfit
-> Optimal => Validation error가 가장 낮을 때
-> Overfit

3 -1

머신러닝 분류 모델링

Supervised Learning : 학습데이터로부터 함수 F를 찾는 방법론
- Classification (종속변수 y가 범주형)
- Regression (종속변수 y가 연속형)

3 -2

KNN (K-Nearest Neighbors)

: 두 관측치의 거리가 가까우면 y도 비슷

aka. Lazy Learning Algorithm

K : KNN의 하이퍼파라미터
K가 클수록 Underfitting/ K가 작을수록 Overfitting
Validation dataset을 이용해 최적의 K 결정

3 -3

Logistic Regression

다중선형회귀분석 (ex. Linear Regression -> y:연속형)
목적 - 수치형 설명 변수 x와 종속변수 y간의 관계를 선형으로 가정하고,
이를 가장 잘 표현할 수 있는 회귀 계수를 추정
필요성 - 범주형 반응변수
-> 이진변수 (반응변수 값 0 or 1)
💡질문💡 확률값을 선형 회귀분석의 종속변수로 사용하는 것이 타당한가?
📖답변📖 선형회귀분석의 우변은 범위에 대한 제한이 없기 때문에 우변과 좌변의 범위가 다른 문제점이 발생
-> 멀티변수 (반응변수 값 1 or 2 or 3 이상)
=> 일반 회귀분석과는 다른 방식으로 접근

✔️ 로지스틱 회귀분석의 목적
-> 이진형(0/1)의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하는 것

✔️ 왜 회귀식으로 표현해야 하나?
-> 회귀식으로 표현될 경우 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력 등을 알아볼 수 있음.

✔️ 로지스틱 회귀분석의 특징
-> 이진형 종속변수 y를 그대로 사용하는 것이 아니라 y에 대한 로짓함수(logit function)를 회귀식의 종속변수로 사용
-> 로짓함수는 설명변수의 선형결합으로 표현
-> 로짓함수의 값은 종속변수에 대한 성공확률로 역산될 수 있으며, 따라서 이는 분류 문제에 적용 가능

HI,HYEN

Today I Learn

이전 포스트