[내가 헷갈려서 하는 정리: 평가모델]

HI,HYEN·2022년 11월 21일
0

KMOOC 실습으로 배우는 머신러닝 강의 정리 내용


1 -1

평가모델(오차 -> 작을수록 좋음)


1 -2

  • Linear Regression
    1. 기본식 y = f(x)(=> a + bx) (베타 : 회귀계수)
    2. Loss 함수 정의(= MSE)
    3. 최적화(Loss function(오차)를 가장 최소화로 해주는 베타를 찾음)
    -> 미분해서 0이 되는 값이 최솟값

    Machine Learning => optimization(최적화)


1 -3

  • Classification task
    I(Indicator function)
    : y랑 y^이 틀리면 1, 맞으면 0.
    -> 틀린 개수가 많으면 에러가 높을 거고 틀린 개수가 적으면 0.

2 -1

  • Dataset : 정의된 구조로 모아져 있는 데이터 집합
  • Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
  • Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성
    -> 숫자형, 범주형, 시간, 텍스트, 이진형
  • Lable(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수

  • Data 준비 과정
  1. Dataset Exploration (=> EDA)
    • 변수 별 기본적인 특성들을 탐색하고 분포적인 특징 이해
  2. Missing Value
    • 결측치로 남아 있는 부분 보정 필요
  3. Data Types and Conversion
    • 여러 종류의 데이터 타입(숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용
  4. Normalization
    • 변수들의 단위가 크게 다른 경우 모델 학습에 영향을 주는 경우가 있어 정규화 함.
  5. Outliers
    • 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함
  6. Feature Selection
    • 변수중에서 모델링을 할 때 중요한 변수가 있고 그렇지 않은 변수가 있어 선택이 필요한 경우가 있음.
  7. Data Sampling
    • 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 때 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함.
  • Modeling 검증
    -> Underfit
    -> Optimal => Validation error가 가장 낮을 때
    -> Overfit

3 -1

머신러닝 분류 모델링

  • Supervised Learning : 학습데이터로부터 함수 F를 찾는 방법론
    • Classification (종속변수 y가 범주형)
    • Regression (종속변수 y가 연속형)

3 -2

KNN (K-Nearest Neighbors)

: 두 관측치의 거리가 가까우면 y도 비슷

aka. Lazy Learning Algorithm
  • K : KNN의 하이퍼파라미터
  • K가 클수록 Underfitting/ K가 작을수록 Overfitting
  • Validation dataset을 이용해 최적의 K 결정

3 -3

Logistic Regression

  • 다중선형회귀분석 (ex. Linear Regression -> y:연속형)
    목적 - 수치형 설명 변수 x와 종속변수 y간의 관계를 선형으로 가정하고,
    이를 가장 잘 표현할 수 있는 회귀 계수를 추정
    필요성 - 범주형 반응변수
    -> 이진변수 (반응변수 값 0 or 1)
    💡질문💡 확률값을 선형 회귀분석의 종속변수로 사용하는 것이 타당한가?
    📖답변📖 선형회귀분석의 우변은 범위에 대한 제한이 없기 때문에 우변과 좌변의 범위가 다른 문제점이 발생
    -> 멀티변수 (반응변수 값 1 or 2 or 3 이상)
    => 일반 회귀분석과는 다른 방식으로 접근

✔️ 로지스틱 회귀분석의 목적
-> 이진형(0/1)의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하는 것

✔️ 왜 회귀식으로 표현해야 하나?
-> 회귀식으로 표현될 경우 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력 등을 알아볼 수 있음.

✔️ 로지스틱 회귀분석의 특징
-> 이진형 종속변수 y를 그대로 사용하는 것이 아니라 y에 대한 로짓함수(logit function)를 회귀식의 종속변수로 사용
-> 로짓함수는 설명변수의 선형결합으로 표현
-> 로짓함수의 값은 종속변수에 대한 성공확률로 역산될 수 있으며, 따라서 이는 분류 문제에 적용 가능

profile
Today I Learn

0개의 댓글