분류

는는·2022년 11월 22일
0

python

목록 보기
11/19

분류의 가장 대표적인 모형은 KNN과 Logistic Regression 입니다.

Classification과 Regression를 구분하는 기준은 무엇인가?
종속변수,출력변수 Y가 범주형이면 classification 연속성이면 regression 입니다.

Bias- Variance Tradeoff

모든 모델은 복잡도를 통제할 수 있는 Hyperparaketer를 갖고 있고, 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 Hyperparaketer를 결정해야 합니다.

모형의 오차 = Bias + Variance

미세한 패턴, 미세한 변동까지 완벽하게 다 학습시키면, 변동성이 너무 크다.
데이터들이 조금씩만 구성이 달라지게 되더라도, 변동성이 커지게 되고, 오차의 증가, 일반화 오차의 증가로 나타나게 됩니다.

Classification 예시

범주형 종속 변수 : Class, Label
분류 문제의 예시 ; 제품이 불량인지 아닌지 , 고객이 이탈고객인지 잔류 고객인지 분류

K- Nearest Neighbors(Lazy Learning Algorithm)

"두 관측치의 거리가 가까우면 Y도 비슷하다"
K 개의 주변 관측치의 Class에 대한 majority voting
Distance - based model, instance - based learning

거리

두관측치 사이의 거리를 측정할 수 있는 방법입니다. 범주형 변수는 Dummy Variable으로 변환하여 거리 계산합니다.

Logistic Regression

다중 선형 회귀 분석 Linear Regression -> Y : 연속형

목적: 수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수를 추정합니다.

Logistic Regression 필요성

범주형 반응변수
이진변수 (e.g. , 반응변수 값 - 0 or 1)
멀티변수 (e.g. , 반응변수 값 1 or 2 or 3 이상)
일반 회귀 분석과는 다른 방식으로 접근해야 될 필요성이 있다.

종속 변수의 속성이 이진 변수일 때 (0 or 1)
질문 : 확률값을 선형 회귀분석의 종속변수로 사용하는 것이 타당한가?
답변 : 선형회귀분석의 우변은 범위에 대한 제한이 없기 때문에 우변과 좌변의 범위가 다른 문제점이 발생합니다!

로지스틱 회귀분석의 목적
이진형(0/1)의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하는 것입니다. 회귀식으로 표현될 경우 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력등을 알아 볼수 있습니다.

이진형 종속변수를 그대로 사용하는 것이 아니라 로짓함수를 회귀식의 종속변수로 사용합니다! 로짓함수는 설명변수의 선형결합으로 포현됩니다. 로짓함수의 값은 종속 변수에 대한 성공확률로 역산될 수 있으며, 따라서 이는 분류 문제에 적용이 가능합니다.

0개의 댓글