Q : 일반화선형모형(Generalized Linear Model, GLM)이란?
일반선형회귀의 경우 오차의 선형성, 독립성, 등분산성, 정규성의 가정을 갖고 있다. 하지만 종속변수(y)가 연속형이 아닐 경우 정규성 가정이 성립되지 않는다. 종속변수가 이산형인 경우 등 정규성이 성립하지 않을 때 일반화선형모형을 사용한다.
일반화선형모형은 종속변수의 기댓값에 링크함수로 변화시킨 와 선형결합에 역링크함수로 변화시킨 를 각각 독립변수와 회귀계수의 선형결합으로 모형화하여 수립된다.
대표적인 일반화선형모형으로는 로지스틱 회귀(Logistic Regression)과 Cox의 비례위험회귀(Cox's Proportional Hazard Regression)가 있다.
= 타겟의 평균 → (0,1)
= 독립변수들의 선형결합 = 선형예측자 → 무한
이산형 종속변수를 일반화선형모형을 통해 판별하는 과정은 아래와 같다.
역링크함수
- 최대가능도추정량(MLE) ⇒
- IF THEN
ELSE- ROC 분석을 통해 컷오프를 결정, 오분류표 작성 (잔차표)
로지스틱 회귀는 종속변수가 이분형(ex. 실패/성공, 0/1, 생존/사망…)일 때의 일반화선형회귀 중 하나로서,
로그오즈(로짓) 에 대해 독립변수와 회귀계수의 선형결합으로 모형화.
면접 질문 출처
https://github.com/zzsza/Datascience-Interview-Questions