일반화선형모형(Generalized Linear Model, GLM)이란?

yoonene·2022년 8월 19일
0

면접대비

목록 보기
10/17

Q : 일반화선형모형(Generalized Linear Model, GLM)이란?


일반선형회귀의 경우 오차의 선형성, 독립성, 등분산성, 정규성의 가정을 갖고 있다. 하지만 종속변수(y)가 연속형이 아닐 경우 정규성 가정이 성립되지 않는다. 종속변수가 이산형인 경우 등 정규성이 성립하지 않을 때 일반화선형모형을 사용한다.

일반화선형모형은 종속변수의 기댓값에 링크함수로 변화시킨 g(μ)g(\mu)와 선형결합에 역링크함수로 변화시킨 h(η)h(\eta)를 각각 독립변수와 회귀계수의 선형결합으로 모형화하여 수립된다.
대표적인 일반화선형모형으로는 로지스틱 회귀(Logistic Regression)과 Cox의 비례위험회귀(Cox's Proportional Hazard Regression)가 있다.

μi=E[yi]\mu_i = E[y_i] = 타겟의 평균 → (0,1)

η=g(x1,...,xk)=β0+β1x1+...+βkxk\eta = g(x_1,...,x_k) = \beta_0 + \beta_1x_1 + ...+\beta_kx_k = 독립변수들의 선형결합 = 선형예측자 → 무한

이산형 종속변수를 일반화선형모형을 통해 판별하는 과정은 아래와 같다.

역링크함수

  1. μi=h(ηi)=eη/(1+eη)\mu_i = h(\eta_i) = e^\eta/(1+e^\eta)
  2. 최대가능도추정량(MLE) ⇒ β^=argmax(β)\hat\beta = argmax(\beta)
  3. μ^=eη/(1+eη)\hat\mu = e^\eta/(1+e^\eta)
  4. IF μ^i>μ0\hat\mu_i > \mu_0 THEN y^i=1\hat y_i = 1
    ELSE y^i=0\hat y_i = 0
  5. ROC 분석을 통해 컷오프를 결정, 오분류표 작성 (잔차표)
  • 로지스틱 회귀(Logistic Regression)

로지스틱 회귀는 종속변수가 이분형(ex. 실패/성공, 0/1, 생존/사망…)일 때의 일반화선형회귀 중 하나로서,

로그오즈(로짓) log(μ/(1μ))log(\mu/(1-\mu))에 대해 독립변수와 회귀계수의 선형결합으로 모형화.

  • Cox의 비례위험회귀 Cox의 비례위험회귀(Cox's Proportional Hazard Regression) Cox의 비례위험회귀는 시간에 따라 hazard ratio가 일정하다는 가정을 갖은 생존분석 중 가장 많이 쓰이는 방법론으로서, 어떤 사건(event)이 일어날 때까지의 시간을 대상으로 분석하는 통계방법.

면접 질문 출처
https://github.com/zzsza/Datascience-Interview-Questions

profile
NLP Researcher / Information Retrieval / Search

0개의 댓글