GAM(Generalized Additive Model)과 ElasticNet

행동하는 개발자·2023년 9월 25일

TimeSeries

목록 보기
2/8

GAM

기본적인 선형회귀 모델은 입력 변수와 출력 변수 간의 관계가 선형이라는 강한 가정을 필요로 한다. 반면 GAM은 이러한 선형성 가정을 완화하고 각각의 독립 변수와 종속 변수 사이의 관계를 부드러운 곡선으로 모델링하며, 이를 통해 더욱 복잡한 데이터 패턴을 포착하는 데 유용하다.

기본 형태

f(x) = α + s1(x1) + s2(x2) + ... + sp(xp)

여기서 f(x)는 예측하고자 하는 종속 변수이고, x1, x2, ..., xp는 독립 변수들입니다. α는 상수 항목이고, s1, s2, ..., sp는 각각의 독립 변수에 대한 부드러운 함수이다.

GAM의 강점 중 하나는 해석력이다. 각 독립 변수의 영향을 직접적으로 그림으로 그려볼 수 있어서, 이 변수가 종속 변수에 미치는 영향을 시각적으로 이해하는 데 도움이 된다. 또한, 독립 변수간의 상호작용 항을 모델에 추가할 수도 있다.

그러나 GAM은 모델의 복잡성이 증가함에 따라 과적합의 위험이 있으므로, 데이터의 복잡성과 모델의 복잡성 사이의 균형을 잘 유지해야 한다.

ElasticNet

엘라스틱넷은 리지회귀와 라쏘회귀의 특징을 모두 가진 회귀분석 방법이다. 회귀 모델에 패널티 항을 추가하여 과적합을 방지하고 변수 선택을 돕는 방법이다.

기본 형태

min( ||y - Xβ||² + λ₁||β||₁ + λ₂||β||² )

  • y는 종속 변수(타깃 변수)
  • X는 독립 변수(입력 특성)
  • β는 회귀 계수
  • ||.||₁과 ||.||²는 각각 L1 norm과 L2 norm
  • λ₁과 λ₂는 패널티 항의 가중치를 조절하는 하이퍼파라미터

Ridge 회귀는 계수의 크기를 제한하여 모델의 복잡성을 줄이는 데 도움이 되는 반명, Lasso 회귀는 덜 중요한 특성의 계수를 0으로 만들어 변수 선택에 도움이 된다.

만약 예를 들자면, 10년 동안의 기후 데이터를 바탕으로 향후 1년 동안의 평균기온을 예측하려고 할 때에, 각 입력 특성의 계수를 학습하면서 불필요한 특성(바람의 세기) 같은 것들을 계수를 0으로 만들어 제거하고, 계수의 크기를 제한(기온)하여 과적합을 방지시킬 수 있다.

profile
끊임없이 뭔가를 남기는 사람

0개의 댓글