[ISLR] Chap 7. Moving Beyond Linearity

목표: 선형성 가정을 하지 않고도 해석이 가능한 모델 만들기

Polynomial regression: 기존의 predictor의 power를 높이면서 선형 모델 확장
- cubic regression: X, X^2, X^3
Step function: 변수의 범위를 K개로 분리
regression spline: 변수의 범위를 K개로 분리 + 그 범위 안에서 polynomial function 도입
- region boundary에서 이 함수들이 smooth하게 이어질 수 있도록 함
smoothing spline: regression spline과 비슷. RSS 값을 최소화하는 기준으로
local regression: spline과 비슷하지만 region이 겹치는 것을 허용
generalized additive model: multiple predictors

7.1 Polynomial Regression

εi: 오차
x, x^2, x^3...를 가지는 선형 회귀식
보통 d 값은 3, 4보다 크지 않음
Age와 Wage 간의 관계 확인을 위해서는 각각의 추정 계수 보다는 전체 적합된 함수에 초점
좌측 그래프를 보면 high earners, low earners로 나뉘어짐
- logistic regression으로 binary group 형성 가능
우측 그래프는 high earners에 대한 regression model
- 전체 데이터 3000개 중 79개 뿐이라서 높은 분산과 넓은 confidence interval을 가짐

b1(x), b2(x),...에 대한 standard linear model
- linear regression에 사용되는 모든 추정 tool(coefficient estimate, standard error, F-statistics) 사용 가능
polynomial function: bk(x) = x^k
piecewise constant function: bk(x) = I(ck≤x<ck+1)

X의 region마다 low-degree polynomials 적합
knots: coefficient가 변화하는 point를 knots
- knots가 많아질수록 flexible한 모델
- K개의 knots -> K+1개의 cubic polynomials
ex.
- c: knots
- 각각의 polynomial funtion은 least quares를 사용하여 fit

piecewise cubic: X = 50 에서 연속이 아님
- df: 8
continuous piecewise cubic: X = 50 에서 연속
cubic spline: X = 50 에서 연속, first derivative 연속, second derivative 연속
- df: 5(=8-3(constraints))
- 보통 4+K개의 df를 가짐(K=knots의 개수)
  - 두 점을 연결하는 선: 3차 다항식 -> df=4
  - knots 하나당 df=1 추가
linear spline: X = 50 에서 연속

: 끝의 boundary에서는 함수가 linear하도록 boundary constraints가 추가된 spline

regression spline이 더 좋은 결과
- degree는 고정된 상태에서 knots의 개수만 증가시켜 flexibility 증가 -> 더 stable

smoothing spline: 위 식을 최소화하는 함수 g
loss+penality 형태
- loss function: encourages g to fit data well
- penalty function: encourages g to be smooth
  - second derivative function(-> measures roughness)의 integral 형태: g가 smooth 하면 값이 작음
λ: tuning parameter
- λ=0: 과적합 가능성 높음
- λ=무한대: linear least squares line
- 편향-분산 트레이드오프 조정
위 식을 최소화하는 함수 g(x)는 knots를 x1~xn에서 가지는 natural cubic spline
- shrunken version of natural cubic spline
- λ 값이 shrinkage 값을 조정

: target point에서 이웃 데이터만을 가지고 fit

Step 1: x0와 가까운 s = k/n만큼의 학습데이터를 선택

Step 2: Ki0 = K(xi, x0) 을 각 point에 지정

Step 3: wls 학습

Step 4: fitted value