- 최소값(minimum)에 닿을 때까지 J(세타) (== 비용함수)가 작아지는 방향으로 파라미터를 계속해서 바꿔나가는 것
🚨 주의: 반드시 global minimum point로 가는 것이 아니라 local min으로 빠질 수도 있음 => strating point 설정 중요!- 비선형 최소제곱이나 비볼록 최적화 문제에서는 해를 찾아갈 때, zigzagging 특성이 드러남

Gradient descent algorithm
- 두 개의 파라미터(세타1, 세타2)를 업데이트함 (J(세타) = gradient = which way to go)
- 알파: 움직이는 rate = magnitude (how big a step to take)
알파가 너무 ↑ ~ 미니마에 도달하지 못함 (divergence)
알파가 너무 ↓ ~ 수렴하기까지 오랜 시간이 걸림
🚨 단, 세타 2개를 한꺼번에 업데이트하는 것이 중요함
- 평균 비용함수(average J) 비교
-> 1k 넘으면, SGD의 비용함수가 더 올라감 (BGD가 더 안정적)
- SGD가 미니마 찾는 과정에서 많은 noise를 발생시킴을 알 수 있음
- 기본 수식
ex. y(output)이 코스닥 주식 가격일 때, several input은 네이버/삼성/엘지 등의 주식 가격

모든 함수가 line, hyperplane(평면)이 아니지만!
=> 계수(coefficient)가 선형이면 여전히 선형 회귀 문제이다!

Q. intercept W0을 만드는 방법은?
A. z=1(z1)로 두고 w0를 곱하여 만들 수 있다!
- 비선형 함수의 예시
- input의 모든 함수를 사용할 수 있음
- 회귀 파라미터에 대한 솔루션은 동일하게 유지됨
![]()
![]()
- 선형 회귀의 basis function(기저함수) notation : ϕ (파이)
- ϕ : 다변수 회귀일 경우 xj 혹은 비선형 기저함수일 수도 있음
- ϕ=1이면, 절편(intercept)의 항임