loss function을 w로 편미분한 값에 적절한 값을 곱하여 현재 w 값에서 빼준다
b도 마찬가지로 편미분 한뒤 적절한 값을 곱하여 현재 b 값에서 빼준다. (η : 에타)
위와 같이 w와 b를 계속해서 업데이트 하는것이 gradient descent이다.
이때 적절한 step size(에타)를 설정하는 것이 가장 중요하다