H(x) = Wx + b
(Loss function) -> 우리가 세운 가설과 실제 data가 얼마나 다른가 하는 것 => (H(x) - y)^2
m: 학습 데이터의 개수
Cost(W, b)의 가장 작은 값을 구하는 것이 linear regression의 학습
minimize cost(W, b)의 W와 b를 구하는 것이 학습의 목표이다.