GD (Gradient Descent)
Gradient vector: 함숫값이 증가하고 감소하는 방향을 알려줌
우리는 cost 함수를 가장 빠르게 감소시킬 수 있는 방향에 관심이 있음
Vectorize
Computation graph
z=w_1x_11+w_2x_12+w_3x_13+b
a=sigmoid(z)
forward propagation : a를 구하고 loss까지 구하는 과정
backward propagation : 반대방향으로 loss의 gradient를 구하는 과정
Cross Entropy
logistic regression의 loss로 Cross Entropy를 사용
L(a,y)=-(yloga+(1-y)log(1-a))
Cross function
J(w,b)= ∑L(a_i,y_i)/m
Loss를 줄이기 위해 parameter인 w1을 어떻게 바꿔야 할까?
=> L을 w1에 대해 미분해서 gradient descent를 해준다
=> dL/dw1 = dL/da x da/dz x dz/dw1
Neural Network
hidden layer가 1개 있는 신경망 모델
위의 신경망에서 hidden layer까지를 행렬로 표현 :
=> WX의 shape는 (3,m)
위에서 구한 z값에 sigmoid 함수를 취해(=activation) a값으로 변환한다.