Basic Derivative


Data Preprocess & EDA


1. 미분( Derivative )

Q . 미분이란?
A . 작을 미, 나눌 분. 작게 나누는 것이며, 보통 기울기를 의미합니다.

Q . 미분과 Data Science와의 관계?
A . 미분을 model이 사용하여 cost function의 최소값을 찾습니다.

  • 우선 주어진 데이터 X를 넣었을 떄 모델이 예측하는 예측값과 실제값 간의 차이( Error, ε\varepsilon )를 계산합니다.
    다음으로, 여러 모델 중 Error( 모델에서 예측하는 예측값과 실제값 (y)의 차이 )가 가장 작은 모델을 선택합니다.
    이 방법으로, 가장 좋은 모델을 선택 할 수 있습니다.

2. 편미분( Partial Derivative )

Q . 편미분이란?
A . 1개의 변수에 대해서만 미분하고 다른 하나는 상수 취급하는 미분

3. Chain Rule( 합성함수 )

Q . Chain Rule이란?
A . 함수의 함수를 미분하기 위해 사용하는 방식이며, 이를 합성함수라고 부릅니다.

  • Chain Rule은 Backward Propagation을 이해하기 위해 중요한 개념입니다. Backward Propagation은 DL에서
  • 합성함수 공식

F(x)=f(g(x))F(x) = f(g(x))
F(x)F'(x) \rightarrow f((g(x))g(x)f'((g(x)) \cdot g'(x)

4. 경사하강법( Gradient Descent )

Q . 경사하강법이란?
A . 임의의 a, b를 선택한 후 ( random initialization )에 기울기( gradient )를 계산해서 기울기 값이 작아지는 방향으로 진행합니다.
Gradient는 항상 손실 함수값이 가장 크게 증가하는 방향으로 진행합니다.
따라서, 경사하강법 알고리즘은 기울기의 반대 방향으로 이동합니다.
이러한 과정들을 반복하면서 경사가 0에 수렴할 때까지 찾는 방법이 Gradient descent 방법입니다.

an+1=anηf(an)a_{n+1} = a_n - \eta ∇ f(a_n)
bn+1=bnηf(bn)b_{n+1} = b_n - \eta ∇ f(b_n)

반복적으로 파라미터 a,b를 업데이트하면서 gradient(f∇ f)가 0이 될 때까지 이동을 합니다.
이 때 중요한게 바로 학습률 (learning rate, η\eta)입니다.
학습률이 너무 낮게 되면 알고리즘이 수렴하기 위해서 반복을 많이 해야됩니다.
이는 수렴까지 걸리는 시간이 늦어지게 됩니다.
학습률이 너무 크면 오히려 극소값을 지나쳐 버려서 알고리즘이 수렴을 못하고 계산을 오랜시간 반복하게 됩니다.
따라서, 학습률을 정할 때는 신중하게 정해야합니다.



👉 과정 한눈에 보기

profile
기록하지 않으면 기록되지 않는다.

0개의 댓글