[Ch_02] 5. 미분과 편미분

dandan·2025년 11월 2일

AI math

처음 배우는 딥러닝 수학

목록 보기

6/8

미분의 기본

1. 미분의 정의

도함수는 어떤 함수 안에 포함된 값 각각이 0에 가까워지는 극한값(미분계수)를 구하는 함수를 말한다. 아래는 $y=f(x)$ 에 대한 도함수 $f'(x)$ 의 정의다.

f'(x) = \lim_{\Delta x \to 0} \frac{f(x+\Delta x) - f(x)}{\Delta x}

$\Delta x$ 는 변화량을 나타낸다.

아래 2가지 예시를 통해 직접 도함수를 구해보자.

$f(x)=5x+1$

f'(x) = \lim_{\Delta x \to 0} \frac{5(x+\Delta x)+1 - (5x+1)}{\Delta x}

= \lim_{\Delta x \to 0} \frac{5\Delta x}{\Delta x}=\lim_{\Delta x \to 0}5=5

$f(x)=x^2-x$

f'(x)=\lim_{\Delta x \to 0}\frac{(x+\Delta x)^2-(x+\Delta x)-(x^2-x)}{\Delta x}

=\lim_{\Delta x \to 0}\frac{x^2+2x\Delta x+(\Delta x)^2 - x - \Delta x - x^2 + x}{\Delta x}

=\lim_{\Delta x \to 0}\frac{2x\Delta x+(\Delta x)^2-\Delta x}{\Delta x} =\lim_{\Delta x \to 0}(2x+\Delta x-1)=2x-1

도함수를 구한다는 것은 함수를 미분한다는 것과 같은 말이다. 또한 1번과 2번처럼 값을 계산할 수 있다면 미분 가능하다고 한다.

또한 $f(x)$ 를 그래프로 그렸을 때 도함수 $f'(x)$ 는 접선의 기울기를 표현한다.

신경망 도함수 계산

신경망에서 도함수를 계산할 때는 아래 공식을 사용한다.

(c)'=0 \qquad (x)'=1 \qquad (x^2)'=2x \qquad (e^{x})'=e^x \qquad (e^{-x})'=-e^{-x}

2. 미분 기호

지금까지 도함수를 극한 개념으로 정의했지만 분수로도 정의할 수 있다.

f'(x)=\frac{dy}{dx}

아래 식은 두 점을 연결한 직선의 기울기를 나타낸다.

\frac{\Delta y}{\Delta x}

이는 함수의 평균 변화율을 의미한다. 이 변화량 $Δx$ 를 0으로 보내면,

\lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x}

이를 계산한 값이 순간 변화율, 즉 도함수이다.

3. 미분의 성질

미분의 선형성

미분의 선형성은 오차역전파법의 기반이 되는 개념이다. (선형성은 여기에서 확인) 아래의 두 개의 공식을 기억하자.

함수 합의 미분은 각 함수를 미분한 합과 같다.
$[f(x)+g(x)]'=f'(x)+g'(x)$
상수를 곱한 함수의 미분은 미분한 함수에 상수를 곱한 것과 같다.
$[cf(x)]'=cf'(x)$

이 공식을 사용하여 함수를 미분해보자.

$f(x)=(2-x)^2$

f(x)'=(4-4x+x^2)'=4'-(4x)'+(x^2)'=-4+2x

$f(x)=1+e^{-x}$

f(x)'=(1+e^{-x})'=1'+(e^{-x})'=-e^{-x}

다음 장 연쇄법칙 에서 $(e^{-x})'=-e^{-x}$ 을 증명해본다.

4. 분수 함수 미분

\left( \frac{1}{f(x)} \right)' = -\,\frac{f'(x)}{[f(x)]^{2}}

위의 공식을 활용하면,

\left(\frac{f(x)}{g(x)} \right)'= \left(f(x)\cdot\frac{1}{g(x)} \right)'

= \frac{f'(x)g(x) - f(x)g'(x)}{[\,g(x)\,]^2}

시그모이드 함수 미분

활성화 함수인 시그모이드 함수는 다음과 같다.

\sigma(x)=\frac{1}{1+e^{-x}}

이후 공부할 경사하강법에서 시그모이드 함수를 미분한다. 그때 활용할 것이 시그모이드 함수의 도함수를 구하는 간단한 식이다.

\sigma'(x)=\sigma(x)(1-\sigma(x))

이 식이 성립하는 과정은 분수의 미분 공식을 활용하여 아래와 같이 계산할 수 있다.

\sigma'(x)=-\frac{(1+e^{-x})'}{(1+e^{-x})^2}=\frac{e^{-x}}{(1+e^{-x})^2}

=\frac{1+e^{-x}-1}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}-\frac{1}{(1+e^{-x})^2}

=\sigma(x)-\sigma(x)^2=\sigma(x)(1-\sigma(x))

4. 최솟값의 필요조건

함수 $f(x)$ 가 $x=a$ 에서 최솟값을 가지면 $f'(a)=0$ 이다. 즉, $f'(a)=0$ 은 $f(x)$ 가 $x=a$ 에서 최솟값이 되기 위한 필요조건이다.

중요한 것은 $f'(a)=0$ 이라고 해서 항상 최솟값인 것은 아니라는 것이다. 아래 그림을 통해 이를 더 직관적으로 이해할 수 있다.

편미분의 기본

지금까지 미분에서는 독립변수가 하나인 함수를 다뤘다. 그러나 신경망에서는 다변수 함수를 다룬다. 독립변수와 종속변수 여기에서 언급한 독립변수가 2개 이상인 경우를 다변수 함수라고 한다.

변수 $x$ 를 독립변수로 하는 함수를 $f(x)$ 로 했다. 변수 $x_1, x_2, ... ,x_n$ 을 독립변수로 하는 다변수 함수는 $f(x_1, x_2, ... ,x_n)$ 로 표현하도록 한다.

1. 편미분

다변수 함수를 미분하려면 어떤 변수를 미분할지 명시해야 한다. 이처럼 특정 변수에 대해 미분하는 것을 편미분(partial derivative)이라고 한다. 편미분 기호는 $\partial x$ 를 사용한다.

변수 $x, y$ 에 대한 함수 $z=f(x,y)$ 예로 편미분을 해보자. $x$ 에 관한 편미분은 변수 $x$ 를 미분하고 $y$ 를 상수 취급하는 것이고, 반대로 $y$ 에 관한 편미분은 $y$ 를 미분하고 $x$ 를 상수 취급한다.

$x$ 에 관한 편미분

\frac{\partial z}{\partial x} = \frac{\partial f(x,y)}{\partial x}= \lim_{\Delta x \to 0} \frac{f(x+\Delta x,\,y) - f(x,\,y)}{\Delta x}

$y$ 에 관한 편미분

\frac{\partial z}{\partial y} = \frac{\partial f(x,y)}{\partial y} = \lim_{\Delta y \to 0} \frac{f(x,\,y+\Delta y) - f(x,\,y)}{\Delta y}

뉴런의 선형결합 $z=wx+b$ 에 대해 각 독립변수를 편미분할 수 있다.

\frac{\partial z}{\partial x} = w \qquad \frac{\partial z}{\partial w} = x \qquad \frac{\partial z}{\partial b} = 1

2. 다변수 함수 최솟값의 필요조건

앞서 일변수 함수 f(x)에 대해 최솟값의 필요조건은 도함수가 0이 되는 것이었다. 다변수 함수도 마찬가지다.

2개의 변수가 있는 $z=f(x,y)$ 함수가 최솟값이 되는 필요조건은 다음과 같다.

\frac{\partial f}{\partial x} = 0 \qquad \frac{\partial f}{\partial y} = 0

$z=x^2+y^2$ 의 최솟값의 필요조건을 구해보자.

$x, y$ 에 관해 각각 편미분하면,

\frac{\partial z}{\partial x} = 2x \qquad \frac{\partial z}{\partial y} = 2y

$x=0, y=0$ 은 함수가 최솟값을 갖기 위한 필요조건이다. 또한 $z=x^2 +y^2 ≥0$ 이므로 $z=0$ 이 최솟값이 되며, 이 값은 $(0,0)$ 에서만 성립한다. 따라서 $x=0, y=0$ 은 함수가 최솟값을 갖는 필요충분조건이다.

그래프에서 이를 확인할 수 있다.

Lagrange multiplier method

라그랑주 승수법(Lagrange multiplier method)이란 제약이 있는 상태에서의 극값(최댓값·최솟값)을 찾는 방법이다. 다변수 함수 $f(x_1,x_2,…,x_n)$ 에 대해, 제약식 $g(x_1,x_2,…,x_n)=k$ 를 만족하는 점들 중에서 f를 최대, 최소로 만드는 점을 구하고 싶을 때 사용한다.

우선 등산 경로 예시를 통해 라그랑주 승수의 상황을 이해해보도록 하자. 예시에는 해당 영상을 참고했다.

등산 경로

이변수함수 $f(x,y)=4-x^2-2y^2$ 를 산의 높이로 보고, 등산 경로를 $g(x,y)=2(x-1)^2-10y+6=0$ 로 둔다. ( $f$ 의 level curve는 색상이 달라지는 지점으로 표현했다.)

아래처럼 $f$ 와 $g$ 가 만나는 부분을 경로로 볼 수 있다. 이 경로를 따라 올라갔을 때 최고 높이는 어떻게 구할 수 있을까? level curve는 타원의 중심으로 갈수록 높은 곳이라는 성질을 갖는다. 따라서 가장 안쪽의 level curve과 경로가 접하는 부분이 경로에서의 최고 높이로 볼 수 있다.