[Ch_02] 5. 미분과 편미분

dandan·2025년 11월 2일
post-thumbnail

미분의 기본

1. 미분의 정의

도함수는 어떤 함수 안에 포함된 값 각각이 0에 가까워지는 극한값(미분계수)를 구하는 함수를 말한다. 아래는 y=f(x)y=f(x)에 대한 도함수 f(x)f'(x)의 정의다.


f(x)=limΔx0f(x+Δx)f(x)Δxf'(x) = \lim_{\Delta x \to 0} \frac{f(x+\Delta x) - f(x)}{\Delta x}

Δx\Delta x는 변화량을 나타낸다.


아래 2가지 예시를 통해 직접 도함수를 구해보자.
  1. f(x)=5x+1f(x)=5x+1

f(x)=limΔx05(x+Δx)+1(5x+1)Δxf'(x) = \lim_{\Delta x \to 0} \frac{5(x+\Delta x)+1 - (5x+1)}{\Delta x}
=limΔx05ΔxΔx=limΔx05=5= \lim_{\Delta x \to 0} \frac{5\Delta x}{\Delta x}=\lim_{\Delta x \to 0}5=5

  1. f(x)=x2xf(x)=x^2-x

f(x)=limΔx0(x+Δx)2(x+Δx)(x2x)Δxf'(x)=\lim_{\Delta x \to 0}\frac{(x+\Delta x)^2-(x+\Delta x)-(x^2-x)}{\Delta x}
=limΔx0x2+2xΔx+(Δx)2xΔxx2+xΔx=\lim_{\Delta x \to 0}\frac{x^2+2x\Delta x+(\Delta x)^2 - x - \Delta x - x^2 + x}{\Delta x}
=limΔx02xΔx+(Δx)2ΔxΔx=limΔx0(2x+Δx1)=2x1=\lim_{\Delta x \to 0}\frac{2x\Delta x+(\Delta x)^2-\Delta x}{\Delta x} =\lim_{\Delta x \to 0}(2x+\Delta x-1)=2x-1

도함수를 구한다는 것은 함수를 미분한다는 것과 같은 말이다. 또한 1번과 2번처럼 값을 계산할 수 있다면 미분 가능하다고 한다.

또한 f(x)f(x)를 그래프로 그렸을 때 도함수 f(x)f'(x)접선의 기울기를 표현한다.


신경망 도함수 계산

신경망에서 도함수를 계산할 때는 아래 공식을 사용한다.

(c)=0(x)=1(x2)=2x(ex)=ex(ex)=ex(c)'=0 \qquad (x)'=1 \qquad (x^2)'=2x \qquad (e^{x})'=e^x \qquad (e^{-x})'=-e^{-x}



2. 미분 기호

지금까지 도함수를 극한 개념으로 정의했지만 분수로도 정의할 수 있다.

f(x)=dydxf'(x)=\frac{dy}{dx}

아래 식은 두 점을 연결한 직선의 기울기를 나타낸다.

ΔyΔx\frac{\Delta y}{\Delta x}

이는 함수의 평균 변화율을 의미한다. 이 변화량 ΔxΔx를 0으로 보내면,

limΔx0ΔyΔx\lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x}

이를 계산한 값이 순간 변화율, 즉 도함수이다.



3. 미분의 성질

미분의 선형성

미분의 선형성은 오차역전파법의 기반이 되는 개념이다. (선형성은 여기에서 확인) 아래의 두 개의 공식을 기억하자.

  1. 함수 합의 미분은 각 함수를 미분한 합과 같다.

    [f(x)+g(x)]=f(x)+g(x)[f(x)+g(x)]'=f'(x)+g'(x)
  2. 상수를 곱한 함수의 미분은 미분한 함수에 상수를 곱한 것과 같다.

    [cf(x)]=cf(x)[cf(x)]'=cf'(x)

이 공식을 사용하여 함수를 미분해보자.

  1. f(x)=(2x)2f(x)=(2-x)^2

f(x)=(44x+x2)=4(4x)+(x2)=4+2xf(x)'=(4-4x+x^2)'=4'-(4x)'+(x^2)'=-4+2x

  1. f(x)=1+exf(x)=1+e^{-x}

f(x)=(1+ex)=1+(ex)=exf(x)'=(1+e^{-x})'=1'+(e^{-x})'=-e^{-x}
  • 다음 장 연쇄법칙 에서 (ex)=ex(e^{-x})'=-e^{-x}을 증명해본다.



4. 분수 함수 미분

(1f(x))=f(x)[f(x)]2\left( \frac{1}{f(x)} \right)' = -\,\frac{f'(x)}{[f(x)]^{2}}

위의 공식을 활용하면,

(f(x)g(x))=(f(x)1g(x))\left(\frac{f(x)}{g(x)} \right)'= \left(f(x)\cdot\frac{1}{g(x)} \right)'
=f(x)g(x)f(x)g(x)[g(x)]2= \frac{f'(x)g(x) - f(x)g'(x)}{[\,g(x)\,]^2}

시그모이드 함수 미분

활성화 함수인 시그모이드 함수는 다음과 같다.

σ(x)=11+ex\sigma(x)=\frac{1}{1+e^{-x}}

이후 공부할 경사하강법에서 시그모이드 함수를 미분한다. 그때 활용할 것이 시그모이드 함수의 도함수를 구하는 간단한 식이다.

σ(x)=σ(x)(1σ(x))\sigma'(x)=\sigma(x)(1-\sigma(x))

이 식이 성립하는 과정은 분수의 미분 공식을 활용하여 아래와 같이 계산할 수 있다.

σ(x)=(1+ex)(1+ex)2=ex(1+ex)2\sigma'(x)=-\frac{(1+e^{-x})'}{(1+e^{-x})^2}=\frac{e^{-x}}{(1+e^{-x})^2}
=1+ex1(1+ex)2=11+ex1(1+ex)2=\frac{1+e^{-x}-1}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}-\frac{1}{(1+e^{-x})^2}
=σ(x)σ(x)2=σ(x)(1σ(x))=\sigma(x)-\sigma(x)^2=\sigma(x)(1-\sigma(x))



4. 최솟값의 필요조건

함수 f(x)f(x)x=ax=a에서 최솟값을 가지면 f(a)=0f'(a)=0이다. 즉, f(a)=0f'(a)=0f(x)f(x)x=ax=a에서 최솟값이 되기 위한 필요조건이다.

중요한 것은 f(a)=0f'(a)=0 이라고 해서 항상 최솟값인 것은 아니라는 것이다. 아래 그림을 통해 이를 더 직관적으로 이해할 수 있다.



편미분의 기본

지금까지 미분에서는 독립변수가 하나인 함수를 다뤘다. 그러나 신경망에서는 다변수 함수를 다룬다. 독립변수와 종속변수 여기에서 언급한 독립변수가 2개 이상인 경우를 다변수 함수라고 한다.

변수 xx를 독립변수로 하는 함수를 f(x)f(x)로 했다. 변수 x1,x2,...,xnx_1, x_2, ... ,x_n을 독립변수로 하는 다변수 함수는 f(x1,x2,...,xn)f(x_1, x_2, ... ,x_n)로 표현하도록 한다.


1. 편미분

다변수 함수를 미분하려면 어떤 변수를 미분할지 명시해야 한다. 이처럼 특정 변수에 대해 미분하는 것을 편미분(partial derivative)이라고 한다. 편미분 기호는 x\partial x를 사용한다.

변수 x,yx, y에 대한 함수 z=f(x,y)z=f(x,y) 예로 편미분을 해보자. xx에 관한 편미분은 변수 xx를 미분하고 yy를 상수 취급하는 것이고, 반대로 yy에 관한 편미분yy를 미분하고 xx를 상수 취급한다.

xx에 관한 편미분

zx=f(x,y)x=limΔx0f(x+Δx,y)f(x,y)Δx\frac{\partial z}{\partial x} = \frac{\partial f(x,y)}{\partial x}= \lim_{\Delta x \to 0} \frac{f(x+\Delta x,\,y) - f(x,\,y)}{\Delta x}

yy에 관한 편미분

zy=f(x,y)y=limΔy0f(x,y+Δy)f(x,y)Δy\frac{\partial z}{\partial y} = \frac{\partial f(x,y)}{\partial y} = \lim_{\Delta y \to 0} \frac{f(x,\,y+\Delta y) - f(x,\,y)}{\Delta y}

뉴런의 선형결합 z=wx+bz=wx+b 에 대해 각 독립변수를 편미분할 수 있다.

zx=wzw=xzb=1\frac{\partial z}{\partial x} = w \qquad \frac{\partial z}{\partial w} = x \qquad \frac{\partial z}{\partial b} = 1



2. 다변수 함수 최솟값의 필요조건

앞서 일변수 함수 f(x)에 대해 최솟값의 필요조건은 도함수가 0이 되는 것이었다. 다변수 함수도 마찬가지다.

2개의 변수가 있는 z=f(x,y)z=f(x,y) 함수가 최솟값이 되는 필요조건은 다음과 같다.

fx=0fy=0\frac{\partial f}{\partial x} = 0 \qquad \frac{\partial f}{\partial y} = 0

z=x2+y2z=x^2+y^2의 최솟값의 필요조건을 구해보자.

x,yx, y에 관해 각각 편미분하면,

zx=2xzy=2y\frac{\partial z}{\partial x} = 2x \qquad \frac{\partial z}{\partial y} = 2y

x=0,y=0x=0, y=0 은 함수가 최솟값을 갖기 위한 필요조건이다. 또한 z=x2+y20z=x^2 +y^2 ≥0 이므로 z=0z=0 이 최솟값이 되며, 이 값은 (0,0)(0,0) 에서만 성립한다. 따라서 x=0,y=0x=0, y=0은 함수가 최솟값을 갖는 필요충분조건이다.

그래프에서 이를 확인할 수 있다.





Lagrange multiplier method

라그랑주 승수법(Lagrange multiplier method)이란 제약이 있는 상태에서의 극값(최댓값·최솟값)을 찾는 방법이다. 다변수 함수 f(x1,x2,,xn)f(x_1,x_2,…,x_n)에 대해, 제약식 g(x1,x2,,xn)=kg(x_1,x_2,…,x_n)=k를 만족하는 점들 중에서 f를 최대, 최소로 만드는 점을 구하고 싶을 때 사용한다.

우선 등산 경로 예시를 통해 라그랑주 승수의 상황을 이해해보도록 하자. 예시에는 해당 영상을 참고했다.


등산 경로

이변수함수 f(x,y)=4x22y2f(x,y)=4-x^2-2y^2산의 높이로 보고, 등산 경로g(x,y)=2(x1)210y+6=0g(x,y)=2(x-1)^2-10y+6=0 로 둔다. (ff의 level curve는 색상이 달라지는 지점으로 표현했다.)



아래처럼 ffgg가 만나는 부분을 경로로 볼 수 있다. 이 경로를 따라 올라갔을 때 최고 높이는 어떻게 구할 수 있을까? level curve는 타원의 중심으로 갈수록 높은 곳이라는 성질을 갖는다. 따라서 가장 안쪽의 level curve과 경로가 접하는 부분이 경로에서의 최고 높이로 볼 수 있다.




접점에서는 f∇fg∇g비례(평행)해야 한다.


정의와 조건

등산 경로 예시를 통해 대략적인 상황은 이해되었을 것이다. 그렇다면 이 접선은 어떻게 구하는가?

삼변수함수 S:g(x,y,z)=kS:g(x,y,z)=kSS 위의 점 P(x0,y0,z0)P(x_0, y_0, z_0)를 지나는 임의의 curve CC가 있다. 점 PP에서의 접평면에서 수직이 되는 벡터 F(P)∇F(P)가 있다.

  • f(x,y,z)f(x,y,z)PP에서 극값을 가진다.
  • CC : r(t)=x(t),y(t),z(t)\vec r(t)=⟨x(t),y(t),z(t)⟩
  • PP : r(t0)=x0,y0,z0\vec r(t_0)=⟨x_0, y_0, z_0⟩

x(t),y(t),z(t)x(t),y(t),z(t)을 함수 ff에 대입해보면 tt에 대한 일변수함수 h(t):=f(x(t),y(t),z(t))h(t):=f(⟨x(t),y(t),z(t))가 된다. 이는 곡선 CC 위에서의 함수 ff의 값이다.

ffPP에서 극값을 가지므로 h(t)h(t)t0t_0에서 극값을 갖는다.

0=h(t0)0=h'(t_0)\\

(작성중)


정리

이제 다시 정리해보면, g(x,y)=kg(x,y)=k와 접하는 f(x,y)=cf(x,y)=c 에서 최소(최대) cc를 찾아야 한다. f∇fg∇g 가 평행하면 된다.

(a) 다음 식을 동시에 만족하는 x,y,z,λx,y,z,λ (라그랑주 승수 λλ)를 모두 찾는다.

f(x,y,z)=λg(x,y,z)g(x,y,z)=k∇f(x,y,z)=λ∇g(x,y,z)\\ g(x,y,z)=k

(b) 후보 점에서 f 값을 비교한다. (a)에서 구한 모든 점 (x,y,z)(x,y,z)에 대해 f(x,y,z)f(x,y,z) 값을 계산하여 그 중 가장 큰 값은 최대값, 가장 작은 값은 최소값이다.

(작성중)




Reference



profile
That which does not kill me makes me stronger.

1개의 댓글

comment-user-thumbnail
2025년 11월 8일

손단하씨, 2026년 필즈상 수상을 축하합니다.

답글 달기