[Calculus] Proof of the Chain Rule

문연수·2022년 5월 9일
0

Calculus

목록 보기
4/5
post-thumbnail

 필자가 보는 책(Man Sik Min · Hyeong Chul Jeong · Hyejung Lee, 『CALCULUS』, 한티미디어)에는 Chain Rule 의 증명이 소개되어 있지 않기에, Stewart 선생님의 Calculus 를 보고 그 내용을 정리하려 한다.

0. 주의

 필자는 수포자이며, 수학을 전공하지도 않았다. 필자가 공부한 내용을 잊지 않고 환기하기 위해 정리한 글이므로 잘못된, 혹은 더 나아가 틀린 설명이 존재할 수 있다.

 따라서 이하의 내용은 어느정도 걸러듣고, 틀린 내용에 대해선 가감없이 댓글 작성 부탁드립니다.

1. The Chain Rule

If f(u)f(u) is differentiable at the point u=g(x)u = g(x) and g(x)g(x) is differentiable at xx, then the composite function (fg)(x)=f(g(x))(f \circ g)(x) = f(g(x)) is differentiable at xx, and...

(fg)(x)=f(g(x))g(x)(f \cdot g)(x) = f'(g(x)) \bullet g'(x)

In Leibniz's notation, if y=f(u)y = f(u) and u=g(x)u = g(x), then

dydx=dydududx\cfrac{dy}{dx} = \cfrac{dy}{du} \cdot \cfrac{du}{dx}

where dy/dudy/du is evaluated u=g(x)u = g(x).

 필자가 읽고 있는 책에서는 다음과 같이 Chain Rule 을 소개하고 있다. 위 내용은 어느 정도 납득 가능한 수준의 내용이다. 왜냐하면 Leibniz 의 표기를 통해 dudu 의 변화에 따른 dydy, 그리고 dxdx 의 변화에 따른 dudu 는 곧 합성 함수의 변화율을 의미하기 때문이다.

uuxx 에 대해 두 배 빠르게 증가하고 yyuu 에 대해 세 배 빠르게 증가한다면 xx 에 대한 yy 의 변화는 6 배 빠르게 이뤄진다고 생각해볼 수 있다.

2. Proof of the chain rule (Incomplete)

Δu\Delta{u}Δx\Delta{x} 에 대한 uu 의 변화량이라고 한다면 아래와 같이 작성할 수 있다:

Δu=g(x+Δx)g(x)\Delta{u} = g(x + \Delta{x}) - g(x)

위와 마찬가지로 yy 의 변화량은 다음과 같이 쓸 수 있다:

Δy=f(u+Δu)f(u)\Delta{y} = f(u + \Delta{u}) - f(u)

이를 # 1. The Chain Rule 에 나온 Leibniz 표기법을 통해 작성하게 되면 이하와 같다:

dydx=limΔx0ΔyΔx=limΔx0ΔyΔuΔuΔx=limΔx0ΔyΔulimΔx0ΔuΔx\cfrac{dy}{dx}=\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{x}}} \newline \qquad\qquad = \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}} \centerdot \cfrac{\Delta{u}}{\Delta{x}}} \newline \qquad\qquad\qquad = \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} \centerdot \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{u}}{\Delta{x}}}

limΔx0ΔyΔu\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}}limΔx0ΔuΔx\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{u}}{\Delta{x}}} 는 모두 수렴하므로 위와 같이 limits law 에 따라 분리가 가능하다.

- The reasons that converge

  1. limΔx0ΔuΔx\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{u}}{\Delta{x}}} 는 이미 선행 조건으로 g(x)g(x)differentiable 하다고 했으므로 당연히 수렴. Pass

  2. limΔx0ΔyΔu\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} 에 대해서는 한번 생각을 해봐야 하는데...

    • y=f(u)y = f(u) 는 미분 가능(선행 조건)하다. 따라서 다음의 식은 수렴한다(극한값이 존재한다): limΔu0ΔyΔu\lim\limits_{\Delta{u} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}}
    • g(x)g(x) 가 미분 가능하므로 연속이고, 연속이 되기 위해선 limΔx0{g(x+Δx)g(x)}=0\lim\limits_{\Delta{x} \to 0}\{{g(x + \Delta{x}) - g(x)}\} = 0 가 성립해야 한다. (xx 인 순간의 극한값과 함수값이 동일해야 하므로 빼면 00 이 나와야 한다)
    • 그러므로 Δx0\Delta{x} \to 0 는 곧 Δu0\Delta{u} \to 0 를 의미한다.
    • 따라서 limΔx0ΔyΔu=limΔu0ΔyΔu\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} = \lim\limits_{\Delta{u} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} 이므로 수렴.

 이어서 Δx0\Delta{x} \to 0Δu0\Delta{u} \to 0 인것을 확인 했으므로 다시 아래와 같이 정리할 수 있다:

=limΔx0ΔyΔulimΔx0ΔuΔx=limΔu0ΔyΔulimΔx0ΔuΔx=dydududx\quad\qquad\qquad = \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} \centerdot \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{u}}{\Delta{x}}} \newline \quad\qquad\qquad = \lim\limits_{\Delta{u} \to 0}{\cfrac{\Delta{y}}{\Delta{u}}} \centerdot \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{u}}{\Delta{x}}} \newline \quad\qquad\qquad = \cfrac{dy}{du} \cdot \cfrac{du}{dx}

 얼핏보면 완벽한 증명으로 보이지만 실제론 반쪽짜리 증명이다. 왜냐하면 (Δx0\Delta{x} \neq 0 인 순간에도) Δu=0\Delta{u} = 0 인 경우에는 써먹을 수 없기(0 으로 나누는 행위는 수학적으로 정의되지 않기) 때문이다.

 그러나 Chain RuleΔu\Delta{u}00 인 순간에도 사용 가능한 공식이다. 그러므로 실제 증명에서는 위와 같은 (분모가 0 이 되는 상황을 만드는) 방식으로 접근하지 않는다.

3. How to prove the Chain Rule

- Background

y=f(x)y = f(x) 에 대해서 xx 의 값이 aa 에서 a+Δxa + \Delta{x} 으로 변할 때, yy 의 증분을 아래와 같이 표현한다:

Δy=f(a+Δx)f(a)\Delta{y} = f(a + \Delta{x}) - f(a)

미분의 정의에 따라 f(a)f'(a) 는 아래와 같이 쓸 수 있다:

limΔx0ΔyΔx=f(a)\lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{x}}} = f'(a)

여기에 ε\varepsilon 이라는 것이 있고 이는 ΔyΔx\cfrac{\Delta{y}}{\Delta{x}}f(a)f'(a) 의 차로 정의된다고 했을 때

limΔx0ε=limΔx0(ΔyΔxf(a))=f(a)f(a)=0\lim\limits_{\Delta{x} \to 0}{\varepsilon} = \lim\limits_{\Delta{x} \to 0}{ \left( \cfrac{\Delta{y}}{\Delta{x}} - f'(a) \right) } = f'(a) - f'(a) = 0

 미분에 정의에 따라 위와 같이 쓸 수 있고, 또한 ε\varepsilonΔx=0\Delta{x} = 0 일때 00 이라 정의하게 되면, ε\varepsilonΔx\Delta{x} 에 대해 연속인 함수가 된다. (극한값과 함수값이 같으므로)

ε\varepsilon 에 대한 식을 Δy\Delta{y} 에 대한 식으로 정리하면 아래와 같이 쓸 수 있게 된다:

Δy=f(a)Δx+εΔxwhereε0asΔx0\Delta{y} = f'(a)\Delta{x} + \varepsilon\Delta{x} \qquad \text{where} \qquad \varepsilon \to 0 \quad \text{as} \quad \Delta{x} \to 0

 왜 Δy=f(a)ΔxεΔx\Delta{y} = f'(a)\Delta{x} - \varepsilon\Delta{x} 인지 쉽게 이해가 되지 않을 수 있다. 여기에서 말하는 Δx\Delta{x} 그리고 Δy\Delta{y}f(x)f'(x)dy/dxdy/dx 와는 약간 다르므로 아래의 삽화를 준비했다:

 위에서 보는 것처럼 dx/dydx/dy 자체는 f(a)f'(a) 순간에서의 기울기를 나타내고 있으나 실제 함수 f(x)f(x) 와 비교하면 아주 근소한 차이가 존재한다. 이를 의미하는 ε\varepsilon 으로 이해해야 한다.

 또한 ε\varepsilonΔx\Delta{x}00 인 순간에는 00 으로 정의된다는 것을 주목하라. 이를 통해 ε\varepsilonΔx\Delta{x} 에 대해 연속인 함수가 될 수 있기 때문이다.

 위에서 정의한 ε\varepsilon 을 기반으로 하여 Chain Rule 을 증명해보려 한다.

- Proof of the Chain Rule

u=g(x)u = g(x)aa 에서 미분 가능하고, y=f(u)y = f(u)b=g(a)b = g(a) 에서 미분 가능하다. Δx\Delta{x}xx 의 증분, 그리고 Δu\Delta{u}Δy\Delta{y} 가 각각 uuyy 의 증분이라 한다면, 우리는 위에서 정의한 ε\varepsilon 을 이용해 아래와 같이 정의가 가능하다:

Δu=g(a)Δx+ε1ΔxΔx=[g(a)+ε1]Δxwhereε10asΔx0\Delta{u} = g'(a)\Delta{x} + \varepsilon_1\Delta{x} \qquad \Delta{x} = [g'(a) + \varepsilon_1]\Delta{x} \newline \text{where} \quad \varepsilon_1 \to 0 \quad \text{as} \quad \Delta{x} \to 0

위와 마찬가지로 Δy\Delta{y} 역시 아래와 같이 정의되어질 수 있다:

Δy=f(b)Δx+ε2ΔuΔu=[f(b)+ε2]Δuwhereε20asΔu0\Delta{y} = f'(b)\Delta{x} + \varepsilon_2\Delta{u} \qquad \Delta{u} = [f'(b) + \varepsilon_2]\Delta{u} \newline \text{where} \quad \varepsilon_2 \to 0 \quad \text{as} \quad \Delta{u} \to 0

Δy\Delta{y} 방정식의 등장하는 Δu\Delta{u} 를 치환하여 아래의 식을 얻을 수 있다:

Δy=[f(b)+ε2][g(a)+ε1]ΔxΔyΔx=[f(b)+ε2][g(a)+ε1]\Delta{y} = [f'(b) + \varepsilon_2][g'(a) + \varepsilon_1]\Delta{x} \newline \cfrac{\Delta{y}}{\Delta{x}} = [f'(b) + \varepsilon_2][g'(a) + \varepsilon_1]

구하고자 하는 dx/dydx/dy 는 아래와 같다:

dydx=limΔx0ΔyΔx=limΔx0[f(b)+ε2][g(a)+ε1]\cfrac{dy}{dx} = \lim\limits_{\Delta{x} \to 0}{\cfrac{\Delta{y}}{\Delta{x}}} = \lim\limits_{\Delta{x} \to 0}[f'(b) + \varepsilon_2][g'(a) + \varepsilon_1]

The reasons that converge 에서 설명했듯이 Δx0\Delta{x} \to 0Δu0\Delta{u} \to 0 와 동일하므로 ε1\varepsilon_1ε2\varepsilon_2 모두 00 으로 가게 된다. 따라서 위 극한을 전개하여 풀어쓰면 아래와 같다:

limΔx0[f(b)+ε2][g(a)+ε1]=f(b)g(a)=f(g(a))g(a)\lim\limits_{\Delta{x} \to 0}[f'(b) + \varepsilon_2][g'(a) + \varepsilon_1] = f'(b)g'(a) = f(g(a))g'(a)

이로써 Chain Rule 이 성립함을 증명하였다.

출처

[책] Man Sik Min · Hyeong Chul Jeong · Hyejung Lee, 『CALCULUS』, 한티미디어, p104.
[사이트] https://vegatrash.tistory.com/17
[동영상] https://www.youtube.com/watch?v=yAG2acoURtk

profile
2000.11.30

0개의 댓글