행렬지수 이해하기: 이론·핵심 성질·RNN 안정성분석

지식루팡·2025년 7월 18일

MatrixExponential RNN 그래디언트폭발 딥러닝 머신러닝 미분방정식 선형대수학 선형시스템 수치해석 수학 스펙트럼분석 안정성분석 제어이론 컴퓨터과학 행렬지수

수치해석

목록 보기

9/9

1. 서론: 행렬지수란 무엇이며 왜 중요한가?

선형대수학에서 행렬지수(Matrix Exponential) 는 단순한 계산법 이상의 깊은 수학적 의미와 응용 가치를 지닌다. 스칼라 지수함수 $e^{x}$ 를 정사각행렬에 자연스럽게 확장한 연산이지만, 그 영향력은 선형 미분방정식의 해석에서부터 현대 머신러닝의 안정성 분석에 이르기까지 매우 광범위하다. 기존의 스칼라 지수함수가 *“하나의 값을 무한히 작게 나눈 변화들의 누적”*이라면, 행렬지수 $e^{A}$ 는 “행렬 $A$ 가 일으키는 선형 변환을 무한히 짧은 시간 간격마다 조금씩 적용한 뒤, 그 전체 효과를 하나의 연산으로 압축한 도구” 로 이해할 수 있다.

1.1 스칼라 지수함수의 확장 ― 직관적 출발점

행렬지수는 스칼라 지수함수를 그대로 일반화하여 다음과 같은 멱급수(파워 시리즈)로 정의한다:

e^{A} = I + A + \frac{A^{2}}{2!} + \frac{A^{3}}{3!} + \cdots

이 정의에서 핵심적인 역할을 하는 것이 바로 분모에 있는 팩토리얼( $k!$ )이다. 팩토리얼은 항의 크기를 빠르게 줄여줌으로써 급수가 항상 절대수렴하도록 만들어 준다. 덕분에 어떠한 행렬 $A$ 를 넣더라도 급수가 발산하지 않고 안정적으로 잘 정의된 값을 얻을 수 있다.
직관적으로 보자면, “무한히 작은 시간 간격 $\Delta t$ 동안 행렬로 표현되는 선형 변환 $(I+\Delta t\,A)$ 을 조금씩 반복적으로 적용하고, 그 과정을 무한히 쌓아서 연속적인 시간 변화 전체를 하나의 행렬로 나타낸 것” 이 바로 행렬지수의 본질이다.

1.2 행렬지수가 중요한 두 가지 이유

행렬지수는 수학 이론에서뿐만 아니라 실제 문제에서도 놀라운 힘을 발휘한다. 다음은 행렬지수가 특히 중요한 두 가지 이유다.

선형 미분방정식의 명시적 해를 제공
행렬지수를 사용하면 다음과 같은 선형 미분방정식의 해를 명확하고 간결하게 표현할 수 있다:

\dot{x}=Ax,\qquad x(t)=e^{At}x(0)

이 한 줄의 식을 통해 시스템의 장기적인 거동과 안정성을 곧바로 파악할 수 있다.

머신러닝(RNN)의 안정성 분석을 위한 필수 도구
순환신경망(RNN)의 고질적인 문제 중 하나는 그래디언트의 폭발·소멸 현상이다. 이러한 현상은 역전파(backpropagation) 시 나타나는 Jacobian 행렬의 지수( $e^{A}$ )가 가지는 스펙트럼(고유값 $e^{\lambda}$ )의 크기로 진단할 수 있다. 다시 말해, 행렬지수의 스펙트럼이 그래디언트가 시간에 따라 폭발하는지 소멸하는지를 결정하는 핵심적인 척도로 작동한다.

다음 장(2장)에서는 지금까지 설명한 직관을 보다 엄밀하고 구체적인 수학적 정의와 예시를 통해 정교하게 다듬어 살펴볼 것이다.

2. 정의와 직관적 의미

행렬지수를 처음 만날 때 흔히 혼란을 느끼는 이유는 친숙한 '지수' 기호 뒤에 복잡한 대상인 행렬이 자리 잡고 있기 때문이다. 이번 장에서는 행렬지수를 이해하기 위한 네 가지 대표적인 정의를 차례대로 살펴보고, 각각의 정의가 제공하는 직관적 의미와 함께 설명하여 명확한 이해의 기반을 마련한다.

2.1 멱급수(파워 시리즈) 정의

행렬지수의 가장 기본적이고 널리 쓰이는 정의는 다음의 멱급수(파워 시리즈)이다:

e^{A} = I + A + \frac{A^{2}}{2!} + \frac{A^{3}}{3!} + \cdots

이 정의가 성립하는 핵심 이유는 다음 두 가지로 요약된다.

팩토리얼 $k!$ 이 보장하는 절대수렴
분모에 있는 팩토리얼 $k!$ 은 매우 빠르게 증가하여, 항 $\frac{A^{k}}{k!}$ 의 크기를 급격히 감소시킨다. 따라서 급수는 항상 절대수렴하며, 어떤 행렬 $A$ 를 넣어도 안정적인 값이 나온다.
무한히 작은 변화의 누적이라는 직관
스칼라 지수 $e^{x}$ 가 “ $(1 + \frac{x}{m})^{m}$ ” 형태의 극한으로 표현될 수 있듯이, 행렬지수 또한 “ $(I + \frac{A}{m})$ ” 라는 작은 선형 변환을 무한히 반복 적용하여 축적한 결과로 이해할 수 있다.

이러한 직관은 다음 절의 극한 정의로 더욱 명확해진다.

2.2 극한 정의

행렬지수는 다음과 같은 극한 정의로도 표현할 수 있다:

e^{A} = \lim_{m\to\infty}\left(I + \frac{A}{m}\right)^{m}

이 정의가 제공하는 직관적 해석은 다음과 같다:

시간을 미세한 간격으로 나눈 변화
전체 시간을 $m$ 개의 구간으로 잘게 나누어 각 구간마다 $I + \frac{A}{m}$ 만큼 아주 조금씩 변화시킨다.
연속 변화로의 수렴
$m$ 을 무한히 증가시켜 시간 간격을 0으로 보내면, 이산적인 작은 변화들이 연속적인 변화로 녹아들며 정확히 행렬지수 $e^{A}$ 로 수렴한다.
수치해석적 이점
이 정의는 실제 수치계산에서 $m$ 을 적절히 크게 잡아 행렬지수를 근사적으로 빠르게 구하는 방법으로 사용된다. 특히 희소(sparse) 행렬에서는 매우 유용하다.

2.3 선형 미분방정식 관점

행렬지수는 선형 미분방정식의 해를 표현하는 근본적인 도구이다. 다음의 선형 미분방정식을 생각해보자:

\dot{X}(t) = A\,X(t),\quad X(0)=I \quad \Longrightarrow \quad X(t)=e^{At}

이 관점의 직관적 해석은 다음과 같다.

행렬 $A$ 는 제너레이터(Generator)
미분방정식 $\dot{X}(t)=A X(t)$ 은 “상태 $X$ 를 현재 순간 즉시 행렬 $A$ 방향으로 밀어 변화시킨다”는 의미다. $e^{At}$ 는 이러한 순간적 변화의 효과를 일정 시간 $t$ 동안 누적한 결과이다.
선형 시스템 분석의 핵심
임의의 초기 벡터 $x(0)$ 가 주어졌을 때,
$x(t) = e^{At}x(0)$
와 같이 시스템의 해를 명시적으로 얻을 수 있다. 행렬 $A$ 의 고유값을 통해 시스템의 안정성(감쇠, 진동, 폭주 등)을 곧바로 파악할 수 있는 강력한 분석 도구를 제공한다.

2.4 대각화 및 조르당(Jordan) 형식을 이용한 정의와 계산

행렬지수는 행렬의 대각화 또는 조르당 분해를 이용하여 계산하면 훨씬 간단하고 직관적이다.

2.4.1 대각화 가능한 경우

행렬 $A$ 가 완전한 고유벡터 기저를 가지는 경우, 즉 대각화 가능한 경우 다음과 같이 표현할 수 있다:

A = S\Lambda S^{-1},\quad \Lambda=\text{diag}(\lambda_1,\dots,\lambda_n)

이때 행렬지수는 다음과 같은 간단한 형태로 구해진다:

e^{A} = S\,e^{\Lambda}\,S^{-1},\quad e^{\Lambda} = \text{diag}(e^{\lambda_1},\dots,e^{\lambda_n})

직관적 해석:
고유벡터를 좌표축으로 설정하면, 행렬 $A$ 는 각 축 방향으로 단순히 스칼라 곱(고유값)에 해당한다. 행렬지수는 각 고유값에 지수를 적용한 후 다시 원래 좌표계로 돌려놓는 과정이다.

예시:

A = \begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix} \;\Rightarrow\; e^{A} = \begin{bmatrix}e^2 & 0 \\ 0 & e^3\end{bmatrix}

2.4.2 Jordan 블록이 있는 경우

행렬이 대각화되지 않는 경우라도 항상 조르당 형식 $A = SJS^{-1}$ 으로 분해 가능하다.
이때 각 Jordan 블록은 $J = \lambda I + N$ , ( $N^k=0$ 인 nilpotent 행렬)으로 나타내지고, 행렬지수는 다음과 같은 유한합으로 표현된다:

e^{J} = e^\lambda\left(I + N + \frac{N^2}{2!} + \cdots + \frac{N^{k-1}}{(k-1)!}\right)

예시 (크기 2 Jordan 블록):

A = \begin{bmatrix}4 & 1 \\ 0 & 4\end{bmatrix}, \quad N^2=0 \quad\Rightarrow\quad e^{A} = e^{4}\begin{bmatrix}1 & 1 \\ 0 & 1\end{bmatrix}

2.4.3 왜 이 방식이 중요한가?

빠르고 간단한 계산:
고유값을 알면 행렬지수를 단순한 스칼라 지수계산으로 축약할 수 있다.
명확한 해석:
각 모드(고유벡터 방향)의 성장 또는 감쇠 여부를 바로 파악할 수 있어 시스템 분석이 용이하다.
일반성:
대각화되지 않는 행렬도 Jordan 형식을 통해서 명시적으로 표현 및 계산할 수 있다.

지금까지 네 가지 정의와 직관적 의미를 살펴보았다. 다음 장(3장)에서는 미분 가능성, 결합 법칙, 역행렬 관계, 스펙트럼 대응 등 행렬지수의 핵심 성질을 상세히 살펴보고 그 엄밀한 증명을 제시할 것이다.

3. 핵심 성질

행렬지수를 강력한 수학적 도구로 만들어 주는 것은 다음에 소개할 네 가지 기본 성질이다. 이 성질들은 스칼라 지수함수가 가진 편리한 성질을 거의 그대로 행렬의 세계로 확장한 것이며, 선형 시스템의 해석, 제어, 수치 연산 등 여러 분야에서 필수적인 언어로 작용한다. 먼저 각 성질의 직관적 의미를 살펴본 후, 3.5절에서 네 성질을 엄밀하게 증명할 것이다.

3.1 미분 가능성

\boxed{\frac{d}{dt} e^{At} = A e^{At} = e^{At} A}

직관적 의미:
행렬지수 $e^{At}$ 는 미분방정식 $\dot{X}(t)=AX(t)$ , $X(0)=I$ 의 명시적 해다. 즉, 시간 $t$ 가 조금 증가하면(미분하면) 상태 $X(t)$ 는 행렬 $A$ 가 나타내는 방향으로 정확히 변한다는 것을 의미한다. 또한 $A$ 와 $e^{At}$ 는 모두 $A$ 의 다항식 형태이기 때문에 서로 가환하여 곱의 순서를 자유롭게 바꿀 수 있다.

3.2 지수–덧셈(결합) 법칙

\boxed{AB = BA \quad\Longrightarrow\quad e^{A} e^{B} = e^{A+B}}

직관적 의미:
스칼라 지수함수에서 익숙한 성질 $e^{x} e^{y}=e^{x+y}$ 가 행렬에서도 성립하려면 행렬의 가환성이라는 조건이 필수적으로 필요하다. 두 행렬 $A, B$ 가 서로 섞이지 않고 가환할 때만 이 법칙이 유지된다. 물리학이나 제어이론에서 시스템을 여러 독립적인 부분으로 나누어 분석할 때, 각 부분이 독립적으로 작용하면 전체 효과는 단순히 합쳐진다는 직관적 해석과 연결된다.

3.3 역행렬과의 관계

\boxed{(e^{A})^{-1} = e^{-A}}

직관적 의미:
지수–덧셈 법칙에 $B = -A$ 를 대입하면 자연스럽게 $e^{A}e^{-A}=e^{0}=I$ 가 된다. 이는 행렬지수가 항상 가역 행렬(역행렬이 존재)임을 의미하며, 그 역행렬을 계산하려면 단순히 지수의 부호를 바꿔주면 된다. 행렬지수는 따라서 일반선형군 $GL(n)$ 위에서 부드러운 지수적 경로(exponential path)를 형성한다.

3.4 스펙트럼(고유값)의 대응 관계

\boxed{\operatorname{spec}(e^{A}) = \{e^{\lambda} : \lambda \in \operatorname{spec}(A)\}}

직관적 의미:
임의의 고유벡터 $v$ 에 대해 $Av=\lambda v$ 라면 행렬지수는 $e^{A} v = e^{\lambda} v$ 로 작용한다. 즉, 행렬지수는 행렬의 고유값에 단순히 스칼라 지수를 취한 연산이다. 이 성질 덕분에 시스템의 안정성을 곧바로 판정할 수 있다. 구체적으로 다음과 같다:

$\mathrm{Re}(\lambda)<0$ ⇒ $|e^{\lambda}|<1$ : 모드가 감쇠한다.
$\mathrm{Re}(\lambda)=0$ ⇒ $|e^{\lambda}|=1$ : 모드가 보존되거나 순수하게 진동한다.
$\mathrm{Re}(\lambda)>0$ ⇒ $|e^{\lambda}|>1$ : 모드가 폭발적으로 증가한다.

머신러닝 분야에서도 RNN의 그래디언트 폭발/소멸 현상을 이 스펙트럼 성질을 이용하여 분석한다.

3.5 성질 3.1 – 3.4의 엄밀한 증명

이제 행렬지수의 엄밀한 멱급수 정의를 다시 한번 상기하자.

e^{A} = \sum_{k=0}^{\infty}\frac{A^{k}}{k!}, \quad A\in\mathbb{C}^{n\times n}

이 급수는 모든 행렬 노름에서 절대수렴하므로, 항별 연산과 미분, 극한 교환 등이 정당화된다. 이를 바탕으로 각 성질을 엄밀히 증명할 수 있다.

(Ⅰ) 미분 가능성 (성질 3.1)

\frac{d}{dt} e^{At} = \frac{d}{dt}\sum_{k=0}^{\infty}\frac{(At)^{k}}{k!} = \sum_{k=1}^{\infty}\frac{k(At)^{k-1}}{k!}A = A\sum_{k=0}^{\infty}\frac{(At)^{k}}{k!} = A e^{At}

모든 항이 $A$ 의 다항식이므로 $A e^{At}=e^{At} A$ 역시 성립한다.

(Ⅱ) 지수–덧셈 법칙 (성질 3.2)

가환성 $AB=BA$ 을 가정하고, 멱급수로 풀면 다음과 같다.

e^{A} e^{B} = \sum_{n=0}^{\infty}\frac{(A+B)^{n}}{n!} = e^{A+B}

가환성으로 인해 이항정리가 적용됨을 알 수 있다.

(Ⅲ) 역행렬과의 관계 (성질 3.3)

위의 (Ⅱ) 식에 $B=-A$ 를 대입하면 바로 다음을 얻는다:

e^{A} e^{-A} = e^{0} = I

즉, $(e^{A})^{-1}=e^{-A}$ 이다.

(Ⅳ) 스펙트럼 대응 관계 (성질 3.4)

한쪽 포함( $\subseteq$ )
고유쌍 $(\lambda, v\neq0)$ 에 대해

e^{A} v = \sum_{k=0}^{\infty}\frac{A^{k}v}{k!} = \sum_{k=0}^{\infty}\frac{\lambda^{k}}{k!}v = e^{\lambda} v

즉, $e^{\lambda}$ 는 $e^{A}$ 의 고유값이다.

반대 포함( $\supseteq$ )
조르당 분해 $A=SJS^{-1}$ 를 고려하면 각 Jordan 블록 $J=\lambda I+N$ , $N^{p}=0$ 에 대해

e^{J}=e^{\lambda}\left(I+N+\frac{N^{2}}{2!}+\cdots+\frac{N^{p-1}}{(p-1)!}\right)

이 되며, 이는 상삼각 행렬이고 대각 성분은 모두 $e^{\lambda}$ 이다. 유사변환은 고유값을 바꾸지 않으므로 $\operatorname{spec}(e^{A})$ 는 정확히 $\{e^{\lambda}\}$ 로 이루어진다.

이 네 가지 성질 덕분에 행렬지수는 스칼라 지수함수의 모든 장점을 행렬의 세계에 이식한 것이다. 즉,

시간 미분과 행렬 곱셈의 간단한 대응(3.1)
독립적 변환을 결합할 때의 간단한 표현(3.2)
가역성과 군 구조(3.3)
스펙트럼 분석을 통한 안정성 및 시스템 특성 해석(3.4)

등의 강력한 특성을 제공하여 선형 시스템의 해석과 설계에서 가장 자연스럽고 필수적인 언어가 된다.

4. 응용: 머신러닝에서의 활용 — RNN 안정성 분석

행렬지수는 순환신경망(RNN)의 내부에서 신호와 그래디언트가 시간에 따라 어떻게 증폭되거나 감쇠하는지를 분석하는 중요한 도구다. 이번 장에서는 행렬지수를 통해 RNN을 선형 시스템의 관점에서 바라보고, 그래디언트의 폭발과 소멸 문제를 스펙트럼(고유값)으로 진단하는 방법을 설명한다.

4.1 RNN을 선형 동역학 관점에서 이해하기

가장 기본적인 형태의 선형 RNN(편의를 위해 바이어스는 생략함)을 다음과 같이 나타내 보자.

h_{t+1} = W h_{t}, \quad h_{0} = x

이 식은 매 시간 스텝마다 상태 벡터 $h_{t}$ 에 행렬 $W$ 를 곱하여 상태를 갱신한다는 뜻이다. 따라서 초기 상태 $x$ 에서 출발하여 $t$ 스텝 후 상태는 다음과 같다.

h_{t} = W^{t} x

연속 시간에서의 해석:
만약 시간 간격을 $\Delta t$ 라 하고, $W = e^{A \Delta t}$ 라고 표현하면,

h_{t} = e^{A t} x

즉, RNN의 상태 변화가 정확히 행렬지수로 표현되는 선형 시스템의 형태임을 알 수 있다. 이는 “RNN은 행렬을 거듭 곱하는 과정이다”라는 직관적 이해를 명확한 수학적 표현으로 바꾸어 준다.

4.2 그래디언트 폭발과 소멸의 스펙트럼 분석

손실함수 $L$ 을 최종 시간 $T$ 에서 계산했을 때, 초기 상태에 대한 역전파 그래디언트는 다음과 같은 형태가 된다.

\frac{\partial L}{\partial h_{0}} = \left(\prod_{t=0}^{T-1} W^{\top}\right) \frac{\partial L}{\partial h_{T}} = (W^{\top})^{T} \frac{\partial L}{\partial h_{T}}

이때 행렬의 고유값 스펙트럼을 분석하면 그래디언트의 크기 변화 양상을 쉽게 이해할 수 있다.

4.2.1 대각화 가능한 경우

행렬 $W$ 가 정방행렬이며 고유분해 $W = S \Lambda S^{-1}$ 가 가능할 때, $W^{T}$ 는 다음과 같이 단순하게 표현된다.

W^{T} = S\,\text{diag}(\lambda_{1}^{T}, \dots, \lambda_{n}^{T})\,S^{-1}

이 고유값 $\lambda_{i}$ 들의 크기에 따라 그래디언트의 변화가 결정된다.

$|\lambda_{i}| < 1$ : $|\lambda_{i}|^{T} \to 0$ → 그래디언트 소멸
$|\lambda_{i}| > 1$ : $|\lambda_{i}|^{T} \to \infty$ → 그래디언트 폭발
$|\lambda_{i}| = 1$ : 크기 유지 → 장기 의존성 유지

4.2.2 Jordan 블록을 갖는 경우

행렬이 대각화되지 않는 경우라도 조르당 분해 $W = S J S^{-1}$ , $J = \lambda I + N$ (nilpotent 행렬)로 표현 가능하다. 이때는

W^{T} = S \left(\lambda^{T}\sum_{k=0}^{p-1}\binom{T}{k}\lambda^{-k}N^{k}\right) S^{-1}

로 나타난다.

5. 요약

행렬지수 $e^{A}$ 는 “행렬 $A$ 가 유발하는 무한히 작은 선형 변환을 시간 전체 구간에 걸쳐 누적한 결과” 이다. 이 간단한 듯 보이는 개념은 다음과 같은 강력한 수학적 기반과 응용성을 지닌다.

멱급수, 극한, 미분방정식의 해, 대각화와 조르당 분해 등 다양한 정의 방식들이 서로 맞물려 명확하고 견고한 수학적 토대를 제공하며,
미분 가능성, 가환 조건에서의 결합 법칙, 역행렬의 간결한 표현, 고유값과의 스펙트럼 대응이라는 네 가지 핵심 성질을 통해 스칼라 지수함수의 장점을 그대로 행렬의 세계로 확장한다.
선형 시스템의 동역학 해석부터 머신러닝에서 RNN의 그래디언트 폭발과 소멸 문제 진단에 이르기까지 현대 과학과 공학의 핵심 문제들을 일관되고 명료하게 분석하고 해결하는 데 결정적인 역할을 한다.

지식루팡

배움은 누군가 챙겨주는 것이 아니라, 내가 스스로 훔쳐 먹는 것이다. PhD in Mathematics.

이전 포스트