[Research Note] When Matrices Go Infinite (1/2) : Mathematical Intuition

Junu Kim·2025년 9월 27일
0

Research Note

목록 보기
1/3
post-thumbnail

들어가며

이 글은 제가 학부 과정에서 배운 유한 행렬 (finite matrices)의 개념에서 행이나 열의 개수가 무한히 확장된 무한 행렬 (Infinite Matrices)의 개념으로 확장시키는 과정을 공유하기 위해 작성된 글입니다.

이 글은 추상적인 무한대라는 개념이 어떻게 행렬이라는 개념에 편입되는지 나아가 ML 아키텍처에서의 활용으로 어떻게 연결되는지 탐구합니다.


Section 1: Mathematical Intuition에서는 무한 행렬의 기본 이론을 소개하고, 이를 바나흐 공간 (Banach space)에서 작용하는 선형 유계 연산자 (linear bounded operators)로 해석하는 직관을 살펴봅니다. 특히, 컴퓨터 계산을 위해 무한 시스템을 유한 시스템으로 근사하고 해의 수렴성을 보장하는 축소 방법 (reduction method)에 집중할 예정입니다.

Section 2: ML Perspective에서는 이 무한 개념이 머신러닝에 어떻게 적용되는지 조명합니다. 특징 상호작용 공간 (feature interaction space)의 차원을 무한 차원으로 확장하는 방법론을 다루며, 이는 RBF 커널을 통해 구성되는 재현 커널 힐베르트 공간 (Reproducing Kernel Hilbert Space, RKHS)을 활용하여 InfiNet을 소개해볼 예정입니다.


Section 1: Mathematical Intuition

만약 임의의 가역 연산자가 축소 방법을 허용하며 그 연산자가 무한 행렬로 표현가능하다면 이것은 무슨 의미인가

"If arbitrary invertible operator admits the reduction method, assuming the operator is presented by an infinite matrix?" [2]

Ⅰ.1. Concept of Infinite Matrices

행렬 (Matrices)은 대부분의 과학분야에서 응용되는 개념으로 고전역학 (Classical Mechanics), 광학 (Optics), 양자 전자역학 (Quantum Electrodynamics) 등 다양한 물리학 분야에서 응용됩니다. 컴퓨터 그래픽 분야에서는 3D 모델을 조작하고 이를 2차원 화면에 투사하는데 활용됩니다. [1]

행렬의 기본 개념이 익숙하지 않다면 Stanford의 ENGR108의 교재인 Introduction to Applied Linear Algebra처럼 기본 개념을 담은 선형대수학 책을 읽어보길 추천드립니다. 이 글에서는 행렬에 대한 기본적인 이해가 있다는 전제하에 작성하는 글이기에 기본 개념은 상세하게 다루지는 않습니다.

무한 행렬이란 행 또는 열이 무한대로 존재하는 행렬로 공식적으로는 행 인덱스와 열 인덱스를 부여하는 모든 요소에 대해 행렬 요소가 명확하게 정의되는 (well-defined matrix element) 행렬을 말합니다. 하지만 인덱스 집합이 자연수의 부분집합일 필요는 없습니다. [1]

Ⅰ.1.1. From finite matrices to infinite matrices

이 행렬을 활용하기 위해서는 유한 행렬와 마찬가지로 무한 행렬에 대한 연산은 몇가지 조건이 필요하긴 하지만 정의내릴 수 있습니다.

무한 차원에서의 영 행렬, 삼각 행렬, 대각 행렬, 유니터리 행렬, 전치 행렬은 유한 행렬과 매우 유사하게 (analogously) 정의될 수 있습니다. [1]

  • 영행렬 (Zero matrix): 모든 원소가 0인 행렬. 무한 차원에서도 모든 원소가 0이면 영행렬로 정의됩니다.

  • 삼각행렬 (Triangular matrix): 상삼각 또는 하삼각 형태를 가지는 행렬. 무한 차원에서도 특정 방향으로 원소가 0인 구조를 유지하면 삼각행렬로 간주됩니다.

  • 대각행렬 (Diagonal matrix): 대각선 외의 모든 원소가 0인 행렬. 무한 차원에서도 대각선만 값을 가지면 대각행렬입니다.

  • 유니터리 행렬 (Unitary matrix): 자기 전치 행렬과 역행렬이 같은 행렬. 무한 차원에서도 내적 보존 조건을 만족하면 유니터리 행렬로 정의됩니다.

  • 전치 행렬 (Transposed matrix): 행과 열을 바꾼 행렬. 무한 차원에서도 동일한 방식으로 정의됩니다.

Ⅰ.1.2. Multiplication in infinite matries

우리가 Am×nA_{m×n} 행렬을 Bn×kB_{n×k} 행에 곱하려고 할 때 우리는 아래와 같은 정보를 얻을 수 있습니다

(a)(a) m=,m=\infty, n=n=\infty일때 AB=C×AB=C_{\infty×\infty}가 된다. 다시 말해 무한 행렬간의 곱은 무한 행렬로 계산된다.

(b)(b) n=n=\infty일때, AB=Cm×kAB=C_{m×k} = [cij][c_{ij}]이고 이때 각 원소 cij=Σl=1ailblj  (1im,1jk)c_{ij} = \Sigma^\infty_{l=1}a_{il}b_{lj} \ \ (1 ⩽ i ⩽ m, 1 ⩽j ⩽k) 꼴의 무한급수이고 이 급수는 반드시 수렴(Convergent series)해야 한다

(c)(c) AABB가 정사각 행렬 (Square Matrix)일 때, 두 행렬곱 ABAB는 정의되어 행렬 CC가 성립한다.

(d)(d) 만약 AABB가 모두 무한의 차원에서 존재하는 행렬이며, AA의 행의 개수는 BB의 열의 수와 같을때 (무한 차원에서 두 집합의 크기가 일대일 대응이 가능하여 동일할 때, equinumerousequinumerous), 두 행렬의 곱을 정의하기 위해서는 AA의 행 집합과 BB의 열 집합은 수렴해야 한다.

Ⅰ.1.3. Linear Mapping in Infinite Matrices

유한 행렬 (m×nm \times n)에서의 사상(Mapping)이란 nn차원 공간 FnF^n의 벡터 xxmm차원 공간 FmF^m의 벡터 f(x)f(x)로 변환하는 규칙이며 무한 행렬에서 역시 무한 차원 공간 FnF^n의 벡터를 FmF^m의 벡터로 변환하는 규칙이 됩니다. [f(x)=Axf(x) = Ax]

선형 사상 f(x)=Axf(x)=Ax는 모든 벡터 xx를 변형시키지만, 그 결과 벡터 f(x)f(x)가 도달할 수 있는 영역 (image)은 제한될 수 있습니다.

랭크 (Rank): 사상을 통해 도달 가능한 영역 (image)의 크기

  • 행렬 AA의 랭크는 이 선형 사상 ff가 도달할 수 있는 치역 (Image, Im(f)\text{Im}(f))이라는 공간의 차원으로 정의된다.

이 정의는 행렬이 명시적으로 주어지지 않더라도 임의의 선형 사상에 적용할 수 있는 장점을 가집니다. 결국 랭크는 행렬 AA의 '변환 능력' 또는 '도달 가능한 공간의 크기'를 나타냅니다.

무한 행렬에서의 선형사상은 어떤 의미를 갖는가?

선형 사상은 무한 연립 방정식 시스템을 해석하는 데 직접적으로 사용됩니다.

  • 시스템: Ax=bAx = b (여기서 A,x,bA, x, b는 무한 차원을 가질 수 있습니다).
  • 이 시스템이 해 xx를 가진다는 것은 (Has a solution or solutions), 타겟 벡터 bb가 행렬 AA의 변환 영역(Im(f)\text{Im}(f)) 안에 들어 있다는 의미와 같게 됩니다. (bIm(f)b \in \text{Im}(f)).

Rouché-Capelli Theorem (Kronecker-Capelli Theorem) [1]
: compatibility condition of solution in system of linear equations

"Let m,nNm,n ∈ N∪{}. A system of mm linear equations in n variables Ax=bAx = b is compatible if and only if both the incomplete and complete matrices (AA and [Ab][A|b] respectively) are characterised by the same rankA=rank[Ab]rankA = rank[A|b]."

: 시스템이 해를 가질 필요충분조건은 불완전 행렬 (or Coefficient Matrix) AA의 랭크와 완전 행렬 (or Augmented Matrix) [Ab][A|b]의 랭크가 같다는 것입니다. 이는 타겟 벡터 (결과값) bb가 행렬 AA의 열 벡터들의 선형 결합으로 표현될 수 있다는 것을 의미합니다.

Ⅰ.1.4. Invertiblity in Infinite Matrices

가역성 (Invertibility):
선형 사상의 가역성은 해당 행렬의 역행렬 존재 여부와 연결됩니다.

  • 선형 사상이 invertible하다의 의미
    : 선형 사상 f(x)=Axf(x) = Ax가 가역적일 필요충분조건은 (iff) 행렬 AAA1A^{-1}가 존재하는 것이다.

행렬이 가역적이라면, 무한 선형 시스템 AX=BAX=B의 해는 X=A1BX = A^{-1}B로 유일하게 결정됩니다. 무한 행렬의 역행렬을 찾기 위해서는 IA<1|I-A| < 1 등과 같은 수렴 조건이 추가로 필요할 수 있습니다.

선형 변환 행렬의 구성: 기저 벡터 (basis vectors)의 역할
어떤 선형 변환 L:UVL: U \rightarrow V가 주어졌을 때, 이 변환을 행렬 MM로 표현하는 방법은 기저를 설정하고 변환 확인 후 행렬을 구성하는 것이다.
LL : 추상적 선형 사상 (function)
MM : 기저를 고른 뒤 얻어진 LL의 구체적인 행렬 표현 (coordinates of LL)

기저 설정이란 입력 공간 (domain) UU와 출력 공간(codomain) VV 각각에 기저 벡터 u1,u2,,um{u_1, u_2, \ldots, u_m}v1,v2,,vn{v_1, v_2, \ldots, v_n}를 설정하는 것을 말합니다 (여기서 mmnn은 무한할 수 있습니다).

이를 통해 변환 LLUU의 각 기저 벡터 uiu_i에 어떻게 작용하는지 확인하며, 그 결과 L(ui)L(u_i)VV의 기저 벡터들의 선형 결합으로 표현됩니다. [L(ui)=j=1nαj(i)vjL(u_i) = \sum_{j=1}^{n} \alpha^{(i)}_{j} v_{j}]

이때, 변환 행렬 MM은 이 선형 결합의 계수(αj(i)\alpha^{(i)}_{j})들을 사용하여 구성됩니다. 즉, 행렬 MM의 각 열은 입력 공간의 기저 벡터가 출력 공간의 기저 벡터들로 어떻게 '분해'되는지를 담고 있습니다.

결국 수렴 조건은 유한 행렬에서 무한 행렬로 확장하는데 가장 중요한 열쇠가 되며, 이러한 엄밀한 정의는 무한 행렬을 단순한 숫자의 나열을 넘어, 함수 공간에서 작용하는 Operator로 해석할 수 있는 길을 열어줍니다.

Ⅰ.2. Infinite Matrices in Banach Space

standard basisstandard\ basis eie_i로 구성된 Banach SpaceBanach\ Space에 존재하는 집합 XX에 대하여 작용하는 선형 유계 연산자 (linear bounded operator) A는 무한 행렬로 표현될 수 있다.

A:XXA: X\rightarrow X

Ⅰ.2.1. Concept of Banach Space

바나흐 공간 (Banach Space)에 대해 논하기 전에 먼저 노름 공간 (Normed Space)에 대해 알아야 합니다.

노름 (norm, ||•||)
:벡터 공간 XX의 원소 xXx \in X에 대해 x||x||라고 쓰면, 벡터 xx의 "길이" 또는 "크기"를 나타내는 실수값이다.

예시

  1. 유클리드 공간 Rn\mathbb{R}^n에서의 표준 노름(=2-노름, Euclidean norm):
    x2=x12+x22++xn2||x||_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}
  2. 1-노름 (Manhattan norm):
    x1=x1+x2++xn||x||_1 = |x_1| + |x_2| + \cdots + |x_n|
  3. 무한대 노름 (Max norm):
    x=maxixi||x||_\infty = \max_i |x_i|

노름 공간이란 벡터 공간 XX에 대하여 아래의 세 조건을 만족하는 ||•|| :XRX→\Reals이 존재하면 ||•||XX의 놈 (normnorm)이라 하고 (XX, ||•|| )를 노름 공간이라고 합니다. [3]

(a)(a) x0∥x∥≥0, xX∀x∈X이고 x=0x=0∥x∥=0⟺x=0 (iff)

(b)(b) xXx ∈ X 이고 cCc ∈ ℂ일 때, cx=cx||cx|| = |c|||x||
(ℂ: 복소수 집합 (Complex numbers set))

(c)(c) x,yX∀x, y ∈ X일때 x+yx+y||x + y|| ≤ ||x|| + ||y||

이런 노름 공간 중 완비성 (completeness)을 갖춘 완비 노름 거리 공간을 바나흐 공간이라고 합니다. 완비 공간이란 모든 코시수열 (Cauchy sequence)이 수렴하는 공간을 말합니다.

완비란 무엇인가에 대해 설명하기 위해서는 이 글이 너무 길어질 수 있고 글의 방향성과도 맞지 않기에 우선은 거리공간 XXR\Reals에서 수렴하는 수열이 모두 XX의 점으로 수렴하면 XX를 완비 공간이라고 한다까지만 설명하겠습니다. (추후 완비 공간에 대해 다룬 글을 올리면 링크를 넣을 예정입니다.)

바나흐 공간의 예로는 C[a,b]C[a,b], Rn\Reals^n,Cnℂ^n 가 있으며 바나흐 공간은 함수를 함수들을 벡터처럼 다룰 수 있게 해주는 수학적 구조입니다. 이 공간에서 선형 유계 연산자는 하나의 함수(벡터)를 다른 함수(벡터)로 변환하는 역할을 하며, 이 변환 과정이 바로 무한 행렬로 나타나는 것입니다.

이런 연산자의 관점은 무한에 대한 시스템에 대해 추상화를 할 수 있게 합니다. 예를 들면 무한 개의 변수와 무한 개의 방정식으로 이루어진 무한 연립 선형 방정식 시스템은 연산자 관점을 도입함으로써 Ax=yAx = y라는 매우 간결한 추상적 방정식으로 표현할 수 있습니다. 이는 복잡한 개별 방정식들을 다루는 대신, AA라는 연산자의 성질(가역성, 노름 등)을 분석하는 문제로 전환시켜 줍니다.

하지만 이 이론적인 연산자 방정식 Ax=yAx = y는 그 자체로 컴퓨터를 통해 직접 계산할 수 없다는 명백한 한계를 가지는데, 무한한 계산을 유한한 시간 안에 수행할 수는 없기 때문입니다. 그렇기 때문에 단순히 무한 행렬을 컴퓨터 자원을 활용해 물리적으로 구현하려는 시도는 비효율적인 선택지가 되어버립니다. 따라서 실용적인 관점에서 무한 행렬을 연결하기 위해서는 무한한 문제를 유한한 문제로 근사하는 체계적인 방법론이 필요하게 되는 것이고, 그것이 바로 축소 (Reduction)입니다.

Ⅰ.2.2. Reduction Method in Infinite Matrices

If a certain xXx ∈ X, limnAnx=Axlim_{n→∞} A_nx = Ax, and there is the sequence xnn=1X{x_n}^∞_{n=1} ⊂ X such that limnxn=xlim_{n→∞} x_n = x then limnAnx=Axlim_{n→∞} A_nx = Ax. [2]

축소의 단계는 두단계로 나누어 볼 수 있습니다. [2]

1단계 (절단, Truncation)

먼저, 무한 연산자 방정식 Ax=yAx = y를 유한한 nn차원 부분 공간으로 투영(projection)합니다. 이는 곧 무한 행렬 A의 왼쪽 위 n×nn×n 부분 행렬만을 고려하여 An=PnAPnA_n = P_nAP_n이라는 유한 연산자를 만드는 것과 같습니다.

여기서 PnP_nXnX_n으로 표시되는 n차원 부분 공간으로의 프로젝터입니다. 이렇게 변환된 유한 시스템은 Anxn=PnyA_nx_n = P_ny가 되며, 이는 우리가 컴퓨터로 풀 수 있는 유한 연립방정식이 됩니다.

2단계 (수렴, Convergence)

이렇게 만들어진 유한 연산자 AnA_n들의 수열은 nn이 무한대로 갈 때, 원래의 무한 연산자 A로 강하게 수렴(strongly converges)합니다. 즉, n→∞일 때 AnxA_nx가 모든 x에 대해 AxAx로 수렴하게 됩니다.

강하게 수렴한다는 것은 곧 공간 XX의 모든 벡터 xx에 대해, AnxA_n x라는 벡터 수열이 AxA x로 수렴한다는 것을 의미합니다. 반대의 개념으로 약한 수렴 (Weak Convergence)도 존재하지만 이 글에서는 다루지 않을 예정입니다.

(a)(a) starting from a certain NN, nN∀n ≥ N, the operators An:XnXnA_n : X_n → X_n
are invertible;
(b)(b) we have the estimate An1C||A^{−1}_n || ≤ C with constant CC non-depending on nn;
(c)(c) the solution xnx_n to the equation (2) converges to the solution x of the equation (1) under nn → ∞ [2]

만약 원래의 무한 연산자 AA가 유계 역 연산자 A⁻¹A⁻¹를 가진다면, 다음 세 가지 중요한 결과가 보장됩니다.

1. 존재성: 충분히 큰 NN이 존재하여, 모든 nNn ≥ N에 대해 유한 연산자 AnA_n 역시 역 연산자를 가진다. 즉, 근사된 유한 시스템도 해를 가진다.

2. 안정성: 유한 연산자의 역 An⁻¹A_n^{⁻¹}의 노름(norm)이 nn의 크기에 관계없이 균일하게 유계 (uniformly boundeduniformly \ bounded)이다 (An⁻¹C||A_n^{⁻¹}|| ≤ C). 이는 nn이 커져도 근사해의 안정성이 유지됨을 의미한다.

3. 수렴성: 유한 시스템의 해 xnx_nnn이 무한대로 갈수록, 원래 무한 시스템의 정확한 해 xx로 수렴한다.

결론적으로, 축소 방법은 무한이라는 추상적 개념을 유한한 자원을 가지고 있는 컴퓨팅 기술에 적용시키는 방법입니다. Section 2: ML Perspective에서는 이러한 축소 방법론이 ML에서 어떻게 적용되는지 재현 커널 힐베르트 공간 (Reproducing Kernel Hilbert Space, RKHS)의 관점에서 분석해볼 예정입니다.

References

1. Matysiak, L., Przewoźniak, W., & Rulińska, N. (2021). Matrices of infinite dimensions and their applications. Italian Journal of Pure and Applied Mathematics, (46), 1–8. arXiv:2104.13404. https://arxiv.org/abs/2104.13404
2. Vasilyev, A. V., Vasilyev, V. B., & Kamanda Bongay, A. B. (2024). On infinite matrices. arXiv preprint arXiv:2403.06445. https://arxiv.org/abs/2403.06445
3. Adams, R. A., & Fournier, J. J. F. (2003). Sobolev spaces (2nd ed.). Academic Press. https://books.google.co.kr/books?id=R5A65Koh-EoC&printsec=frontcover&redir_esc=y#v=onepage&q=normed&f=false
4. William R. Wade, An Introduction to Analysis (4th Edition, 2010)

같이 보면 좋은 블로그 글/유튜브

  1. 생새우 초밥집
  2. Zundamon's Theorem

긴 글 읽어주셔서 감사합니다. 이 글에 대해 의견이 있다면 댓글로 남겨주세요.

profile
생각이 현실이 될 수 있도록 노력하는 중입니다.

6개의 댓글

comment-user-thumbnail
2025년 9월 27일

보통 AI를 공부한다고 하시면 언어모델이나 논문리뷰 위주로 작성하는데, 근본 선현대수학부터 공부하시는걸 보니까 참 멋지십니다!
인공지능 연구에 대한 공부보다 어떻게 사용해야 할지만 생각하고 있었던게 부끄러워 지네요 ㅜㅜ

답글 달기
comment-user-thumbnail
2025년 9월 28일

와. 제가 공학수학을 수강할 때 이 블로그가 있었더라면....(먼 산)
틈내서 이런 자료들을 찾아 기록하는 게 정말 멋집니다. 대학원에 잡혀가지 않게 조심하세요!

답글 달기
comment-user-thumbnail
2025년 9월 28일

어떤 상황에서 무한 행렬이 도입될 필요가 있는건가요? 최근 행렬 계산의 규모가 기하급수적으로 증가하고 있지만, 그걸 무한하다고 표현하기에는 무리가 있을 것 같은데, 산업에서 무한 행렬을 어떻게 활용하는지도 궁금해지네요!

답글 달기
comment-user-thumbnail
2025년 9월 29일

잘 읽었습니다!! InfiNet도 공부해볼게요

답글 달기
comment-user-thumbnail
2025년 9월 30일

이 글을 읽으니깐 선형대수학의 중요성을 다시 한 번 알게 됐네요,,, 공부 잘하고 갑니다!!

답글 달기
comment-user-thumbnail
2025년 9월 30일

너무 정리를 잘해주셔서 잘읽었습니다 ! 몇년째 어려워하는 분야이지만 열심히 해야겠다는 생각이 드네요,,

답글 달기