
이 글은 제가 학부 과정에서 배운 유한 행렬 (finite matrices)의 개념에서 행이나 열의 개수가 무한히 확장된 무한 행렬 (Infinite Matrices)의 개념으로 확장시키는 과정을 공유하기 위해 작성된 글입니다.
이 글은 추상적인 무한대라는 개념이 어떻게 행렬이라는 개념에 편입되는지 나아가 ML 아키텍처에서의 활용으로 어떻게 연결되는지 탐구합니다.
Section 1: Mathematical Intuition에서는 무한 행렬의 기본 이론을 소개하고, 이를 바나흐 공간 (Banach space)에서 작용하는 선형 유계 연산자 (linear bounded operators)로 해석하는 직관을 살펴봅니다. 특히, 컴퓨터 계산을 위해 무한 시스템을 유한 시스템으로 근사하고 해의 수렴성을 보장하는 축소 방법 (reduction method)에 집중할 예정입니다.
Section 2: ML Perspective에서는 이 무한 개념이 머신러닝에 어떻게 적용되는지 조명합니다. 특징 상호작용 공간 (feature interaction space)의 차원을 무한 차원으로 확장하는 방법론을 다루며, 이는 RBF 커널을 통해 구성되는 재현 커널 힐베르트 공간 (Reproducing Kernel Hilbert Space, RKHS)을 활용하여 InfiNet을 소개해볼 예정입니다.
만약 임의의 가역 연산자가 축소 방법을 허용하며 그 연산자가 무한 행렬로 표현가능하다면 이것은 무슨 의미인가
"If arbitrary invertible operator admits the reduction method, assuming the operator is presented by an infinite matrix?" [2]
행렬 (Matrices)은 대부분의 과학분야에서 응용되는 개념으로 고전역학 (Classical Mechanics), 광학 (Optics), 양자 전자역학 (Quantum Electrodynamics) 등 다양한 물리학 분야에서 응용됩니다. 컴퓨터 그래픽 분야에서는 3D 모델을 조작하고 이를 2차원 화면에 투사하는데 활용됩니다. [1]
행렬의 기본 개념이 익숙하지 않다면 Stanford의 ENGR108의 교재인 Introduction to Applied Linear Algebra처럼 기본 개념을 담은 선형대수학 책을 읽어보길 추천드립니다. 이 글에서는 행렬에 대한 기본적인 이해가 있다는 전제하에 작성하는 글이기에 기본 개념은 상세하게 다루지는 않습니다.
무한 행렬이란 행 또는 열이 무한대로 존재하는 행렬로 공식적으로는 행 인덱스와 열 인덱스를 부여하는 모든 요소에 대해 행렬 요소가 명확하게 정의되는 (well-defined matrix element) 행렬을 말합니다. 하지만 인덱스 집합이 자연수의 부분집합일 필요는 없습니다. [1]
이 행렬을 활용하기 위해서는 유한 행렬와 마찬가지로 무한 행렬에 대한 연산은 몇가지 조건이 필요하긴 하지만 정의내릴 수 있습니다.
무한 차원에서의 영 행렬, 삼각 행렬, 대각 행렬, 유니터리 행렬, 전치 행렬은 유한 행렬과 매우 유사하게 (analogously) 정의될 수 있습니다. [1]
영행렬 (Zero matrix): 모든 원소가 0인 행렬. 무한 차원에서도 모든 원소가 0이면 영행렬로 정의됩니다.
삼각행렬 (Triangular matrix): 상삼각 또는 하삼각 형태를 가지는 행렬. 무한 차원에서도 특정 방향으로 원소가 0인 구조를 유지하면 삼각행렬로 간주됩니다.
대각행렬 (Diagonal matrix): 대각선 외의 모든 원소가 0인 행렬. 무한 차원에서도 대각선만 값을 가지면 대각행렬입니다.
유니터리 행렬 (Unitary matrix): 자기 전치 행렬과 역행렬이 같은 행렬. 무한 차원에서도 내적 보존 조건을 만족하면 유니터리 행렬로 정의됩니다.
전치 행렬 (Transposed matrix): 행과 열을 바꾼 행렬. 무한 차원에서도 동일한 방식으로 정의됩니다.
우리가 행렬을 행에 곱하려고 할 때 우리는 아래와 같은 정보를 얻을 수 있습니다
일때 가 된다. 다시 말해 무한 행렬간의 곱은 무한 행렬로 계산된다.
일때, = 이고 이때 각 원소 꼴의 무한급수이고 이 급수는 반드시 수렴(Convergent series)해야 한다
와 가 정사각 행렬 (Square Matrix)일 때, 두 행렬곱 는 정의되어 행렬 가 성립한다.
만약 와 가 모두 무한의 차원에서 존재하는 행렬이며, 의 행의 개수는 의 열의 수와 같을때 (무한 차원에서 두 집합의 크기가 일대일 대응이 가능하여 동일할 때, ), 두 행렬의 곱을 정의하기 위해서는 의 행 집합과 의 열 집합은 수렴해야 한다.
유한 행렬 ()에서의 사상(Mapping)이란 차원 공간 의 벡터 를 차원 공간 의 벡터 로 변환하는 규칙이며 무한 행렬에서 역시 무한 차원 공간 의 벡터를 의 벡터로 변환하는 규칙이 됩니다. []
선형 사상 는 모든 벡터 를 변형시키지만, 그 결과 벡터 가 도달할 수 있는 영역 (image)은 제한될 수 있습니다.
랭크 (Rank): 사상을 통해 도달 가능한 영역 (image)의 크기
- 행렬 의 랭크는 이 선형 사상 가 도달할 수 있는 치역 (Image, )이라는 공간의 차원으로 정의된다.
이 정의는 행렬이 명시적으로 주어지지 않더라도 임의의 선형 사상에 적용할 수 있는 장점을 가집니다. 결국 랭크는 행렬 의 '변환 능력' 또는 '도달 가능한 공간의 크기'를 나타냅니다.
무한 행렬에서의 선형사상은 어떤 의미를 갖는가?
선형 사상은 무한 연립 방정식 시스템을 해석하는 데 직접적으로 사용됩니다.
Rouché-Capelli Theorem (Kronecker-Capelli Theorem) [1]
: compatibility condition of solution in system of linear equations"Let {}. A system of linear equations in n variables is compatible if and only if both the incomplete and complete matrices ( and respectively) are characterised by the same ."
: 시스템이 해를 가질 필요충분조건은 불완전 행렬 (or Coefficient Matrix) 의 랭크와 완전 행렬 (or Augmented Matrix) 의 랭크가 같다는 것입니다. 이는 타겟 벡터 (결과값) 가 행렬 의 열 벡터들의 선형 결합으로 표현될 수 있다는 것을 의미합니다.
가역성 (Invertibility):
선형 사상의 가역성은 해당 행렬의 역행렬 존재 여부와 연결됩니다.
- 선형 사상이 invertible하다의 의미
: 선형 사상 가 가역적일 필요충분조건은 (iff) 행렬 가 가 존재하는 것이다.
행렬이 가역적이라면, 무한 선형 시스템 의 해는 로 유일하게 결정됩니다. 무한 행렬의 역행렬을 찾기 위해서는 등과 같은 수렴 조건이 추가로 필요할 수 있습니다.
선형 변환 행렬의 구성: 기저 벡터 (basis vectors)의 역할
어떤 선형 변환 가 주어졌을 때, 이 변환을 행렬 로 표현하는 방법은 기저를 설정하고 변환 확인 후 행렬을 구성하는 것이다.
: 추상적 선형 사상 (function)
: 기저를 고른 뒤 얻어진 의 구체적인 행렬 표현 (coordinates of )
기저 설정이란 입력 공간 (domain) 와 출력 공간(codomain) 각각에 기저 벡터 와 를 설정하는 것을 말합니다 (여기서 과 은 무한할 수 있습니다).
이를 통해 변환 이 의 각 기저 벡터 에 어떻게 작용하는지 확인하며, 그 결과 는 의 기저 벡터들의 선형 결합으로 표현됩니다. []
이때, 변환 행렬 은 이 선형 결합의 계수()들을 사용하여 구성됩니다. 즉, 행렬 의 각 열은 입력 공간의 기저 벡터가 출력 공간의 기저 벡터들로 어떻게 '분해'되는지를 담고 있습니다.
결국 수렴 조건은 유한 행렬에서 무한 행렬로 확장하는데 가장 중요한 열쇠가 되며, 이러한 엄밀한 정의는 무한 행렬을 단순한 숫자의 나열을 넘어, 함수 공간에서 작용하는 Operator로 해석할 수 있는 길을 열어줍니다.
로 구성된 에 존재하는 집합 에 대하여 작용하는 선형 유계 연산자 (linear bounded operator) A는 무한 행렬로 표현될 수 있다.
바나흐 공간 (Banach Space)에 대해 논하기 전에 먼저 노름 공간 (Normed Space)에 대해 알아야 합니다.
노름 (norm, )
:벡터 공간 의 원소 에 대해 라고 쓰면, 벡터 의 "길이" 또는 "크기"를 나타내는 실수값이다.예시
- 유클리드 공간 에서의 표준 노름(=2-노름, Euclidean norm):
- 1-노름 (Manhattan norm):
- 무한대 노름 (Max norm):
노름 공간이란 벡터 공간 에 대하여 아래의 세 조건을 만족하는 :이 존재하면 를 의 놈 ()이라 하고 (, )를 노름 공간이라고 합니다. [3]
, 이고 (iff)
이고 일 때,
(ℂ: 복소수 집합 (Complex numbers set))일때
이런 노름 공간 중 완비성 (completeness)을 갖춘 완비 노름 거리 공간을 바나흐 공간이라고 합니다. 완비 공간이란 모든 코시수열 (Cauchy sequence)이 수렴하는 공간을 말합니다.
완비란 무엇인가에 대해 설명하기 위해서는 이 글이 너무 길어질 수 있고 글의 방향성과도 맞지 않기에 우선은 거리공간 의 에서 수렴하는 수열이 모두 의 점으로 수렴하면 를 완비 공간이라고 한다까지만 설명하겠습니다. (추후 완비 공간에 대해 다룬 글을 올리면 링크를 넣을 예정입니다.)
바나흐 공간의 예로는 , , 가 있으며 바나흐 공간은 함수를 함수들을 벡터처럼 다룰 수 있게 해주는 수학적 구조입니다. 이 공간에서 선형 유계 연산자는 하나의 함수(벡터)를 다른 함수(벡터)로 변환하는 역할을 하며, 이 변환 과정이 바로 무한 행렬로 나타나는 것입니다.
이런 연산자의 관점은 무한에 대한 시스템에 대해 추상화를 할 수 있게 합니다. 예를 들면 무한 개의 변수와 무한 개의 방정식으로 이루어진 무한 연립 선형 방정식 시스템은 연산자 관점을 도입함으로써 라는 매우 간결한 추상적 방정식으로 표현할 수 있습니다. 이는 복잡한 개별 방정식들을 다루는 대신, 라는 연산자의 성질(가역성, 노름 등)을 분석하는 문제로 전환시켜 줍니다.
하지만 이 이론적인 연산자 방정식 는 그 자체로 컴퓨터를 통해 직접 계산할 수 없다는 명백한 한계를 가지는데, 무한한 계산을 유한한 시간 안에 수행할 수는 없기 때문입니다. 그렇기 때문에 단순히 무한 행렬을 컴퓨터 자원을 활용해 물리적으로 구현하려는 시도는 비효율적인 선택지가 되어버립니다. 따라서 실용적인 관점에서 무한 행렬을 연결하기 위해서는 무한한 문제를 유한한 문제로 근사하는 체계적인 방법론이 필요하게 되는 것이고, 그것이 바로 축소 (Reduction)입니다.
If a certain , , and there is the sequence such that then . [2]
축소의 단계는 두단계로 나누어 볼 수 있습니다. [2]
먼저, 무한 연산자 방정식 를 유한한 차원 부분 공간으로 투영(projection)합니다. 이는 곧 무한 행렬 A의 왼쪽 위 부분 행렬만을 고려하여 이라는 유한 연산자를 만드는 것과 같습니다.
여기서 은 으로 표시되는 n차원 부분 공간으로의 프로젝터입니다. 이렇게 변환된 유한 시스템은 가 되며, 이는 우리가 컴퓨터로 풀 수 있는 유한 연립방정식이 됩니다.
이렇게 만들어진 유한 연산자 들의 수열은 이 무한대로 갈 때, 원래의 무한 연산자 A로 강하게 수렴(strongly converges)합니다. 즉, n→∞일 때 가 모든 x에 대해 로 수렴하게 됩니다.
강하게 수렴한다는 것은 곧 공간 의 모든 벡터 에 대해, 라는 벡터 수열이 로 수렴한다는 것을 의미합니다. 반대의 개념으로 약한 수렴 (Weak Convergence)도 존재하지만 이 글에서는 다루지 않을 예정입니다.
starting from a certain , , the operators
are invertible;
we have the estimate with constant non-depending on ;
the solution to the equation (2) converges to the solution x of the equation (1) under [2]
만약 원래의 무한 연산자 가 유계 역 연산자 를 가진다면, 다음 세 가지 중요한 결과가 보장됩니다.
1. 존재성: 충분히 큰 이 존재하여, 모든 에 대해 유한 연산자 역시 역 연산자를 가진다. 즉, 근사된 유한 시스템도 해를 가진다.
2. 안정성: 유한 연산자의 역 의 노름(norm)이 의 크기에 관계없이 균일하게 유계 ()이다 (). 이는 이 커져도 근사해의 안정성이 유지됨을 의미한다.
3. 수렴성: 유한 시스템의 해 은 이 무한대로 갈수록, 원래 무한 시스템의 정확한 해 로 수렴한다.
결론적으로, 축소 방법은 무한이라는 추상적 개념을 유한한 자원을 가지고 있는 컴퓨팅 기술에 적용시키는 방법입니다. Section 2: ML Perspective에서는 이러한 축소 방법론이 ML에서 어떻게 적용되는지 재현 커널 힐베르트 공간 (Reproducing Kernel Hilbert Space, RKHS)의 관점에서 분석해볼 예정입니다.
1. Matysiak, L., Przewoźniak, W., & Rulińska, N. (2021). Matrices of infinite dimensions and their applications. Italian Journal of Pure and Applied Mathematics, (46), 1–8. arXiv:2104.13404. https://arxiv.org/abs/2104.13404
2. Vasilyev, A. V., Vasilyev, V. B., & Kamanda Bongay, A. B. (2024). On infinite matrices. arXiv preprint arXiv:2403.06445. https://arxiv.org/abs/2403.06445
3. Adams, R. A., & Fournier, J. J. F. (2003). Sobolev spaces (2nd ed.). Academic Press. https://books.google.co.kr/books?id=R5A65Koh-EoC&printsec=frontcover&redir_esc=y#v=onepage&q=normed&f=false
4. William R. Wade, An Introduction to Analysis (4th Edition, 2010)
긴 글 읽어주셔서 감사합니다. 이 글에 대해 의견이 있다면 댓글로 남겨주세요.
보통 AI를 공부한다고 하시면 언어모델이나 논문리뷰 위주로 작성하는데, 근본 선현대수학부터 공부하시는걸 보니까 참 멋지십니다!
인공지능 연구에 대한 공부보다 어떻게 사용해야 할지만 생각하고 있었던게 부끄러워 지네요 ㅜㅜ