선형대수학 정리

유승우·2023년 9월 26일

노션 링크

Vector space

vector space의 조건

  1. There exist an additive identity 00 (영벡터가 존재)
  2. For each xVx \in V, there exists an additive inverse x-x (역벡터 존재)
  3. There exist a multiplicative identitiy in R\mathbb{R} such that 1x=x1x = x for all xVx \in V
  4. Commutativity(교환 법칙): x+y=y+xx + y = y + x for all x,yVx, y \in V
  5. Associativity(결합 법칙): (x+y)+z=x+(y+z)(x + y) + z = x + (y+z) and α(βx)=(αβ)x\alpha(\beta x) = (\alpha\beta)x for all x,y,zVx, y, z\in V and α,βR\alpha,\beta \in \mathbb{R}
  6. Distributivity(분배법칙): α(x+y)=αx+αy\alpha (x+y)=\alpha x+\alpha y and (α+β)x=αx+βx(\alpha + \beta)x = \alpha x +\beta x for all x,y,zVx, y, z\in V and α,βR\alpha,\beta \in \mathbb{R}

sparsity

A vector is sparse if many of its entries are 0

요소 중에 0이 많은 벡터

span

spanspan of VV : all possible linear combination of the vectors

span{v1,...,vn}={vV:α1,...,αnspan\{v_1, ...,v_n\} = \{v \in V:\exists \alpha _1,...,\alpha_n such that α1v1+...+αnvn=v}\alpha_1v_1 + ... + \alpha_nv_n = v\}

Superposition

superposition(linear function)

f:RnRf: R^n \rightarrow R satisfies superposition property if

f(αx+βy)=αf(x)+βf(y)f(\alpha x+\beta y)=\alpha f(x) + \beta f(y)

→ f is a linear function!

inner product function

f(αx+βy)=aT(αx+βy)=aT(αx)+aT(βy)=α(aTx)+β(aTy)=αf(x)+βf(y)f(\alpha x+\beta y) = a^T(\alpha x + \beta y) = a^T(\alpha x) + a^T(\beta y) = \alpha(a^T x) + \beta (a^T y) = \alpha f(x) + \beta f(y)

→ f is a linear function!

Affine function

a function that is linear plus a constant

f(x)=aTx+bf(x) = a^Tx+b

Untitled

affine 함수는 α+β=1\alpha + \beta = 1일 때만 f(αx+βy)=αf(x)+βf(y)f(\alpha x+\beta y)=\alpha f(x) + \beta f(y)을 만족한다. (αf(x)+βf(y)\alpha f(x) + \beta f(y)가 직선 위에 있을 때 (내분점, 외분점))

Norm

Euclidean norm

x=x12+x22+...+xn2=xTx\Vert x\Vert = \sqrt{x_1^2+x_2^2+...+x_n^2} = \sqrt{x^Tx}
  • homogeneity: βx=βx\Vert \beta x \Vert = \vert\beta\vert\Vert x\Vert
  • triangle inequality(삼각 부등식): x+yx+y\Vert x+y\Vert \leq \Vert x\Vert + \Vert y \Vert
  • non-negativity: x0\Vert x\Vert \geq 0
  • definiteness: x=0\Vert x \Vert = 0 only if x=0x = 0

Norms

크기를 정의한 다양한 방식들

xp=(i=0nxp)1p\Vert x \Vert_p = \left(\sum_{i=0}^n\vert x\vert^p\right)^{\frac{1}{p}}
x=max1inxi\Vert x\Vert_\infin = \underset{1\leq i \leq n}{max} \vert x_i \vert

Untitled

For two norms A and B, there exist constants alpha > 0, beta > 0 such that: αxAxBβxA\alpha \Vert x \Vert _A \leq \Vert x \Vert_B \leq \beta \Vert x \Vert _A

xAxB\Vert x \Vert _A \approx \Vert x \Vert _B 이라는 말

Linear independence

Linear dependence

set of n-vectors {a1,...,ak}\{a_1, ... , a_k\}(with k \geq 1) is linearly dependent if

β1a1+...+βkak=0\beta_1a_1 + ... + \beta_ka_k = 0

β1,...,βk\beta_1, ..., \beta_k are not all zero!

aia_i는 다른 벡터들의 선형 결합이다. (있는 벡터들로 다른거 만들 수 있음.)

3차원 평면이 원점을 지나면 그냥 2차원임. (그래서 벡터 3개면 dependence 될 수 밖에)

Linear independence

정의

Linear dependence가 아니면 Linear independence

β1a1+...+βkak=0\beta_1a_1 + ... + \beta_ka_k = 0 holds only when β1=...=βk=0\beta_1 = ... =\beta_k = 0

aia_i는 다른 벡터들의 선형 결합이 아니다.

ex) e1,...,e2e_1, ..., e_2 is linearly independent

특성

  • x=β1a1+...+βkakx = \beta_1\mathbf{a}_1 + ...+\beta_k\mathbf{a}_k the coefficients(계수) β1,...,βk\beta_1,...,\beta_k are unique(유일하다!)
    • pf) x=γ1a1+...+γkak(γiβi)\mathbf{x} = \gamma_1\mathbf{a_1} + ... +\gamma_k\mathbf{a_k} (\gamma_i \neq \beta_i)γ\gamma가 존재하면 (β1γ1)a1+...+(βkγk)ak=0(\beta_1-\gamma_1)a_1+...+(\beta_k-\gamma_k)a_k = 0, linear dependent하므로 모순.
  • a linearly independent set of n-vectors can have at most n elements.
    • ex)3차원에서 벡터 4개는 무조건 dependent

Dimension

Basis

정의

  • a set of n linearly independent n-vectors a1,...,ana_1,...,a_n
  • any n-vector b can be expressed as a linear combination of them: x=β1a1+...+βkakx = \beta_1a_1 + ...+\beta_ka_k 앞서 언급했듯이, 계수는 유일하다.
  • basis generates vector space.

Dimension

정의

  • v1,...,vnV,\mathbf{v}_1, ..., \mathbf{v}_n \in V, If v1,...,vn\mathbf{v}_1,...,\mathbf{v}_n 가 선형 독립이면 {v1,...,vn}\{\mathbf{v}_1,...,\mathbf{v}_n\} forms a basis for VVspan{v1,...,vn}=Vspan\{\mathbf{v}_1,...,\mathbf{v}_n\} = V
  • basis for a vector space V의 벡터 개수: the dimension of V, dim V

Subspace

정의

SVS \subseteq V is a subspace of V(V는 vector space) if

  1. 0S0 \in S
  2. SS is closed under addition : x,yS    x+ySx, y \in S \implies x+y \in S
  3. SS is closed under scalar multiplication : xS,αR    αxSx \in S, \alpha \in \mathbb{R} \implies \alpha x \in S

Untitled

연산과 dimension

  • If U,WU, WVV의 subspace     \implies U+W={u+wuU,wW}U + W = \{\mathbf{u} + \mathbf{w} \vert \mathbf{u} \in U, \mathbf{w} \in W \}, U+WVU + W \in V
    • If UW={0}U \cap W = \{0\}, the sum is said to be direct sum, UWU \oplus W

Untitled

  • dimension
    • dim(U+WU+W) = dim UU + dim WW- dim(UWU \cap W)
    • dim(UW)(U \oplus W ) = dim UU + dim WW (dim({0})=0)\because dim(\{0\}) = 0)

Linear Maps

정의

  • T:VWT :V \rightarrow W, where VVWW는 vector space
    1. T(x+y)=Tx+Ty,x,yVT(\mathbf{x}+\mathbf{y}) = T\mathbf{x} + T\mathbf{y}, \forall \mathbf{x},\mathbf{y} \in V
    2. T(αx)=αTx,xV,αRT(\alpha \mathbf{x}) = \alpha T\mathbf{x}, \forall \mathbf{x} \in V, \forall\alpha \in \mathbb{R}
  • T:VVT: V \rightarrow V 이면 TT는 linear operator
  • 행렬 ARm×nA \in \mathbb{R}^{m \times n}T:RnRmT : \mathbb{R}^n \rightarrow \mathbb{R}^m인 linear map이다.
    • 증명? 생각해보면 맞음

Null space, Range

  • null(TT) = {vVTv=0}\{v \in V \vert Tv=0\}
  • range(TT) = {wWvV\{\mathbf{w} \in W \vert \exists\mathbf{v} \in V such that Tv=w}T \mathbf{v} = \mathbf{w}\}

Untitled

  • column space of a matrix ARm×nA \in \mathbb{R}^{m \times n}:
    • span of its columns
    • A=[a1,...,an]A = [\mathbf{a_1},...,\mathbf{a_n}], column space = span{a1,...,an}span\{\mathbf{a_1},...,\mathbf{a_n}\}
    • range(AA)
      • 가중치
  • row space of a matrix ARm×nA \in \mathbb{R}^{m \times n}:
    • range(ATA^T)
  • rank(A)(A) = dim range(AA) = dim range(ATA^T)
    • 뒤에 두개는 같을 수밖에 없다. 행과 열이 각각 m개, n개의 일차독립일 수는 없기 때문이다.

Orthogonal

Orthogonal Complement

정의

VV가 inner product space(inner product가 정의된 vector space)일 때, SVS \subseteq V인 S의 orthogonal complement SS^\botSS의 모든 원소(basis)와 직각인 (VV 안의)벡터들의 집합이다.

S={vVsS.vs}S^\bot = \{\mathbf{v} \in V \vert \forall \mathbf{s} \in S.\mathbf{v} \bot \mathbf{s}\}

특성

  • 모든 vV\mathbf{v} \in Vv=vS+v\mathbf{v} = \mathbf{v}_S + \mathbf{v}_\bot의 형태로 unique 하게 표현 될 수 있다. (vSS,vS\mathbf{v}_S \in S, \mathbf{v}_\bot \in S^\bot)
    • V=SSV = S \oplus S^\bot (참고)

Orthonormal

Orthonormal vectors

  • Orthogonal set:
    • set of n-vectors a1,...,ak,aiaja_1,..., a_k, a_i \neq a_j for iji \neq j
  • Orthonormal set:
    • Orthogonal set인데 ai=1\Vert a_i \Vert = 1
  • aiTaj={1i=j0ija_i^Ta_j = \begin{cases} 1 & i=j \\ 0& i\neq j\end{cases}
  • Orthonormal set들은 linearly independent.
  • k \leq n (참고), if k = n 이 set은 orthonormal basis!

Orthonormal expansion

a1,...ana_1, ...a_n이 orthonormal basis이면, 임의의 x(xRn)x(x \in \mathbb{R}^n)

x=(a1Tx)a1+...+(anTx)anx = (a_1^Tx)a_1 + ... + (a_n^Tx)a_n

과 같이 표현할 수 있다. 이를 Orthonormal expansion of x라 부름.

ex) x=(1234)=(1234)(1000)(1000)...x = \begin{pmatrix} 1 \\ 2 \\ 3\\4 \end{pmatrix} = \begin{pmatrix} 1&2&3&4 \end{pmatrix} \cdot \begin {pmatrix} 1\\0\\0\\0\end{pmatrix}\begin {pmatrix} 1\\0\\0\\0\end{pmatrix} ...

Gram-schmidt orthogonalization

linearly independent한 벡터(a1,...,ak)(a_1, ..., a_k)들을 orthonormalize하는 방법

  1. orthogonalize: qi~=ai(q1Tai)q1...(qi1Tai)qi1\tilde{q_i} = a_i - (q_1^Ta_i)q_1 - ... - (q^T_{i-1}a_i)q_{i-1}
  2. normalization: qi=qi~/qi~q_i = \tilde{q_i} / \Vert\tilde{q_i}\Vert

7E05AEFD-3912-4C29-AE56-576D33A5EFB6.jpeg

Orthogonal Projection

Psv=<v,u1>u1+...+<v,um>umPs\mathbf{v} = <\mathbf{v}, \mathbf{u_1}>\mathbf{u_1} + ... + <\mathbf{v}, \mathbf{u_m}>\mathbf{u_m}

(uiu_i is orthonormal basis of SS, vV\mathbf{v} \in V)

S에 정사영하는 것.

  • vPsvS\mathbf{v} - Ps\mathbf{v} \bot S
  • Psx=mi=0xTuiui=mi=0uiuiTx=(mi=0uiuiT)x=UUTxPs\mathbf{x} = \underset{i=0}{\overset{m}{\sum}}x^Tu_iu_i = \underset{i=0}{\overset{m}{\sum}}u_iu_i^Tx = \left(\underset{i=0}{\overset{m}{\sum}}u_iu_i^T\right)x = UU^Tx (U=[u1,...un]U = [u_1, ...u_n]) 20B7A341-8985-4B5A-90E5-726F5E1400E9.jpeg
    • UTU^T는 basis에 정사영시킨 크기를 구하고, UU는 그쪽 성분 벡터를 구함.

Matrix

columns and row

  • jth columns is the m-vector
  • ith row is the n-row-vector
  • slice of matrix: Ap:q,r:sA_{p:q,r:s} 은 (q - p +1) * (s - r + 1) matrix

Block matrix

0912C03F-F387-497E-8451-D0743000F452.jpeg

Special matrices

  • zero matrix: 모든 요소가 0, 0m×n0_{m \times n}
  • identity matrix: Iii=1,Iij=0I_{ii} = 1, I_{ij} = 0인 square matrix (ij)i \neq j)
    • ex) (100010001)\begin{pmatrix} 1 & 0&0 \\ 0 & 1&0 \\ 0&0&1 \end{pmatrix}
  • sparse matrix: 대부분 요소가 0
  • diagonal matrix: Aij=0(ij)A_{ij} = 0 (i \neq j)
    • ex) diag(0.2,3)=(0.2003)diag(0.2, 3) = \begin{pmatrix} 0.2 & 0 \\ 0 & 3 \end{pmatrix}
  • triangular matrix
    • lower triangular matrix: Aij=0(i<j)A_{ij} = 0 (i < j)
    • upper triangular matrix: Aij=0(i>j)A_{ij} = 0 (i > j)
      • ex) lower: (3002.43.702803001)\begin{pmatrix} 3 & 0&0 \\ 2.4 & 3.7&0 \\ 280&300&1 \end{pmatrix} upper: (1282.76.5087009.1)\begin{pmatrix} 128 & -2.7&6.5 \\ 0 & 8&7 \\ 0&0&9.1 \end{pmatrix}

Norm (Frobenius)

AF=(mi=1nj=1aij2)\Vert A \Vert_F = \left(\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{n}{\sum}}a_{ij}^2\right)

당연히 이 성질들도 만족!

distance between two matrices: AB\Vert A-B\Vert

Matrix-vector

product

  • y=Axy = Axy=x1a1+...+xnany = x_1a_1 + ... + x_na_n의 꼴로 나타낼 수 있다. (a1,...,ana_1,...,a_n은 A의 columns ex) Aej=ajAe_j = a_j
    • A의 columns가 linearly independent하다면 Ax=0x=0Ax = 0 \rightarrow x=0
  • $A = \begin{pmatrix}
    1 - {1\over n}& - {1\over n}&...&- {1\over n} \
    • {1\over n} & 1- {1\over n}&...&- {1\over n} \
      \vdots & & \ddots &\vdots\
  • {1\over n}&- {1\over n}&...&1- {1\over n}
    \end{pmatrix}이면 $\tilde{x} = Ax 는 de-meaned(정규화..?) version
  • D=(110...0011...0000...1)D = \begin{pmatrix} -1& 1&0&...&0 \\ 0 & -1&1&...&0 \\ \vdots & & & \ddots &\vdots\\ 0&0&0&...&1 \end{pmatrix} ,DR(n1)×nD \in \mathbb{R}^{(n-1)\times n}이면 Dx=(x2x1x3x2xnxn1)Dx = \begin{pmatrix} x_2-x_1 \\ x_3-x_2 \\ \vdots\\x_n-x_{n-1} \end{pmatrix}이다.

Eigenvalue, Eigenvector

정의

square matrix ARn×nA \in \mathbb{R}^{n \times n}에 대해

Ax=λxAx= \lambda x

를 만족하는 영벡터가 아닌 xRnx \in \mathbb{R}^n을 eigen vector, 그에 대응하는 스칼라 λ\lambda를 eigen value라 한다.

특징

  • 임의의 실수 γ\gamma에 대해 xxA+γIA + \gamma I의 eigen vector이다. 이때 eigen value는 λ+γ\lambda + \gamma
  • A가 invertable하다면(A1A^{-1}가 존재한다면), xxA1A^{-1}의 eigen vector이고, eigen value는 λ1\lambda^{-1}
  • Akx=λkxA^kx = \lambda^kx for any kZk \in \mathbb{Z} (A0=I)(A^0 = I)
  • xx는 실수배가 된 형태로 나타남
  • 하나의 eigen value에 대해서 여러개의 eigen vector가 존재할 수 있다. vector space(span(v1...)span(v_1...))이 다차원일 수 있는 것이다.

eigen value는 eigen vector의 방향으로 얼마나 축소/확대 되었는지 알려준다!

trace, determinant

  • trace:
    • square matrix의 대각선(diagonal) entries들의 합
    • tr(AA) = ni=1Aii\underset{i=1}{\overset{n}{\sum}}A_{ii}
      • tr(A+B)A +B) = tr(AA) + tr(BB)
      • tr(αA)\alpha A) = α\alphatr(AA)
      • tr(ATA^T) = tr(AA)
      • tr(ABCDABCD) = tr(BCDABCDA) = \cdots
      • tr(AA) = iλi(A)\underset{i}{{\sum}}\lambda_i(A)
        • A=QΛQTA = Q\Lambda Q^T → tr(AA) = λ1q12++λnqn2=iλi(A)\Vert\lambda_1q_1\Vert^2 + \cdots + \Vert\lambda_nq_n\Vert^2 = \underset{i}{{\sum}}\lambda_i(A)
  • Determinant:
    • det(II) = 1
    • det(ATA^T) = det(AA)
    • det(ABAB) = det(AA)det(BB)
    • det(A1A^{-1}) = det(AA)1^{-1}
    • det(αA\alpha A) = αn\alpha ^ndet(AA)
    • det(AA) = Πiλi(A)\underset{i}\Pi \lambda_i(A)

Linear equation

Ax=bAx = b

particular and general solution

Xgeneral=Xparticular+XnullX_{general} = X_{particular} + X_{null}

particular solution 하나와 null space를 찾으면 Linear equation system을 풀 수 있다.

particular solution

Row-Echelon Form

Untitled

  • 행렬 가장 밑에 전부 0인 열이 있다면, 그 위 열들은 적어도 하나의 0이 아닌 원소를 포함한다.
  • 각 열의 가장 처음 오는 0이 아닌 요소(pivoit)은 바로 위의 열의 pivot보다 오른 쪽에 있다.
  • 0만 있는 열이 만들어지는 것은 열들이 linearly dependent하다는 것.

(121110001132000121000000)\left( \begin{array} {ccccc | c} 1 & -2&1&-1 &1&0 \\ 0 & 0&1&-1&3&-2\\ 0&0&0&1&-2&1\\ 0&0&0&0&0&0 \end{array} \right)과 같이 Row-Echelon Form으로 만들어지면 particular solution은 쉽게 구할 수 있다.(단, 마지막 행의 연산결과는 반드시 0이여야 함)

{x12x2+x3x4+x5=0x3x43x5=2 x42x5=1\begin{cases} x_1 - 2x_2 + x_3-x_4+x_5 = 0\\ \quad\quad\quad\quad\quad x_3 - x_4 - 3x_5 = -2 \\ \quad\quad\quad\quad\quad\quad\quad\ x_4 -2x_5 = 1 \end{cases}

과 같은 형태이기 때문이다.

general solution

Reduced Row-Echelon Form

(120020010100012)\begin{pmatrix} 1 & -2&0&0&-2 \\ 0&0 & 1&0&1 \\ 0&0&0&1&-2 \end{pmatrix}

와 같이 pivot이 있는 행도 모두 0인 형태

  • -1 Trick to find Ax = 0
    • A=(120020010100012), A~=(1200201000001010001200001)A = \begin{pmatrix} 1 & -2&0&0&-2 \\ 0&0 & 1&0&1 \\ 0&0&0&1&-2 \end{pmatrix}, \ \tilde{A} = \begin{pmatrix} 1 & -2&0&0&-2 \\0&-1&0&0&0\\ 0&0 & 1&0&1 \\ 0&0&0&1&-2\\ 0&0&0&0&-1 \end{pmatrix}과 같이 non-pivot columns에 -1을 붙인 열을 추가한다. 그리고 non-pivot column을 읽는다.
    • Solution of Ax=0:{x=λ1(21000)+λ2(20121,),λ1,λ2R}Ax = 0 :\{x = \lambda_1\begin{pmatrix} -2\\-1\\0\\0\\0 \end{pmatrix}+\lambda_2\begin{pmatrix} -2\\0\\1\\-2\\-1, \end{pmatrix},\quad \lambda_1,\lambda_2 \in \mathbb{R}\}
      - 단순한 스킬이지만 이해를 해보자면, non-pivot 열은 다른 문자를 표현하는 데에 사용되는데, 다른 문자에 non-pivot열의 계수값을 넣어주는 방법이다.
      - null space의 원소는 더 많겠지만, (m-n)개의 원소만 알면 span으로 모두 나오는 듯 하다.(다른게 나와도 dependent한 것)
      - number of unknown(λ\lambda의 개수) = dim null(A)
      - row space의 orthogonal complement (range(ATA^{T})^\bot)
      - number of equations(known) = dim range(A)
      - (Fundamental theorem of linear algebra)

Inverse Matrix

If AA is square and invertable

x=A1bx = A^{-1}b

Gaussian Elimination

역행렬을 찾는 기술

(AIn)(InA1)if A=B, EnA=EbB(A\vert I_n) \rightarrow \cdots \rightarrow (I_n\vert A^{-1}) \\ \because if \ A=B,\ E_nA = E_bB\quad
  • example
    A=(1010011011011110)A = \begin{pmatrix} 1 & 0&1&0 \\ 0 & 1&1&0 \\ 1&1&0&1 \\ 1&1&1&0 \end{pmatrix}
    (10101000011001001101001011100001)(10101000011001001101001000110011)(10101000011001001110000100110011)(10101000011001000010110100110011)(10000101010010010010110100011112)(10000101010010010010110100011112)\left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&0&1&0&0&1&0 \\ 1&1&1&0&0&0&0&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&0&1&0&0&1&0 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&1&0&0&0&0&1 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 0&0&-1&0&-1&-1&0&1 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&0&0 &0&-1&0&1 \\ 0 & 1&0&0&-1&0&0&1 \\ 0&0&-1&0&-1&-1&0&1 \\ 0&0&0&-1&-1&-1&-1&2 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&0&0 &0&-1&0&1 \\ 0 & 1&0&0&-1&0&0&1 \\ 0&0&1&0&1&1&0&-1 \\ 0&0&0&1&1&1&1&-2 \end{array} \right) \\

만약 과정 중에 한 열이라도 모두 소거되면 invertable하지 않은 것! (full rank가 아님)

If A is not square and ATAA^TA is invertable,

Ax=bATAx=ATbx=(ATA)1ATbAx = b\\ \Leftrightarrow A^TAx=A^Tb\\ \Leftrightarrow x=(A^TA)^{-1}A^Tb

차원을 낮춰서 생각하는 방법

  • ATAA^TA가 invertable 하려면? ARm×nA \in \mathbb{R}^{m \times n}이면 mnm \geq n(flat한 형태)이여야 한다. 즉, 등식의 개수가 미지수의 개수보다 많아야 한다. 만약 m<nm < n이라면(tall) 정보가 과도하게 팽창된 형태가 되기 때문에 full rank가 아니다. 그 외에도 또 있겠지?

Eigen Decomposition

Symmetric/Orthogonal matrix

Symmetric matrix

: ARn×n if A=AT, AA \in \mathbb{R}^{n \times n}\ if\ A = A^T, \ A is symmetric matrix

특징

  • eigen vector들이 orthogonal함.
  • eigen vector들로 AA의 column space의 basis를 얻을 수 있다.
A[q1,q2,,qn]=[λ1q1,λ2q2,,λnqn]A[q1,q2,,qn]=[q1,q2,,qn](λ1000λ20)=QΛA[q_1,q_2,\cdots,q_n] = [\lambda_1q_1,\lambda_2q_2, \cdots,\lambda_nq_n]\\ A[q_1,q_2,\cdots,q_n] = [q_1,q_2,\cdots,q_n]\begin{pmatrix} \lambda_1 &0&\cdots&0\\ 0&\lambda_2&\cdots&0\\ \end{pmatrix} = Q\Lambda

와 같이 표현(AQ=QΛAQ = Q\Lambda)할 수 있는데, AA가 symmetric matrix라면 다음을 만족한다.

  • QTQ=QQT=IQ^TQ = QQ^T = I
    • QTQ=(q12q1q2q1qnqnq1qnq2qn2)=InQ^TQ = \begin{pmatrix} \Vert q_1\Vert^2&q_1q_2&\cdots&q_1q_n\\ \vdots&\vdots&\ddots&\vdots\\ q_nq_1&q_nq_2&\cdots&\Vert q_n\Vert^2 \end{pmatrix} = I_n

Orthogonal matrix

QTQ=QQT=IQ^TQ = QQ^T = I을 만족한다면, QQ를 Orthogonal matrix라 한다.

ex) symmetric matrix의 eigen vector로 이루어진 matrix

특징

  • QT=Q1Q^T=Q^{-1}
  • (Qx)T(Qy)=xTQTQy=xTIy=xTy(Qx)^T(Qy)=x^TQ^TQy=x^TIy=x^Ty
    • inner product is preserved
  • Qx2=(Qx)T(Qx)=xTx=x2\Vert Qx\Vert_2 = \sqrt{(Qx)^T(Qx)} = \sqrt{x^Tx} = \Vert x\Vert _2
    • norm is preserved
  • 따라서, Orthogonal matrix를 곱하는 것은 벡터를 돌리거나 뒤집는 것이다.

Eigen decomposition

Symmetric matrix에 관함.(symmetric이 아니라면 eigen value가 허수이고, eigen vector들이 orthogonal하지 않기 때문에 여기선 논하지 않음.)

A = Q\Lambda Q^T\\ = \underset{i=1}{\overset{n} \sum }\lambda_iq_iq_i^T \\

20B7A341-8985-4B5A-90E5-726F5E1400E9.jpeg

(QQ는 eigen vectors, Λ\Lambda는 eigen values)

  • 의미를 이해해보자 Ax=QΛQ1xAx = Q\Lambda Q^{-1}x Untitled
    1. y=Q1xy = Q^{-1}x라 하면, Qy=xQy=x이다. 즉 y는 x를 만들기 위해 각 eigen vector에 곱해야 하는 값이다. 여기서는 (2, 1)이다.

    2. z=Λyz=\Lambda y라 하면, 각 방향에 eigen value를 곱하는 것이다. 그러면 (-2, 2)가 된다.

    3. QzQz는 계산된 벡터를 QQ로 선현 변형 시키는 것이다.

      Untitled

      요약하자면, eigen vector들로 선형변환을 해제(?)시키고 eigen value를 반영해서 다시 선형변환시키는 것이다.

      다르게 이해하자면 eigen vector에 대한 coordinate으로 변환시켰다가 다시 원래 basis에 대한 coordinate로 변환시키는 것이다. (AA를 곱하는 것을 기본 basis의 coordinate로 변환시키는 것으로 본다면)

AA가 symmetric matrix 라면

QQT=QTQ=Iqiqj (ij)QQ^T=Q^TQ=I\\\because q_i \bot q_j \ (i \neq j)

solving system of linear equation

Ax=b(QΛQT)x=bΛQTx=Q1b=QTbx=QΛ1QTb(Λ1=diag(λ11,,λn1))Ax = b\\ (Q\Lambda Q^T)x=b\\ \Lambda Q^Tx = Q^{-1}b=Q^T b \\ x = Q\Lambda^{-1}Q^Tb\\\quad(\Lambda^{-1}=diag(\lambda_1^{-1},\cdots,\lambda_n^{-1}))

if AA is invertable, Λ\Lambda is also invertable. 이유: 링크

계산의 시간복잡도가 매우 줄어든다.

n3+n2n2+n+n2n^3 + n^2 \Rightarrow n^2 +n+n^2 (행렬 간의 계산은 n3n^3, 벡터-행렬은 n2n^2)

(O(n3)O(n2)O(n^3) \Rightarrow O(n^2))

Fundamental theorem of linear algebra

ARm×nA \in \mathbb{R}^{m \times n}에 대해

  1. null(AA) = range(ATA^T)^\bot
  2. null(AA) \oplus range(ATA^T) = Rn\mathbb{R}^{n}
  3. dim range(AA) + dim null(AA) = n ( \because dim(Rn\mathbb{R}^n) = n, range(AA) = range(ATA^T))

Untitled

Untitled

7729CC9C-18CC-4803-9B8E-43EA1FDD3167.jpeg

null(AA)은 row space의 ortogonal complement

모든 xRnx \in \mathbb{R}^n은 unique하게 다음과 같이 표현될 수 있다.

x=ATv+w(vRm, wnull(A))x = A^Tv +w\\ (v \in \mathbb{R}^m, \ w \in null(A))

AA가 invertable하다는 것

  • injective한 map이다. (basis로 유일하게 표현됨)
  • dim null(AA) = dim null(ATA^T) = 0 (null(AA) = {00})
  • 0을 eigen value로 갖지 않는다.
  • Ax=bAx=b가 유일한 근을 갖는다.
  • Ax=bAx = b를 eigen decomposition을 이용해 풀 수 있다.(A1A^{-1}을 직접계산 x)
  • 각 행과 열이 각각 lineary dependent하다.
  • full rank를 갖는다.(rank(A) = n) Untitled

Singular value decomposition

eigen decomposition이 square(symmetric) matrix에 대해 다루었다면, Singular value decomposition은 non-symmetric matrix에 대해 다룬다.

ARm×nA \in \mathbb{R}^{m \times n}

A=U\Sigma V^T\\ =\overset r{\underset {i=1} \sum}\sigma_iu_iv_i^T

URm×mU \in \mathbb{R}^{m \times m}: left singular vectors

VRn×nV \in \mathbb{R}^{n \times n}: right singular vectors

ΣRm×n\Sigma \in \mathbb{R}^{m \times n}: singular values

rr = rank(AA)

U,VU, Vorthogonal matrix, Σ\Sigmadiagonal matrix

앞에서 rr개의 singular value만 0이 아니고, 정렬되어 있음.

σ1σ2σr>σr+1==0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > \sigma_{r+1} = \cdots = 0

8972295E-BE48-4737-B133-1EB2FEF05FCC.jpeg

SVD by Eigen decomposition

AA 대신 AATAA^T혹은 ATAA^TA를 이용하면 square matrix가 되므로 eigen dicomposition을 이용할 수 있다.

  1. ATAA^TA

    ATA=(UΣVT)T(UΣVT)=VΣUTUΣVT=VΣ2VTA^TA = (U\Sigma V^T)^T(U\Sigma V^T) \\ =V\Sigma U^TU\Sigma V^T\\ =V\Sigma^2V^T
    • AAVV(right singular vectors)는 ATAA^TA의 eigen vectors이다.
    • AAΣ\Sigma(singular values)는 ATAA^TA의 eigen values의 양의 제곱근이다.
  2. AATAA^T

    AAT=(UΣVT)(UΣVT)T=UΣVTVΣUT=UΣ2UTAA^T= (U\Sigma V^T)(U\Sigma V^T)^T \\ =U\Sigma V^TV\Sigma U^T\\ =U\Sigma^2U^T
  • AAUU(left singular vectors)는 ATAA^TA의 eigen vectors이다.
  • AAΣ\Sigma(singular values)는 ATAA^TA의 eigen values의 양의 제곱근이다.

λi(ATA)\lambda_i(A^TA) or λi(AAT)\lambda_i(AA^T)는 항상 0보다 같거나 크다! ← 이유

Rayleigh quotient

ARn×nA \in \mathbb{R}^{n\times n} be a symmetric matrix

  • quadratic form: xTAxx^TAx ← scalar
  • Rayleigh quotient:
    RA(x)=xTAxxTxR_A(x) = {{x^TAx}\over{x^Tx}}
    • scale invariance(불변): RA(x)=RA(αx)(x0,α0)R_A(x) = R_A(\alpha x)\quad (x \neq 0, \alpha\neq0)
    • xxλ\lambda를 eigen value로 가지는 eigen vector라면, RA(x)=λR_A(x) = \lambda
    • For all x0x \neq 0, λmin(A)RA(x)λmax(A)\lambda_{min}(A) \leq R_A(x) \leq\lambda_{max}(A)
      • 등호는 xx가 eigen vector 일 때만 성립.

Positive (semi-)definite matrix

  1. A0A \succeq 0

    :positive semi-definite

    for all xRn, xTAx0x \in \mathbb{R}^n, \ x^TAx \geq 0

    ↔A의 모든 eigen value가 0 이상이다 (xTAxxTx0λmin(A)0)(\because{{x^TAx}\over{x^Tx}} \geq0 \Rightarrow \lambda_{min}(A) \geq 0)

  2. A0A \succ0

    : positive definite

    for all non-zero xRn, xTAx>0x \in \mathbb{R}^n, \ x^TAx > 0

    ↔A의 모든 eigen value가 0보다 크다

    • pf) xTAx0λ0x^TAx \geq 0 \leftrightarrow \forall_\lambda \geq 0 i) xTAx0λ0x^TAx \geq 0 \rightarrow \forall_\lambda \geq 0 let xx be an eigen vector of AA with eigen value λ\lambda.
      0xTAx=xT(λx)=λxTx=λx220 \leq x^TAx =x^T(\lambda x)=\lambda x^Tx = \lambda\Vert x \Vert^2_2
      xx는 eigen vector이므로 x0. λ0x\neq 0.\ \therefore \lambda\geq 0 ii) xTAx0λ0x^TAx \geq 0 \leftarrow \forall_\lambda \geq 0
      0λmin(A)RA(x)0 \leq \lambda_{min}(A) \leq R_A(x)

ARm×nA \in \mathbb{R}^{m \times n}일 때, ATAA^TA는 positive semi-difinite이며, null(AA) = {0}이면 ATAA^TA는 positive definite이다.

  • pf) xRnx \in \mathbb{R}^n,
    xT(ATA)x=(Ax)TAx=Ax220x^T(A^TA)x = (Ax)^TAx=\Vert Ax\Vert^2_2 \geq 0
    이므로 ATAA^TA 는 positive semi-difinite이다. null(AA) = {0} 이라면, Ax0 (x0)Ax \neq 0 \ (x \neq 0)이므로 Ax22>0\Vert Ax \Vert_2^2 > 0. 따라서 ATAA^TA는 positive definite이다.

ATAA^TA의 eigen value, 즉 AA의 sigular value의 제곱은 항상 음이 아니다.

Operator norm of a matrix

If T:VWT : V \rightarrow W is a linear map, operator norm is Top=maxxV,x0Axpxp\Vert T \Vert _{op} = \underset {x\in V,x \neq 0}{max}{\Vert Ax\Vert_p \over \Vert x\Vert_p} (참고만)

For a matrix ARm×nA \in \mathbb{R}^{m \times n} the matrix p-norm is

Ap=maxx0Axpxp\Vert A \Vert_p = \underset {x\neq0}{max} {\Vert Ax\Vert_p \over \Vert x\Vert_p}
  • A1=max1jn i=1mAij\Vert A \Vert_1 = \underset {1 \leq j\leq n }{max}\ \overset m{\underset {i=1}{\sum}} |A_{ij}| : 열의 합 중 최대
  • A=max1imj=1nAij\Vert A \Vert_\infin = \underset {1 \leq i\leq m }{max}\overset n{\underset {j=1}{\sum}} |A_{ij}| : 행의 합 중 최대
  • A2=σ1(A)\Vert A \Vert_2 = \sigma_1(A) :largest singular value of AA
    • A2=maxx0Ax2x2=maxx0xTATAxxTx=maxx0RATA(x)=σ1(A)\Vert A \Vert_2 = \underset {x\neq0}{max} {\Vert Ax\Vert_2 \over \Vert x\Vert_2} = \underset {x\neq0}{max}{x^TA^TAx\over x^Tx} = \underset {x\neq0}{max} R_{A^TA}(x) = \sigma_1(A)

성질

  • Axp=Apxp\Vert Ax\Vert_p = \Vert A\Vert_p\Vert x \Vert_p
  • ABp=ApBp\Vert AB\Vert_p = \Vert A\Vert_p\Vert B \Vert_p
    • pf) ABxpApBxpApBpxp\Vert ABx\Vert_p \le \Vert A\Vert_p\Vert Bx\Vert_p \le \Vert A\Vert_p\Vert B\Vert_p\Vert x\Vert_p ABp=maxx0ABxpxpmaxx0ApBpxpxp=ApBp\Vert AB\Vert_p = \underset {x\neq0}{max} {\Vert ABx\Vert_p \over \Vert x\Vert_p} \le \underset {x\neq0}{max} {\Vert A\Vert_p\Vert B\Vert_p\Vert x\Vert_p \over \Vert x\Vert_p} = \Vert A\Vert_p\Vert B \Vert_p

Fronenius norm과의 관계

AF=i=1mj=1nAij2=tr(ATA)=iλi(ATA)=i=1min(m,n)σi2(A)\Vert A \Vert_F = \sqrt{\overset m{\underset {i=1}{\sum}}\overset n{\underset {j=1}{\sum}}A^2_{ij}}=\sqrt{tr(A^TA)} = \sqrt{{\underset {i}{\sum}}\lambda_i(A^TA)} = \sqrt{\overset {min(m,n)}{\underset {i=1}{\sum}}\sigma_i^2(A)}

참고

  • 추가 설명
    tr(ATA)=tr(VΣTΣVT)=tr(VTVΣTΣ)=tr(ΣTΣ)=i=1min(m,n)σi2(A)tr(A^TA) = tr(V\Sigma^T\Sigma V^T) = tr(V^TV\Sigma^T\Sigma) = tr(\Sigma^T\Sigma) ={\overset {min(m,n)}{\underset {i=1}{\sum}}\sigma_i^2(A)}

정리 안 한 것

Low-rank approximation

Moore-Penrose pseudoinverse

profile
ㅎㅇㄹ

0개의 댓글