노션 링크
Vector space
vector space의 조건
There exist an additive identity 0 0 0 (영벡터가 존재)
For each x ∈ V x \in V x ∈ V , there exists an additive inverse − x -x − x (역벡터 존재)
There exist a multiplicative identitiy in R \mathbb{R} R such that 1 x = x 1x = x 1 x = x for all x ∈ V x \in V x ∈ V
Commutativity(교환 법칙): x + y = y + x x + y = y + x x + y = y + x for all x , y ∈ V x, y \in V x , y ∈ V
Associativity(결합 법칙): ( x + y ) + z = x + ( y + z ) (x + y) + z = x + (y+z) ( x + y ) + z = x + ( y + z ) and α ( β x ) = ( α β ) x \alpha(\beta x) = (\alpha\beta)x α ( β x ) = ( α β ) x for all x , y , z ∈ V x, y, z\in V x , y , z ∈ V and α , β ∈ R \alpha,\beta \in \mathbb{R} α , β ∈ R
Distributivity(분배법칙): α ( x + y ) = α x + α y \alpha (x+y)=\alpha x+\alpha y α ( x + y ) = α x + α y and ( α + β ) x = α x + β x (\alpha + \beta)x = \alpha x +\beta x ( α + β ) x = α x + β x for all x , y , z ∈ V x, y, z\in V x , y , z ∈ V and α , β ∈ R \alpha,\beta \in \mathbb{R} α , β ∈ R
sparsity
A vector is sparse if many of its entries are 0
요소 중에 0이 많은 벡터
span
s p a n span s p a n of V V V : all possible linear combination of the vectors
s p a n { v 1 , . . . , v n } = { v ∈ V : ∃ α 1 , . . . , α n span\{v_1, ...,v_n\} = \{v \in V:\exists \alpha _1,...,\alpha_n s p a n { v 1 , . . . , v n } = { v ∈ V : ∃ α 1 , . . . , α n such that α 1 v 1 + . . . + α n v n = v } \alpha_1v_1 + ... + \alpha_nv_n = v\} α 1 v 1 + . . . + α n v n = v }
Superposition
superposition(linear function)
f : R n → R f: R^n \rightarrow R f : R n → R satisfies superposition property if
f ( α x + β y ) = α f ( x ) + β f ( y ) f(\alpha x+\beta y)=\alpha f(x) + \beta f(y) f ( α x + β y ) = α f ( x ) + β f ( y )
→ f is a linear function!
inner product function
f ( α x + β y ) = a T ( α x + β y ) = a T ( α x ) + a T ( β y ) = α ( a T x ) + β ( a T y ) = α f ( x ) + β f ( y ) f(\alpha x+\beta y) = a^T(\alpha x + \beta y) = a^T(\alpha x) + a^T(\beta y) = \alpha(a^T x) + \beta (a^T y) = \alpha f(x) + \beta f(y) f ( α x + β y ) = a T ( α x + β y ) = a T ( α x ) + a T ( β y ) = α ( a T x ) + β ( a T y ) = α f ( x ) + β f ( y )
→ f is a linear function!
Affine function
a function that is linear plus a constant
f ( x ) = a T x + b f(x) = a^Tx+b f ( x ) = a T x + b
affine 함수는 α + β = 1 \alpha + \beta = 1 α + β = 1 일 때만 f ( α x + β y ) = α f ( x ) + β f ( y ) f(\alpha x+\beta y)=\alpha f(x) + \beta f(y) f ( α x + β y ) = α f ( x ) + β f ( y ) 을 만족한다. (α f ( x ) + β f ( y ) \alpha f(x) + \beta f(y) α f ( x ) + β f ( y ) 가 직선 위에 있을 때 (내분점, 외분점))
Norm
Euclidean norm
∥ x ∥ = x 1 2 + x 2 2 + . . . + x n 2 = x T x \Vert x\Vert = \sqrt{x_1^2+x_2^2+...+x_n^2} = \sqrt{x^Tx} ∥ x ∥ = x 1 2 + x 2 2 + . . . + x n 2 = x T x
homogeneity: ∥ β x ∥ = ∣ β ∣ ∥ x ∥ \Vert \beta x \Vert = \vert\beta\vert\Vert x\Vert ∥ β x ∥ = ∣ β ∣ ∥ x ∥
triangle inequality(삼각 부등식): ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \Vert x+y\Vert \leq \Vert x\Vert + \Vert y \Vert ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥
non-negativity: ∥ x ∥ ≥ 0 \Vert x\Vert \geq 0 ∥ x ∥ ≥ 0
definiteness: ∥ x ∥ = 0 \Vert x \Vert = 0 ∥ x ∥ = 0 only if x = 0 x = 0 x = 0
Norms
크기를 정의한 다양한 방식들
∥ x ∥ p = ( ∑ i = 0 n ∣ x ∣ p ) 1 p \Vert x \Vert_p = \left(\sum_{i=0}^n\vert x\vert^p\right)^{\frac{1}{p}} ∥ x ∥ p = ( i = 0 ∑ n ∣ x ∣ p ) p 1
∥ x ∥ ∞ = m a x 1 ≤ i ≤ n ∣ x i ∣ \Vert x\Vert_\infin = \underset{1\leq i \leq n}{max} \vert x_i \vert ∥ x ∥ ∞ = 1 ≤ i ≤ n ma x ∣ x i ∣
For two norms A and B, there exist constants alpha > 0, beta > 0 such that: α ∥ x ∥ A ≤ ∥ x ∥ B ≤ β ∥ x ∥ A \alpha \Vert x \Vert _A \leq \Vert x \Vert_B \leq \beta \Vert x \Vert _A α ∥ x ∥ A ≤ ∥ x ∥ B ≤ β ∥ x ∥ A
→ ∥ x ∥ A ≈ ∥ x ∥ B \Vert x \Vert _A \approx \Vert x \Vert _B ∥ x ∥ A ≈ ∥ x ∥ B 이라는 말
Linear independence
Linear dependence
set of n-vectors { a 1 , . . . , a k } \{a_1, ... , a_k\} { a 1 , . . . , a k } (with k ≥ \geq ≥ 1) is linearly dependent if
β 1 a 1 + . . . + β k a k = 0 \beta_1a_1 + ... + \beta_ka_k = 0 β 1 a 1 + . . . + β k a k = 0
β 1 , . . . , β k \beta_1, ..., \beta_k β 1 , . . . , β k are not all zero!
→a i a_i a i 는 다른 벡터들의 선형 결합이다. (있는 벡터들로 다른거 만들 수 있음.)
3차원 평면이 원점을 지나면 그냥 2차원임. (그래서 벡터 3개면 dependence 될 수 밖에)
Linear independence
정의
Linear dependence가 아니면 Linear independence
β 1 a 1 + . . . + β k a k = 0 \beta_1a_1 + ... + \beta_ka_k = 0 β 1 a 1 + . . . + β k a k = 0 holds only when β 1 = . . . = β k = 0 \beta_1 = ... =\beta_k = 0 β 1 = . . . = β k = 0
→ a i a_i a i 는 다른 벡터들의 선형 결합이 아니다.
ex) e 1 , . . . , e 2 e_1, ..., e_2 e 1 , . . . , e 2 is linearly independent
특성
x = β 1 a 1 + . . . + β k a k x = \beta_1\mathbf{a}_1 + ...+\beta_k\mathbf{a}_k x = β 1 a 1 + . . . + β k a k the coefficients(계수) β 1 , . . . , β k \beta_1,...,\beta_k β 1 , . . . , β k are unique(유일하다!)
pf) x = γ 1 a 1 + . . . + γ k a k ( γ i ≠ β i ) \mathbf{x} = \gamma_1\mathbf{a_1} + ... +\gamma_k\mathbf{a_k} (\gamma_i \neq \beta_i) x = γ 1 a 1 + . . . + γ k a k ( γ i = β i ) 인 γ \gamma γ 가 존재하면 ( β 1 − γ 1 ) a 1 + . . . + ( β k − γ k ) a k = 0 (\beta_1-\gamma_1)a_1+...+(\beta_k-\gamma_k)a_k = 0 ( β 1 − γ 1 ) a 1 + . . . + ( β k − γ k ) a k = 0 , linear dependent하므로 모순.
a linearly independent set of n-vectors can have at most n elements.
ex)3차원에서 벡터 4개는 무조건 dependent
Dimension
Basis
정의
a set of n linearly independent n -vectors a 1 , . . . , a n a_1,...,a_n a 1 , . . . , a n
any n -vector b can be expressed as a linear combination of them: x = β 1 a 1 + . . . + β k a k x = \beta_1a_1 + ...+\beta_ka_k x = β 1 a 1 + . . . + β k a k 앞서 언급했듯이, 계수는 유일하다.
basis generates vector space.
Dimension
정의
v 1 , . . . , v n ∈ V , \mathbf{v}_1, ..., \mathbf{v}_n \in V, v 1 , . . . , v n ∈ V , If v 1 , . . . , v n \mathbf{v}_1,...,\mathbf{v}_n v 1 , . . . , v n 가 선형 독립이면 { v 1 , . . . , v n } \{\mathbf{v}_1,...,\mathbf{v}_n\} { v 1 , . . . , v n } forms a basis for V V V → s p a n { v 1 , . . . , v n } = V span\{\mathbf{v}_1,...,\mathbf{v}_n\} = V s p a n { v 1 , . . . , v n } = V
basis for a vector space V의 벡터 개수: the dimension of V, dim V
Subspace
정의
S ⊆ V S \subseteq V S ⊆ V is a subspace of V(V는 vector space) if
0 ∈ S 0 \in S 0 ∈ S
S S S is closed under addition : x , y ∈ S ⟹ x + y ∈ S x, y \in S \implies x+y \in S x , y ∈ S ⟹ x + y ∈ S
S S S is closed under scalar multiplication : x ∈ S , α ∈ R ⟹ α x ∈ S x \in S, \alpha \in \mathbb{R} \implies \alpha x \in S x ∈ S , α ∈ R ⟹ α x ∈ S
연산과 dimension
If U , W U, W U , W 가 V V V 의 subspace ⟹ \implies ⟹ U + W = { u + w ∣ u ∈ U , w ∈ W } U + W = \{\mathbf{u} + \mathbf{w} \vert \mathbf{u} \in U, \mathbf{w} \in W \} U + W = { u + w ∣ u ∈ U , w ∈ W } , U + W ∈ V U + W \in V U + W ∈ V
If U ∩ W = { 0 } U \cap W = \{0\} U ∩ W = { 0 } , the sum is said to be direct sum, U ⊕ W U \oplus W U ⊕ W
dimension
dim(U + W U+W U + W ) = dim U U U + dim W W W - dim(U ∩ W U \cap W U ∩ W )
dim( U ⊕ W ) (U \oplus W ) ( U ⊕ W ) = dim U U U + dim W W W (∵ d i m ( { 0 } ) = 0 ) \because dim(\{0\}) = 0) ∵ d i m ( { 0 } ) = 0 )
Linear Maps
정의
T : V → W T :V \rightarrow W T : V → W , where V V V 와 W W W 는 vector space
T ( x + y ) = T x + T y , ∀ x , y ∈ V T(\mathbf{x}+\mathbf{y}) = T\mathbf{x} + T\mathbf{y}, \forall \mathbf{x},\mathbf{y} \in V T ( x + y ) = T x + T y , ∀ x , y ∈ V
T ( α x ) = α T x , ∀ x ∈ V , ∀ α ∈ R T(\alpha \mathbf{x}) = \alpha T\mathbf{x}, \forall \mathbf{x} \in V, \forall\alpha \in \mathbb{R} T ( α x ) = α T x , ∀ x ∈ V , ∀ α ∈ R
T : V → V T: V \rightarrow V T : V → V 이면 T T T 는 linear operator
행렬 A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n 은 T : R n → R m T : \mathbb{R}^n \rightarrow \mathbb{R}^m T : R n → R m 인 linear map이다.
Null space, Range
null(T T T ) = { v ∈ V ∣ T v = 0 } \{v \in V \vert Tv=0\} { v ∈ V ∣ T v = 0 }
range(T T T ) = { w ∈ W ∣ ∃ v ∈ V \{\mathbf{w} \in W \vert \exists\mathbf{v} \in V { w ∈ W ∣ ∃ v ∈ V such that T v = w } T \mathbf{v} = \mathbf{w}\} T v = w }
column space of a matrix A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n :
span of its columns
A = [ a 1 , . . . , a n ] A = [\mathbf{a_1},...,\mathbf{a_n}] A = [ a 1 , . . . , a n ] , column space = s p a n { a 1 , . . . , a n } span\{\mathbf{a_1},...,\mathbf{a_n}\} s p a n { a 1 , . . . , a n }
range( A A A )
row space of a matrix A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n :
rank( A ) (A) ( A ) = dim range(A A A ) = dim range(A T A^T A T )
뒤에 두개는 같을 수밖에 없다. 행과 열이 각각 m개, n개의 일차독립일 수는 없기 때문이다.
Orthogonal
Orthogonal Complement
정의
V V V 가 inner product space(inner product가 정의된 vector space)일 때, S ⊆ V S \subseteq V S ⊆ V 인 S의 orthogonal complement S ⊥ S^\bot S ⊥ 는 S S S 의 모든 원소(basis)와 직각인 (V V V 안의)벡터들의 집합이다.
S ⊥ = { v ∈ V ∣ ∀ s ∈ S . v ⊥ s } S^\bot = \{\mathbf{v} \in V \vert \forall \mathbf{s} \in S.\mathbf{v} \bot \mathbf{s}\} S ⊥ = { v ∈ V ∣ ∀ s ∈ S . v ⊥ s }
특성
모든 v ∈ V \mathbf{v} \in V v ∈ V 는 v = v S + v ⊥ \mathbf{v} = \mathbf{v}_S + \mathbf{v}_\bot v = v S + v ⊥ 의 형태로 unique 하게 표현 될 수 있다. (v S ∈ S , v ⊥ ∈ S ⊥ \mathbf{v}_S \in S, \mathbf{v}_\bot \in S^\bot v S ∈ S , v ⊥ ∈ S ⊥ )
V = S ⊕ S ⊥ V = S \oplus S^\bot V = S ⊕ S ⊥ (참고 )
Orthonormal
Orthonormal vectors
Orthogonal set:
set of n-vectors a 1 , . . . , a k , a i ≠ a j a_1,..., a_k, a_i \neq a_j a 1 , . . . , a k , a i = a j for i ≠ j i \neq j i = j
Orthonormal set:
Orthogonal set인데 ∥ a i ∥ = 1 \Vert a_i \Vert = 1 ∥ a i ∥ = 1
a i T a j = { 1 i = j 0 i ≠ j a_i^Ta_j = \begin{cases} 1 & i=j \\ 0& i\neq j\end{cases} a i T a j = { 1 0 i = j i = j
Orthonormal set들은 linearly independent.
k ≤ \leq ≤ n (참고) , if k = n 이 set은 orthonormal basis!
Orthonormal expansion
a 1 , . . . a n a_1, ...a_n a 1 , . . . a n 이 orthonormal basis이면, 임의의 x ( x ∈ R n ) x(x \in \mathbb{R}^n) x ( x ∈ R n ) 는
x = ( a 1 T x ) a 1 + . . . + ( a n T x ) a n x = (a_1^Tx)a_1 + ... + (a_n^Tx)a_n x = ( a 1 T x ) a 1 + . . . + ( a n T x ) a n
과 같이 표현할 수 있다. 이를 Orthonormal expansion of x라 부름.
ex) x = ( 1 2 3 4 ) = ( 1 2 3 4 ) ⋅ ( 1 0 0 0 ) ( 1 0 0 0 ) . . . x = \begin{pmatrix} 1 \\ 2 \\ 3\\4 \end{pmatrix} = \begin{pmatrix} 1&2&3&4 \end{pmatrix} \cdot \begin {pmatrix} 1\\0\\0\\0\end{pmatrix}\begin {pmatrix} 1\\0\\0\\0\end{pmatrix} ... x = ⎝ ⎜ ⎜ ⎜ ⎛ 1 2 3 4 ⎠ ⎟ ⎟ ⎟ ⎞ = ( 1 2 3 4 ) ⋅ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 ⎠ ⎟ ⎟ ⎟ ⎞ . . .
Gram-schmidt orthogonalization
linearly independent한 벡터( a 1 , . . . , a k ) (a_1, ..., a_k) ( a 1 , . . . , a k ) 들을 orthonormalize하는 방법
orthogonalize : q i ~ = a i − ( q 1 T a i ) q 1 − . . . − ( q i − 1 T a i ) q i − 1 \tilde{q_i} = a_i - (q_1^Ta_i)q_1 - ... - (q^T_{i-1}a_i)q_{i-1} q i ~ = a i − ( q 1 T a i ) q 1 − . . . − ( q i − 1 T a i ) q i − 1
normalization : q i = q i ~ / ∥ q i ~ ∥ q_i = \tilde{q_i} / \Vert\tilde{q_i}\Vert q i = q i ~ / ∥ q i ~ ∥
Orthogonal Projection
P s v = < v , u 1 > u 1 + . . . + < v , u m > u m Ps\mathbf{v} = <\mathbf{v}, \mathbf{u_1}>\mathbf{u_1} + ... + <\mathbf{v}, \mathbf{u_m}>\mathbf{u_m} P s v = < v , u 1 > u 1 + . . . + < v , u m > u m
(u i u_i u i is orthonormal basis of S S S , v ∈ V \mathbf{v} \in V v ∈ V )
S에 정사영하는 것.
v − P s v ⊥ S \mathbf{v} - Ps\mathbf{v} \bot S v − P s v ⊥ S
P s x = ∑ m i = 0 x T u i u i = ∑ m i = 0 u i u i T x = ( ∑ m i = 0 u i u i T ) x = U U T x Ps\mathbf{x} = \underset{i=0}{\overset{m}{\sum}}x^Tu_iu_i = \underset{i=0}{\overset{m}{\sum}}u_iu_i^Tx = \left(\underset{i=0}{\overset{m}{\sum}}u_iu_i^T\right)x = UU^Tx P s x = i = 0 ∑ m x T u i u i = i = 0 ∑ m u i u i T x = ( i = 0 ∑ m u i u i T ) x = U U T x (U = [ u 1 , . . . u n ] U = [u_1, ...u_n] U = [ u 1 , . . . u n ] )
U T U^T U T 는 basis에 정사영시킨 크기를 구하고, U U U 는 그쪽 성분 벡터를 구함.
Matrix
columns and row
j th columns is the m-vector
i th row is the n-row-vector
slice of matrix: A p : q , r : s A_{p:q,r:s} A p : q , r : s 은 (q - p +1) * (s - r + 1) matrix
Block matrix
Special matrices
zero matrix: 모든 요소가 0, 0 m × n 0_{m \times n} 0 m × n
identity matrix : I i i = 1 , I i j = 0 I_{ii} = 1, I_{ij} = 0 I i i = 1 , I i j = 0 인 square matrix (i ≠ j ) i \neq j) i = j )
ex) ( 1 0 0 0 1 0 0 0 1 ) \begin{pmatrix} 1 & 0&0 \\ 0 & 1&0 \\ 0&0&1 \end{pmatrix} ⎝ ⎜ ⎛ 1 0 0 0 1 0 0 0 1 ⎠ ⎟ ⎞
sparse matrix: 대부분 요소가 0
diagonal matrix: A i j = 0 ( i ≠ j ) A_{ij} = 0 (i \neq j) A i j = 0 ( i = j )
ex) d i a g ( 0.2 , 3 ) = ( 0.2 0 0 3 ) diag(0.2, 3) = \begin{pmatrix} 0.2 & 0 \\ 0 & 3 \end{pmatrix} d i a g ( 0 . 2 , 3 ) = ( 0 . 2 0 0 3 )
triangular matrix
lower triangular matrix: A i j = 0 ( i < j ) A_{ij} = 0 (i < j) A i j = 0 ( i < j )
upper triangular matrix: A i j = 0 ( i > j ) A_{ij} = 0 (i > j) A i j = 0 ( i > j )
ex) lower: ( 3 0 0 2.4 3.7 0 280 300 1 ) \begin{pmatrix} 3 & 0&0 \\ 2.4 & 3.7&0 \\ 280&300&1 \end{pmatrix} ⎝ ⎜ ⎛ 3 2 . 4 2 8 0 0 3 . 7 3 0 0 0 0 1 ⎠ ⎟ ⎞ upper: ( 128 − 2.7 6.5 0 8 7 0 0 9.1 ) \begin{pmatrix} 128 & -2.7&6.5 \\ 0 & 8&7 \\ 0&0&9.1 \end{pmatrix} ⎝ ⎜ ⎛ 1 2 8 0 0 − 2 . 7 8 0 6 . 5 7 9 . 1 ⎠ ⎟ ⎞
Norm (Frobenius)
∥ A ∥ F = ( ∑ m i = 1 ∑ n j = 1 a i j 2 ) \Vert A \Vert_F = \left(\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{n}{\sum}}a_{ij}^2\right) ∥ A ∥ F = ( i = 1 ∑ m j = 1 ∑ n a i j 2 )
당연히 이 성질들도 만족!
distance between two matrices: ∥ A − B ∥ \Vert A-B\Vert ∥ A − B ∥
Matrix-vector
product
y = A x y = Ax y = A x 는 y = x 1 a 1 + . . . + x n a n y = x_1a_1 + ... + x_na_n y = x 1 a 1 + . . . + x n a n 의 꼴로 나타낼 수 있다. (a 1 , . . . , a n a_1,...,a_n a 1 , . . . , a n 은 A의 columns ex) A e j = a j Ae_j = a_j A e j = a j
A의 columns가 linearly independent하다면 A x = 0 → x = 0 Ax = 0 \rightarrow x=0 A x = 0 → x = 0
$A = \begin{pmatrix}
1 - {1\over n}& - {1\over n}&...&- {1\over n} \
{1\over n} & 1- {1\over n}&...&- {1\over n} \
\vdots & & \ddots &\vdots\
{1\over n}&- {1\over n}&...&1- {1\over n}
\end{pmatrix}이면 $\tilde{x} = Ax 는 de-meaned(정규화..?) version
D = ( − 1 1 0 . . . 0 0 − 1 1 . . . 0 ⋮ ⋱ ⋮ 0 0 0 . . . 1 ) D = \begin{pmatrix} -1& 1&0&...&0 \\ 0 & -1&1&...&0 \\ \vdots & & & \ddots &\vdots\\ 0&0&0&...&1 \end{pmatrix} D = ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ − 1 0 ⋮ 0 1 − 1 0 0 1 0 . . . . . . ⋱ . . . 0 0 ⋮ 1 ⎠ ⎟ ⎟ ⎟ ⎟ ⎞ ,D ∈ R ( n − 1 ) × n D \in \mathbb{R}^{(n-1)\times n} D ∈ R ( n − 1 ) × n 이면 D x = ( x 2 − x 1 x 3 − x 2 ⋮ x n − x n − 1 ) Dx = \begin{pmatrix} x_2-x_1 \\ x_3-x_2 \\ \vdots\\x_n-x_{n-1} \end{pmatrix} D x = ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ x 2 − x 1 x 3 − x 2 ⋮ x n − x n − 1 ⎠ ⎟ ⎟ ⎟ ⎟ ⎞ 이다.
Eigenvalue, Eigenvector
정의
square matrix A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n 에 대해
를 만족하는 영벡터가 아닌 x ∈ R n x \in \mathbb{R}^n x ∈ R n 을 eigen vector, 그에 대응하는 스칼라 λ \lambda λ 를 eigen value라 한다.
특징
임의의 실수 γ \gamma γ 에 대해 x x x 는 A + γ I A + \gamma I A + γ I 의 eigen vector이다. 이때 eigen value는 λ + γ \lambda + \gamma λ + γ
A가 invertable하다면(A − 1 A^{-1} A − 1 가 존재한다면), x x x 는 A − 1 A^{-1} A − 1 의 eigen vector이고, eigen value는 λ − 1 \lambda^{-1} λ − 1
A k x = λ k x A^kx = \lambda^kx A k x = λ k x for any k ∈ Z k \in \mathbb{Z} k ∈ Z ( A 0 = I ) (A^0 = I) ( A 0 = I )
x x x 는 실수배가 된 형태로 나타남
하나의 eigen value에 대해서 여러개의 eigen vector가 존재할 수 있다. vector space(s p a n ( v 1 . . . ) span(v_1...) s p a n ( v 1 . . . ) )이 다차원일 수 있는 것이다.
eigen value는 eigen vector의 방향으로 얼마나 축소/확대 되었는지 알려준다!
trace, determinant
trace:
square matrix의 대각선(diagonal) entries들의 합
tr(A A A ) = ∑ n i = 1 A i i \underset{i=1}{\overset{n}{\sum}}A_{ii} i = 1 ∑ n A i i
tr(A + B ) A +B) A + B ) = tr(A A A ) + tr(B B B )
tr(α A ) \alpha A) α A ) = α \alpha α tr(A A A )
tr(A T A^T A T ) = tr(A A A )
tr(A B C D ABCD A B C D ) = tr(B C D A BCDA B C D A ) = ⋯ \cdots ⋯
tr(A A A ) = ∑ i λ i ( A ) \underset{i}{{\sum}}\lambda_i(A) i ∑ λ i ( A )
A = Q Λ Q T A = Q\Lambda Q^T A = Q Λ Q T → tr(A A A ) = ∥ λ 1 q 1 ∥ 2 + ⋯ + ∥ λ n q n ∥ 2 = ∑ i λ i ( A ) \Vert\lambda_1q_1\Vert^2 + \cdots + \Vert\lambda_nq_n\Vert^2 = \underset{i}{{\sum}}\lambda_i(A) ∥ λ 1 q 1 ∥ 2 + ⋯ + ∥ λ n q n ∥ 2 = i ∑ λ i ( A )
Determinant:
det(I I I ) = 1
det(A T A^T A T ) = det(A A A )
det(A B AB A B ) = det(A A A )det(B B B )
det(A − 1 A^{-1} A − 1 ) = det(A A A )− 1 ^{-1} − 1
det(α A \alpha A α A ) = α n \alpha ^n α n det(A A A )
det(A A A ) = Π i λ i ( A ) \underset{i}\Pi \lambda_i(A) i Π λ i ( A )
Linear equation
particular and general solution
X g e n e r a l = X p a r t i c u l a r + X n u l l X_{general} = X_{particular} + X_{null} X g e n e r a l = X p a r t i c u l a r + X n u l l
particular solution 하나와 null space를 찾으면 Linear equation system을 풀 수 있다.
particular solution
행렬 가장 밑에 전부 0인 열이 있다면, 그 위 열들은 적어도 하나의 0이 아닌 원소를 포함한다.
각 열의 가장 처음 오는 0이 아닌 요소(pivoit)은 바로 위의 열의 pivot보다 오른 쪽에 있다.
0만 있는 열이 만들어지는 것은 열들이 linearly dependent하다는 것.
( 1 − 2 1 − 1 1 0 0 0 1 − 1 3 − 2 0 0 0 1 − 2 1 0 0 0 0 0 0 ) \left( \begin{array} {ccccc | c} 1 & -2&1&-1 &1&0 \\ 0 & 0&1&-1&3&-2\\ 0&0&0&1&-2&1\\ 0&0&0&0&0&0 \end{array} \right) ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 − 2 0 0 0 1 1 0 0 − 1 − 1 1 0 1 3 − 2 0 0 − 2 1 0 ⎠ ⎟ ⎟ ⎟ ⎞ 과 같이 Row-Echelon Form으로 만들어지면 particular solution은 쉽게 구할 수 있다.(단, 마지막 행의 연산결과는 반드시 0이여야 함)
{ x 1 − 2 x 2 + x 3 − x 4 + x 5 = 0 x 3 − x 4 − 3 x 5 = − 2 x 4 − 2 x 5 = 1 \begin{cases} x_1 - 2x_2 + x_3-x_4+x_5 = 0\\ \quad\quad\quad\quad\quad x_3 - x_4 - 3x_5 = -2 \\ \quad\quad\quad\quad\quad\quad\quad\ x_4 -2x_5 = 1 \end{cases} ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ x 1 − 2 x 2 + x 3 − x 4 + x 5 = 0 x 3 − x 4 − 3 x 5 = − 2 x 4 − 2 x 5 = 1
과 같은 형태이기 때문이다.
general solution
( 1 − 2 0 0 − 2 0 0 1 0 1 0 0 0 1 − 2 ) \begin{pmatrix} 1 & -2&0&0&-2 \\ 0&0 & 1&0&1 \\ 0&0&0&1&-2 \end{pmatrix} ⎝ ⎜ ⎛ 1 0 0 − 2 0 0 0 1 0 0 0 1 − 2 1 − 2 ⎠ ⎟ ⎞
와 같이 pivot이 있는 행도 모두 0인 형태
-1 Trick to find Ax = 0
A = ( 1 − 2 0 0 − 2 0 0 1 0 1 0 0 0 1 − 2 ) , A ~ = ( 1 − 2 0 0 − 2 0 − 1 0 0 0 0 0 1 0 1 0 0 0 1 − 2 0 0 0 0 − 1 ) A = \begin{pmatrix} 1 & -2&0&0&-2 \\ 0&0 & 1&0&1 \\ 0&0&0&1&-2 \end{pmatrix}, \ \tilde{A} = \begin{pmatrix} 1 & -2&0&0&-2 \\0&-1&0&0&0\\ 0&0 & 1&0&1 \\ 0&0&0&1&-2\\ 0&0&0&0&-1 \end{pmatrix} A = ⎝ ⎜ ⎛ 1 0 0 − 2 0 0 0 1 0 0 0 1 − 2 1 − 2 ⎠ ⎟ ⎞ , A ~ = ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 0 − 2 − 1 0 0 0 0 0 1 0 0 0 0 0 1 0 − 2 0 1 − 2 − 1 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ 과 같이 non-pivot columns에 -1을 붙인 열을 추가한다. 그리고 non-pivot column을 읽는다.
Solution of A x = 0 : { x = λ 1 ( − 2 − 1 0 0 0 ) + λ 2 ( − 2 0 1 − 2 − 1 , ) , λ 1 , λ 2 ∈ R } Ax = 0 :\{x = \lambda_1\begin{pmatrix} -2\\-1\\0\\0\\0 \end{pmatrix}+\lambda_2\begin{pmatrix} -2\\0\\1\\-2\\-1, \end{pmatrix},\quad \lambda_1,\lambda_2 \in \mathbb{R}\} A x = 0 : { x = λ 1 ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − 2 − 1 0 0 0 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ + λ 2 ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − 2 0 1 − 2 − 1 , ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ , λ 1 , λ 2 ∈ R }
- 단순한 스킬이지만 이해를 해보자면, non-pivot 열은 다른 문자를 표현하는 데에 사용되는데, 다른 문자에 non-pivot열의 계수값을 넣어주는 방법이다.
- null space의 원소는 더 많겠지만, (m-n)개의 원소만 알면 span으로 모두 나오는 듯 하다.(다른게 나와도 dependent한 것)
- number of unknown(λ \lambda λ 의 개수) = dim null(A)
- row space의 orthogonal complement (range(A T A^{T} A T )⊥ ^\bot ⊥ )
- number of equations(known) = dim range(A)
- (Fundamental theorem of linear algebra)
Inverse Matrix
If A A A is square and invertable
Gaussian Elimination
역행렬을 찾는 기술
( A ∣ I n ) → ⋯ → ( I n ∣ A − 1 ) ∵ i f A = B , E n A = E b B (A\vert I_n) \rightarrow \cdots \rightarrow (I_n\vert A^{-1}) \\ \because if \ A=B,\ E_nA = E_bB\quad ( A ∣ I n ) → ⋯ → ( I n ∣ A − 1 ) ∵ i f A = B , E n A = E b B
exampleA = ( 1 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 ) A = \begin{pmatrix} 1 & 0&1&0 \\ 0 & 1&1&0 \\ 1&1&0&1 \\ 1&1&1&0 \end{pmatrix} A = ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 1 1 0 1 1 1 1 1 0 1 0 0 1 0 ⎠ ⎟ ⎟ ⎟ ⎞ ( 1 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 1 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 ) ( 1 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 1 1 0 1 0 0 1 0 0 0 1 − 1 0 0 − 1 1 ) ( 1 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 1 1 1 0 0 0 0 1 0 0 1 − 1 0 0 − 1 1 ) ( 1 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 − 1 0 − 1 − 1 0 1 0 0 1 − 1 0 0 − 1 1 ) ( 1 0 0 0 0 − 1 0 1 0 1 0 0 − 1 0 0 1 0 0 − 1 0 − 1 − 1 0 1 0 0 0 − 1 − 1 − 1 − 1 2 ) ( 1 0 0 0 0 − 1 0 1 0 1 0 0 − 1 0 0 1 0 0 1 0 1 1 0 − 1 0 0 0 1 1 1 1 − 2 ) \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&0&1&0&0&1&0 \\ 1&1&1&0&0&0&0&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&0&1&0&0&1&0 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 1&1&1&0&0&0&0&1 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&1&0 &1&0&0&0 \\ 0 & 1&1&0&0&1&0&0 \\ 0&0&-1&0&-1&-1&0&1 \\ 0&0&1&-1&0&0&-1&1 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&0&0 &0&-1&0&1 \\ 0 & 1&0&0&-1&0&0&1 \\ 0&0&-1&0&-1&-1&0&1 \\ 0&0&0&-1&-1&-1&-1&2 \end{array} \right) \\ \left( \begin{array} {cccc | cccc} 1 & 0&0&0 &0&-1&0&1 \\ 0 & 1&0&0&-1&0&0&1 \\ 0&0&1&0&1&1&0&-1 \\ 0&0&0&1&1&1&1&-2 \end{array} \right) \\ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 1 1 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 1 0 0 1 1 0 1 1 0 1 0 0 1 − 1 1 0 0 0 0 1 0 0 0 0 1 − 1 0 0 0 1 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 1 0 0 1 1 0 1 1 1 1 0 0 0 − 1 1 0 0 0 0 1 0 0 0 0 0 − 1 0 0 1 1 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 0 1 0 0 1 1 − 1 1 0 0 0 − 1 1 0 − 1 0 0 1 − 1 0 0 0 0 − 1 0 0 1 1 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 0 1 0 0 0 0 − 1 0 0 0 0 − 1 0 − 1 − 1 − 1 − 1 0 − 1 − 1 0 0 0 − 1 1 1 1 2 ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 − 1 1 1 − 1 0 1 1 0 0 0 1 1 1 − 1 − 2 ⎠ ⎟ ⎟ ⎟ ⎞
만약 과정 중에 한 열이라도 모두 소거되면 invertable하지 않은 것! (full rank가 아님)
If A is not square and A T A A^TA A T A is invertable,
A x = b ⇔ A T A x = A T b ⇔ x = ( A T A ) − 1 A T b Ax = b\\ \Leftrightarrow A^TAx=A^Tb\\ \Leftrightarrow x=(A^TA)^{-1}A^Tb A x = b ⇔ A T A x = A T b ⇔ x = ( A T A ) − 1 A T b
차원을 낮춰서 생각하는 방법
A T A A^TA A T A 가 invertable 하려면? A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n 이면 m ≥ n m \geq n m ≥ n (flat한 형태)이여야 한다. 즉, 등식의 개수가 미지수의 개수보다 많아야 한다. 만약 m < n m < n m < n 이라면(tall) 정보가 과도하게 팽창된 형태가 되기 때문에 full rank가 아니다. 그 외에도 또 있겠지?
Eigen Decomposition
Symmetric/Orthogonal matrix
Symmetric matrix
: A ∈ R n × n i f A = A T , A A \in \mathbb{R}^{n \times n}\ if\ A = A^T, \ A A ∈ R n × n i f A = A T , A is symmetric matrix
특징
eigen vector들이 orthogonal함.
eigen vector들로 A A A 의 column space의 basis를 얻을 수 있다.
A [ q 1 , q 2 , ⋯ , q n ] = [ λ 1 q 1 , λ 2 q 2 , ⋯ , λ n q n ] A [ q 1 , q 2 , ⋯ , q n ] = [ q 1 , q 2 , ⋯ , q n ] ( λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ) = Q Λ A[q_1,q_2,\cdots,q_n] = [\lambda_1q_1,\lambda_2q_2, \cdots,\lambda_nq_n]\\ A[q_1,q_2,\cdots,q_n] = [q_1,q_2,\cdots,q_n]\begin{pmatrix} \lambda_1 &0&\cdots&0\\ 0&\lambda_2&\cdots&0\\ \end{pmatrix} = Q\Lambda A [ q 1 , q 2 , ⋯ , q n ] = [ λ 1 q 1 , λ 2 q 2 , ⋯ , λ n q n ] A [ q 1 , q 2 , ⋯ , q n ] = [ q 1 , q 2 , ⋯ , q n ] ( λ 1 0 0 λ 2 ⋯ ⋯ 0 0 ) = Q Λ
와 같이 표현(A Q = Q Λ AQ = Q\Lambda A Q = Q Λ )할 수 있는데, A A A 가 symmetric matrix라면 다음을 만족한다.
Q T Q = Q Q T = I Q^TQ = QQ^T = I Q T Q = Q Q T = I
Q T Q = ( ∥ q 1 ∥ 2 q 1 q 2 ⋯ q 1 q n ⋮ ⋮ ⋱ ⋮ q n q 1 q n q 2 ⋯ ∥ q n ∥ 2 ) = I n Q^TQ = \begin{pmatrix} \Vert q_1\Vert^2&q_1q_2&\cdots&q_1q_n\\ \vdots&\vdots&\ddots&\vdots\\ q_nq_1&q_nq_2&\cdots&\Vert q_n\Vert^2 \end{pmatrix} = I_n Q T Q = ⎝ ⎜ ⎜ ⎛ ∥ q 1 ∥ 2 ⋮ q n q 1 q 1 q 2 ⋮ q n q 2 ⋯ ⋱ ⋯ q 1 q n ⋮ ∥ q n ∥ 2 ⎠ ⎟ ⎟ ⎞ = I n
Orthogonal matrix
Q T Q = Q Q T = I Q^TQ = QQ^T = I Q T Q = Q Q T = I 을 만족한다면, Q Q Q 를 Orthogonal matrix라 한다.
ex) symmetric matrix의 eigen vector로 이루어진 matrix
특징
Q T = Q − 1 Q^T=Q^{-1} Q T = Q − 1
( Q x ) T ( Q y ) = x T Q T Q y = x T I y = x T y (Qx)^T(Qy)=x^TQ^TQy=x^TIy=x^Ty ( Q x ) T ( Q y ) = x T Q T Q y = x T I y = x T y
inner product is preserved
∥ Q x ∥ 2 = ( Q x ) T ( Q x ) = x T x = ∥ x ∥ 2 \Vert Qx\Vert_2 = \sqrt{(Qx)^T(Qx)} = \sqrt{x^Tx} = \Vert x\Vert _2 ∥ Q x ∥ 2 = ( Q x ) T ( Q x ) = x T x = ∥ x ∥ 2
따라서, Orthogonal matrix를 곱하는 것은 벡터를 돌리거나 뒤집는 것이다.
Eigen decomposition
Symmetric matrix에 관함.(symmetric이 아니라면 eigen value가 허수이고, eigen vector들이 orthogonal하지 않기 때문에 여기선 논하지 않음.)
A = Q\Lambda Q^T\\ = \underset{i=1}{\overset{n} \sum }\lambda_iq_iq_i^T \\
(Q Q Q 는 eigen vectors, Λ \Lambda Λ 는 eigen values)
의미를 이해해보자 A x = Q Λ Q − 1 x Ax = Q\Lambda Q^{-1}x A x = Q Λ Q − 1 x
y = Q − 1 x y = Q^{-1}x y = Q − 1 x 라 하면, Q y = x Qy=x Q y = x 이다. 즉 y는 x를 만들기 위해 각 eigen vector에 곱해야 하는 값이다. 여기서는 (2, 1)이다.
z = Λ y z=\Lambda y z = Λ y 라 하면, 각 방향에 eigen value를 곱하는 것이다. 그러면 (-2, 2)가 된다.
Q z Qz Q z 는 계산된 벡터를 Q Q Q 로 선현 변형 시키는 것이다.
요약하자면, eigen vector들로 선형변환을 해제(?)시키고 eigen value를 반영해서 다시 선형변환시키는 것이다.
다르게 이해하자면 eigen vector에 대한 coordinate으로 변환시켰다가 다시 원래 basis에 대한 coordinate로 변환시키는 것이다. (A A A 를 곱하는 것을 기본 basis의 coordinate로 변환시키는 것으로 본다면)
A A A 가 symmetric matrix 라면
Q Q T = Q T Q = I ∵ q i ⊥ q j ( i ≠ j ) QQ^T=Q^TQ=I\\\because q_i \bot q_j \ (i \neq j) Q Q T = Q T Q = I ∵ q i ⊥ q j ( i = j )
solving system of linear equation
A x = b ( Q Λ Q T ) x = b Λ Q T x = Q − 1 b = Q T b x = Q Λ − 1 Q T b ( Λ − 1 = d i a g ( λ 1 − 1 , ⋯ , λ n − 1 ) ) Ax = b\\ (Q\Lambda Q^T)x=b\\ \Lambda Q^Tx = Q^{-1}b=Q^T b \\ x = Q\Lambda^{-1}Q^Tb\\\quad(\Lambda^{-1}=diag(\lambda_1^{-1},\cdots,\lambda_n^{-1})) A x = b ( Q Λ Q T ) x = b Λ Q T x = Q − 1 b = Q T b x = Q Λ − 1 Q T b ( Λ − 1 = d i a g ( λ 1 − 1 , ⋯ , λ n − 1 ) )
if A A A is invertable, Λ \Lambda Λ is also invertable. 이유: 링크
계산의 시간복잡도가 매우 줄어든다.
n 3 + n 2 ⇒ n 2 + n + n 2 n^3 + n^2 \Rightarrow n^2 +n+n^2 n 3 + n 2 ⇒ n 2 + n + n 2 (행렬 간의 계산은 n 3 n^3 n 3 , 벡터-행렬은 n 2 n^2 n 2 )
(O ( n 3 ) ⇒ O ( n 2 ) O(n^3) \Rightarrow O(n^2) O ( n 3 ) ⇒ O ( n 2 ) )
Fundamental theorem of linear algebra
A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n 에 대해
null(A A A ) = range(A T A^T A T )⊥ ^\bot ⊥
null(A A A ) ⊕ \oplus ⊕ range(A T A^T A T ) = R n \mathbb{R}^{n} R n
dim range(A A A ) + dim null(A A A ) = n ( ∵ \because ∵ dim(R n \mathbb{R}^n R n ) = n , range(A A A ) = range(A T A^T A T ) )
null(A A A )은 row space의 ortogonal complement
모든 x ∈ R n x \in \mathbb{R}^n x ∈ R n 은 unique하게 다음과 같이 표현될 수 있다.
x = A T v + w ( v ∈ R m , w ∈ n u l l ( A ) ) x = A^Tv +w\\ (v \in \mathbb{R}^m, \ w \in null(A)) x = A T v + w ( v ∈ R m , w ∈ n u l l ( A ) )
A A A 가 invertable하다는 것
injective한 map이다. (basis로 유일하게 표현됨)
dim null(A A A ) = dim null(A T A^T A T ) = 0 (null(A A A ) = {0 0 0 })
0을 eigen value로 갖지 않는다.
A x = b Ax=b A x = b 가 유일한 근을 갖는다.
A x = b Ax = b A x = b 를 eigen decomposition을 이용해 풀 수 있다.(A − 1 A^{-1} A − 1 을 직접계산 x)
각 행과 열이 각각 lineary dependent하다.
full rank를 갖는다.(rank(A) = n)
Singular value decomposition
eigen decomposition이 square(symmetric) matrix에 대해 다루었다면, Singular value decomposition은 non-symmetric matrix에 대해 다룬다.
A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n
A=U\Sigma V^T\\ =\overset r{\underset {i=1} \sum}\sigma_iu_iv_i^T
U ∈ R m × m U \in \mathbb{R}^{m \times m} U ∈ R m × m : left singular vectors
V ∈ R n × n V \in \mathbb{R}^{n \times n} V ∈ R n × n : right singular vectors
Σ ∈ R m × n \Sigma \in \mathbb{R}^{m \times n} Σ ∈ R m × n : singular values
r r r = rank(A A A )
U , V U, V U , V 는 orthogonal matrix , Σ \Sigma Σ 는 diagonal matrix
앞에서 r r r 개의 singular value만 0이 아니고, 정렬되어 있음.
σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > σ r + 1 = ⋯ = 0 \sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > \sigma_{r+1} = \cdots = 0 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > σ r + 1 = ⋯ = 0
SVD by Eigen decomposition
A A A 대신 A A T AA^T A A T 혹은 A T A A^TA A T A 를 이용하면 square matrix가 되므로 eigen dicomposition을 이용할 수 있다.
A T A A^TA A T A
A T A = ( U Σ V T ) T ( U Σ V T ) = V Σ U T U Σ V T = V Σ 2 V T A^TA = (U\Sigma V^T)^T(U\Sigma V^T) \\ =V\Sigma U^TU\Sigma V^T\\ =V\Sigma^2V^T A T A = ( U Σ V T ) T ( U Σ V T ) = V Σ U T U Σ V T = V Σ 2 V T
A A A 의 V V V (right singular vectors)는 A T A A^TA A T A 의 eigen vectors이다.
A A A 의 Σ \Sigma Σ (singular values)는 A T A A^TA A T A 의 eigen values의 양의 제곱근이다.
A A T AA^T A A T
A A T = ( U Σ V T ) ( U Σ V T ) T = U Σ V T V Σ U T = U Σ 2 U T AA^T= (U\Sigma V^T)(U\Sigma V^T)^T \\ =U\Sigma V^TV\Sigma U^T\\ =U\Sigma^2U^T A A T = ( U Σ V T ) ( U Σ V T ) T = U Σ V T V Σ U T = U Σ 2 U T
A A A 의 U U U (left singular vectors)는 A T A A^TA A T A 의 eigen vectors이다.
A A A 의 Σ \Sigma Σ (singular values)는 A T A A^TA A T A 의 eigen values의 양의 제곱근이다.
λ i ( A T A ) \lambda_i(A^TA) λ i ( A T A ) or λ i ( A A T ) \lambda_i(AA^T) λ i ( A A T ) 는 항상 0보다 같거나 크다! ← 이유
Rayleigh quotient
A ∈ R n × n A \in \mathbb{R}^{n\times n} A ∈ R n × n be a symmetric matrix
quadratic form: x T A x x^TAx x T A x ← scalar
Rayleigh quotient:R A ( x ) = x T A x x T x R_A(x) = {{x^TAx}\over{x^Tx}} R A ( x ) = x T x x T A x
scale invariance(불변): R A ( x ) = R A ( α x ) ( x ≠ 0 , α ≠ 0 ) R_A(x) = R_A(\alpha x)\quad (x \neq 0, \alpha\neq0) R A ( x ) = R A ( α x ) ( x = 0 , α = 0 )
x x x 가 λ \lambda λ 를 eigen value로 가지는 eigen vector라면, R A ( x ) = λ R_A(x) = \lambda R A ( x ) = λ
For all x ≠ 0 x \neq 0 x = 0 , λ m i n ( A ) ≤ R A ( x ) ≤ λ m a x ( A ) \lambda_{min}(A) \leq R_A(x) \leq\lambda_{max}(A) λ m i n ( A ) ≤ R A ( x ) ≤ λ m a x ( A )
등호는 x x x 가 eigen vector 일 때만 성립.
Positive (semi-)definite matrix
A ⪰ 0 A \succeq 0 A ⪰ 0
:positive semi-definite
for all x ∈ R n , x T A x ≥ 0 x \in \mathbb{R}^n, \ x^TAx \geq 0 x ∈ R n , x T A x ≥ 0
↔A의 모든 eigen value가 0 이상이다 ( ∵ x T A x x T x ≥ 0 ⇒ λ m i n ( A ) ≥ 0 ) (\because{{x^TAx}\over{x^Tx}} \geq0 \Rightarrow \lambda_{min}(A) \geq 0) ( ∵ x T x x T A x ≥ 0 ⇒ λ m i n ( A ) ≥ 0 )
A ≻ 0 A \succ0 A ≻ 0
: positive definite
for all non-zero x ∈ R n , x T A x > 0 x \in \mathbb{R}^n, \ x^TAx > 0 x ∈ R n , x T A x > 0
↔A의 모든 eigen value가 0보다 크다
pf) x T A x ≥ 0 ↔ ∀ λ ≥ 0 x^TAx \geq 0 \leftrightarrow \forall_\lambda \geq 0 x T A x ≥ 0 ↔ ∀ λ ≥ 0 i) x T A x ≥ 0 → ∀ λ ≥ 0 x^TAx \geq 0 \rightarrow \forall_\lambda \geq 0 x T A x ≥ 0 → ∀ λ ≥ 0 let x x x be an eigen vector of A A A with eigen value λ \lambda λ .0 ≤ x T A x = x T ( λ x ) = λ x T x = λ ∥ x ∥ 2 2 0 \leq x^TAx =x^T(\lambda x)=\lambda x^Tx = \lambda\Vert x \Vert^2_2 0 ≤ x T A x = x T ( λ x ) = λ x T x = λ ∥ x ∥ 2 2 x x x 는 eigen vector이므로 x ≠ 0. ∴ λ ≥ 0 x\neq 0.\ \therefore \lambda\geq 0 x = 0 . ∴ λ ≥ 0 ii) x T A x ≥ 0 ← ∀ λ ≥ 0 x^TAx \geq 0 \leftarrow \forall_\lambda \geq 0 x T A x ≥ 0 ← ∀ λ ≥ 0 0 ≤ λ m i n ( A ) ≤ R A ( x ) 0 \leq \lambda_{min}(A) \leq R_A(x) 0 ≤ λ m i n ( A ) ≤ R A ( x )
A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n 일 때, A T A A^TA A T A 는 positive semi-difinite이며, null(A A A ) = {0}이면 A T A A^TA A T A 는 positive definite이다.
pf) x ∈ R n x \in \mathbb{R}^n x ∈ R n ,x T ( A T A ) x = ( A x ) T A x = ∥ A x ∥ 2 2 ≥ 0 x^T(A^TA)x = (Ax)^TAx=\Vert Ax\Vert^2_2 \geq 0 x T ( A T A ) x = ( A x ) T A x = ∥ A x ∥ 2 2 ≥ 0 이므로 A T A A^TA A T A 는 positive semi-difinite이다. null(A A A ) = {0} 이라면, A x ≠ 0 ( x ≠ 0 ) Ax \neq 0 \ (x \neq 0) A x = 0 ( x = 0 ) 이므로 ∥ A x ∥ 2 2 > 0 \Vert Ax \Vert_2^2 > 0 ∥ A x ∥ 2 2 > 0 . 따라서 A T A A^TA A T A 는 positive definite이다.
→ A T A A^TA A T A 의 eigen value, 즉 A A A 의 sigular value의 제곱은 항상 음이 아니다.
Operator norm of a matrix
If T : V → W T : V \rightarrow W T : V → W is a linear map, operator norm is ∥ T ∥ o p = m a x x ∈ V , x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \Vert T \Vert _{op} = \underset {x\in V,x \neq 0}{max}{\Vert Ax\Vert_p \over \Vert x\Vert_p} ∥ T ∥ o p = x ∈ V , x = 0 ma x ∥ x ∥ p ∥ A x ∥ p (참고만)
For a matrix A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n the matrix p-norm is
∥ A ∥ p = m a x x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \Vert A \Vert_p = \underset {x\neq0}{max} {\Vert Ax\Vert_p \over \Vert x\Vert_p} ∥ A ∥ p = x = 0 ma x ∥ x ∥ p ∥ A x ∥ p
∥ A ∥ 1 = m a x 1 ≤ j ≤ n ∑ i = 1 m ∣ A i j ∣ \Vert A \Vert_1 = \underset {1 \leq j\leq n }{max}\ \overset m{\underset {i=1}{\sum}} |A_{ij}| ∥ A ∥ 1 = 1 ≤ j ≤ n ma x i = 1 ∑ m ∣ A i j ∣ : 열의 합 중 최대
∥ A ∥ ∞ = m a x 1 ≤ i ≤ m ∑ j = 1 n ∣ A i j ∣ \Vert A \Vert_\infin = \underset {1 \leq i\leq m }{max}\overset n{\underset {j=1}{\sum}} |A_{ij}| ∥ A ∥ ∞ = 1 ≤ i ≤ m ma x j = 1 ∑ n ∣ A i j ∣ : 행의 합 중 최대
∥ A ∥ 2 = σ 1 ( A ) \Vert A \Vert_2 = \sigma_1(A) ∥ A ∥ 2 = σ 1 ( A ) :largest singular value of A A A
∥ A ∥ 2 = m a x x ≠ 0 ∥ A x ∥ 2 ∥ x ∥ 2 = m a x x ≠ 0 x T A T A x x T x = m a x x ≠ 0 R A T A ( x ) = σ 1 ( A ) \Vert A \Vert_2 = \underset {x\neq0}{max} {\Vert Ax\Vert_2 \over \Vert x\Vert_2} = \underset {x\neq0}{max}{x^TA^TAx\over x^Tx} = \underset {x\neq0}{max} R_{A^TA}(x) = \sigma_1(A) ∥ A ∥ 2 = x = 0 ma x ∥ x ∥ 2 ∥ A x ∥ 2 = x = 0 ma x x T x x T A T A x = x = 0 ma x R A T A ( x ) = σ 1 ( A )
성질
∥ A x ∥ p = ∥ A ∥ p ∥ x ∥ p \Vert Ax\Vert_p = \Vert A\Vert_p\Vert x \Vert_p ∥ A x ∥ p = ∥ A ∥ p ∥ x ∥ p
∥ A B ∥ p = ∥ A ∥ p ∥ B ∥ p \Vert AB\Vert_p = \Vert A\Vert_p\Vert B \Vert_p ∥ A B ∥ p = ∥ A ∥ p ∥ B ∥ p
pf) ∥ A B x ∥ p ≤ ∥ A ∥ p ∥ B x ∥ p ≤ ∥ A ∥ p ∥ B ∥ p ∥ x ∥ p \Vert ABx\Vert_p \le \Vert A\Vert_p\Vert Bx\Vert_p \le \Vert A\Vert_p\Vert B\Vert_p\Vert x\Vert_p ∥ A B x ∥ p ≤ ∥ A ∥ p ∥ B x ∥ p ≤ ∥ A ∥ p ∥ B ∥ p ∥ x ∥ p ∥ A B ∥ p = m a x x ≠ 0 ∥ A B x ∥ p ∥ x ∥ p ≤ m a x x ≠ 0 ∥ A ∥ p ∥ B ∥ p ∥ x ∥ p ∥ x ∥ p = ∥ A ∥ p ∥ B ∥ p \Vert AB\Vert_p = \underset {x\neq0}{max} {\Vert ABx\Vert_p \over \Vert x\Vert_p} \le \underset {x\neq0}{max} {\Vert A\Vert_p\Vert B\Vert_p\Vert x\Vert_p \over \Vert x\Vert_p} = \Vert A\Vert_p\Vert B \Vert_p ∥ A B ∥ p = x = 0 ma x ∥ x ∥ p ∥ A B x ∥ p ≤ x = 0 ma x ∥ x ∥ p ∥ A ∥ p ∥ B ∥ p ∥ x ∥ p = ∥ A ∥ p ∥ B ∥ p
∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n A i j 2 = t r ( A T A ) = ∑ i λ i ( A T A ) = ∑ i = 1 m i n ( m , n ) σ i 2 ( A ) \Vert A \Vert_F = \sqrt{\overset m{\underset {i=1}{\sum}}\overset n{\underset {j=1}{\sum}}A^2_{ij}}=\sqrt{tr(A^TA)} = \sqrt{{\underset {i}{\sum}}\lambda_i(A^TA)} = \sqrt{\overset {min(m,n)}{\underset {i=1}{\sum}}\sigma_i^2(A)} ∥ A ∥ F = i = 1 ∑ m j = 1 ∑ n A i j 2 = t r ( A T A ) = i ∑ λ i ( A T A ) = i = 1 ∑ m i n ( m , n ) σ i 2 ( A )
참고
추가 설명t r ( A T A ) = t r ( V Σ T Σ V T ) = t r ( V T V Σ T Σ ) = t r ( Σ T Σ ) = ∑ i = 1 m i n ( m , n ) σ i 2 ( A ) tr(A^TA) = tr(V\Sigma^T\Sigma V^T) = tr(V^TV\Sigma^T\Sigma) = tr(\Sigma^T\Sigma) ={\overset {min(m,n)}{\underset {i=1}{\sum}}\sigma_i^2(A)} t r ( A T A ) = t r ( V Σ T Σ V T ) = t r ( V T V Σ T Σ ) = t r ( Σ T Σ ) = i = 1 ∑ m i n ( m , n ) σ i 2 ( A )
정리 안 한 것
Low-rank approximation
Moore-Penrose pseudoinverse