Linear Algebra +

제이브로·2021년 12월 1일

AI부트캠프 Linear Algebra RANK basis span 공분산 분산 상관계수 직교 코드스테이츠 표준편차

AI부트캠프

목록 보기

14/32

Linear Algebra +

Linear Algebra

1. Variance

Q . Variance란?
A . 분산, 데이터가 얼마나 퍼져있는지를 측정하는 방법. 각 값들의 평균으로부터 차이의 제곱 평균이다.

$v = \frac{\sum{(X_{i} - \overline{X})^{2}} }{N}$ ( $\overline{X}$ : 평균, $N$ : 관측의 수 )
Sample의 분산을 계산 할때는 $N-1$ 로 나누어야 합니
모집단의 분산 $\sigma^{2}$ 는 모집단의 PARAMETER (aspect, property, attribute, etc)이다.
샘플의 분산 $s^{2}$ 는 샘플의 STATISTIC (estimated attribute)이다.

2. Standard Deviation

Q . Standard Deviation란?
A . 표준편차는 분산의 값에 $\sqrt()$ 를 씌운 것

분산을 구하는 과정에서 스케일이 커지므로 표준 편차는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법이다.

3. Covariance

Q . Covariance란?
A . 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것이다.

하나가 증가할때, 다른 하나도 증가 하는 경향을 파악하는 것이다.

큰 값의 공분산은 두 변수간의 큰 연관성을 나타낸다.
- 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해서 높은 공분산 값을 가지게 될 것이다.
df.cov()

Q . 크기가 다른 두 데이터셋은 동일한 연관성을 갖고 있지만 ( $x$ = $y$ ), 계산된 공분산의 값은 매우 다르다. 이 문제를 해결하는 방법은 ?
A .

4. Correlation coefficient

Q . Correlation coefficient란?
A . 공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정한 값이다.

상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 갖으며 선형연관성이 없는 경우 0에 근접하게 된다.
df.corr()

Q . 대부분의 경우, 상관계수는 공분산에 비해서 더 좋은 지표로써 사용되며 그 이유는?

공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽다.

공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않다.

상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않는다.

$cor(X,Y) = r = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}$
상관 계수는 일반적으로 소문자 $r$ 로 표현
Pearson correlation : 데이터로부터 분산과 같은 통계치를 계산 할 수 있을때 사용 가능하다. numerical data일 경우 사용한다.

Q . Categorical data일 경우 사용하는 상관계수는?
A . spearman correlation coefficient, 값들에 대해서 순서 혹은 rank를 매기고, 그를 바탕으로 correlation을 측정하는 Non-parametric한 방식이다.

Q . Spearman correlation을 계산하는 방법은 ?
A .

5. Orthogonality

Q . Orthogonality( 직교 )란?
A . 벡터 혹은 매트릭스가 서로 수직으로 있는 상태를 말한다.

수직인 벡터는 상관관계가 없다

벡터가 수직이다 = 내적이 0이다.

단위 벡터 ( Unit Vectors ) : "단위 길이(1)"를 갖는 모든 벡터를 말한다.
- 모든 벡터 ( 혹은 매트릭스 )는 단위 벡터의 선형 조합으로 표기 된다.

6. Span

Q . Span( 생성 )이란?
A . 주어진 두 벡터의 ( 합이나 차와 같은 ) 조합으로 만들 수 있는 모든 가능한 벡터의 집합이다.

선형 관계의 벡터 (Linearly Dependent Vector)
- 두 벡터가 같은 선상에 있으면 선형 관계에 있다고 한다. 이 벡터들의 조합에서는 선 외부의 새로운 벡터를 생성 할 수 없다.
- 선형 관계의 벡터의 span은 평면 공간이 아닌, 벡터가 이미 올려져 있는 선으로 제한된다.

Q . 같은 선상에 있다는 것을 수학적으로 어떻게 표현 할까요?
A .

선형 관계가 없는 벡터 (Linearly Independent Vectors)
- 두 벡터가 같은 선상에 있지 않은 벡터들은 선형적으로 독립되어 있다고 한다. 두 벡터가 연관되어 있지 않다.

7. Basis

Q . Basis( 기저 )란?
A . 벡터 공간 $V$ 의 basis 는, $V$ 라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음이다. ( span의 역개념 ) 주어진 공간을 채우는 벡터이다.

$R^2$ : 2차원 실수좌표공간 설명
Orthogonal Basis
- Basis 에 추가로 Orthogonal 한 조건이 붙는, 즉 주어진 공간을 채울 수 있는 서로 수직인 벡터들이다.
Orthonormal Basis
- Orthogonal Basis에 추가로 Normalized 조건이 붙은 것으로, 길이가 서로 1인 벡터들이다.

Q . Gram-Schmidt 프로세스란?
A . 주어진 벡터들을 Orthonormal하게 수정하는 과정이다.

8. Rank

Q . Rank( 계수 )란?
A . 매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원

8.1 Gaussian Elimination

Q . Gaussian Elimination란?
A . 주어진 매트릭스를 "Row-Echelon form"으로 바꾸는 계산과정이다.

Row-Echelon form란? 각 행에 대해서 왼쪽 1, 그 이후 부분 0으로 이루어진 형태이다.
- 일반적으로 upper-triangular 의 형태를 가지고 있다.
Linear Projection, 데이터를 표기하기 위해 x와 y라는 2개의 feature를 projection을 해 데이터의 x만 남긴다. 즉, 1개의 feature만 남긴다.
- 데이터를 저장하기 위한 메모리 활용에 용이하다.