Linear Algebra +


Linear Algebra


1. Variance

Q . Variance란?
A . 분산, 데이터가 얼마나 퍼져있는지를 측정하는 방법. 각 값들의 평균으로부터 차이의 제곱 평균이다.

  • v=(XiX)2Nv = \frac{\sum{(X_{i} - \overline{X})^{2}} }{N} ( X\overline{X} : 평균, NN : 관측의 수 )

  • Sample의 분산을 계산 할때는 N1N-1로 나누어야 합니

  • 모집단의 분산 σ2\sigma^{2} 는 모집단의 PARAMETER (aspect, property, attribute, etc)이다.

  • 샘플의 분산 s2s^{2} 는 샘플의 STATISTIC (estimated attribute)이다.


2. Standard Deviation

Q . Standard Deviation란?
A . 표준편차는 분산의 값에 ()\sqrt()를 씌운 것

  • 분산을 구하는 과정에서 스케일이 커지므로 표준 편차는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법이다.

3. Covariance

Q . Covariance란?
A . 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것이다.

  • 하나가 증가할때, 다른 하나도 증가 하는 경향을 파악하는 것이다.

  • 큰 값의 공분산은 두 변수간의 큰 연관성을 나타낸다.

    • 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해서 높은 공분산 값을 가지게 될 것이다.
  • df.cov()

Q . 크기가 다른 두 데이터셋은 동일한 연관성을 갖고 있지만 (xx = yy), 계산된 공분산의 값은 매우 다르다. 이 문제를 해결하는 방법은 ?
A .


4. Correlation coefficient

Q . Correlation coefficient란?
A . 공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정한 값이다.

  • 상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 갖으며 선형연관성이 없는 경우 0에 근접하게 된다.

  • df.corr()

Q . 대부분의 경우, 상관계수는 공분산에 비해서 더 좋은 지표로써 사용되며 그 이유는?

  • 공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽다.
  • 공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않다.
  • 상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않는다.
  • cor(X,Y)=r=cov(X,Y)σXσYcor(X,Y) = r = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}

  • 상관 계수는 일반적으로 소문자 rr 로 표현

  • Pearson correlation : 데이터로부터 분산과 같은 통계치를 계산 할 수 있을때 사용 가능하다. numerical data일 경우 사용한다.

Q . Categorical data일 경우 사용하는 상관계수는?
A . spearman correlation coefficient, 값들에 대해서 순서 혹은 rank를 매기고, 그를 바탕으로 correlation을 측정하는 Non-parametric한 방식이다.

Q . Spearman correlation을 계산하는 방법은 ?
A .


5. Orthogonality

Q . Orthogonality( 직교 )란?
A . 벡터 혹은 매트릭스가 서로 수직으로 있는 상태를 말한다.

  • 수직인 벡터는 상관관계가 없다
  • 벡터가 수직이다 = 내적이 0이다.
  • 단위 벡터 ( Unit Vectors ) : "단위 길이(1)"를 갖는 모든 벡터를 말한다.
    • 모든 벡터 ( 혹은 매트릭스 )는 단위 벡터의 선형 조합으로 표기 된다.

6. Span

Q . Span( 생성 )이란?
A . 주어진 두 벡터의 ( 합이나 차와 같은 ) 조합으로 만들 수 있는 모든 가능한 벡터의 집합이다.

  • 선형 관계의 벡터 (Linearly Dependent Vector)
    • 두 벡터가 같은 선상에 있으면 선형 관계에 있다고 한다. 이 벡터들의 조합에서는 선 외부의 새로운 벡터를 생성 할 수 없다.
    • 선형 관계의 벡터의 span은 평면 공간이 아닌, 벡터가 이미 올려져 있는 선으로 제한된다.

Q . 같은 선상에 있다는 것을 수학적으로 어떻게 표현 할까요?
A .

  • 선형 관계가 없는 벡터 (Linearly Independent Vectors)
    • 두 벡터가 같은 선상에 있지 않은 벡터들은 선형적으로 독립되어 있다고 한다. 두 벡터가 연관되어 있지 않다.

7. Basis

Q . Basis( 기저 )란?
A . 벡터 공간 VV의 basis 는, VV 라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음이다. ( span의 역개념 ) 주어진 공간을 채우는 벡터이다.

  • R2R^2 : 2차원 실수좌표공간 설명

  • Orthogonal Basis

    • Basis 에 추가로 Orthogonal 한 조건이 붙는, 즉 주어진 공간을 채울 수 있는 서로 수직인 벡터들이다.
  • Orthonormal Basis

    • Orthogonal Basis에 추가로 Normalized 조건이 붙은 것으로, 길이가 서로 1인 벡터들이다.

Q . Gram-Schmidt 프로세스란?
A . 주어진 벡터들을 Orthonormal하게 수정하는 과정이다.


8. Rank

Q . Rank( 계수 )란?
A . 매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원

8.1 Gaussian Elimination

Q . Gaussian Elimination란?
A . 주어진 매트릭스를 "Row-Echelon form"으로 바꾸는 계산과정이다.

  • Row-Echelon form란? 각 행에 대해서 왼쪽 1, 그 이후 부분 0으로 이루어진 형태이다.

    • 일반적으로 upper-triangular 의 형태를 가지고 있다.
  • Linear Projection, 데이터를 표기하기 위해 x와 y라는 2개의 feature를 projection을 해 데이터의 x만 남긴다. 즉, 1개의 feature만 남긴다.

    • 데이터를 저장하기 위한 메모리 활용에 용이하다.


👉 과정 한눈에 보기

profile
기록하지 않으면 기록되지 않는다.

0개의 댓글