Q . Variance란?
A . 분산, 데이터가 얼마나 퍼져있는지를 측정하는 방법. 각 값들의 평균으로부터 차이의 제곱 평균이다.
( : 평균, : 관측의 수 )
Sample의 분산을 계산 할때는 로 나누어야 합니
모집단의 분산 는 모집단의 PARAMETER (aspect, property, attribute, etc)이다.
샘플의 분산 는 샘플의 STATISTIC (estimated attribute)이다.
Q . Standard Deviation란?
A . 표준편차는 분산의 값에 를 씌운 것
Q . Covariance란?
A . 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것이다.
- 하나가 증가할때, 다른 하나도 증가 하는 경향을 파악하는 것이다.
큰 값의 공분산은 두 변수간의 큰 연관성을 나타낸다.
df.cov()
Q . 크기가 다른 두 데이터셋은 동일한 연관성을 갖고 있지만 ( = ), 계산된 공분산의 값은 매우 다르다. 이 문제를 해결하는 방법은 ?
A .
Q . Correlation coefficient란?
A . 공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정한 값이다.
상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 갖으며 선형연관성이 없는 경우 0에 근접하게 된다.
df.corr()
Q . 대부분의 경우, 상관계수는 공분산에 비해서 더 좋은 지표로써 사용되며 그 이유는?
- 공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽다.
- 공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않다.
- 상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않는다.
상관 계수는 일반적으로 소문자 로 표현
Pearson correlation : 데이터로부터 분산과 같은 통계치를 계산 할 수 있을때 사용 가능하다. numerical data일 경우 사용한다.
Q . Categorical data일 경우 사용하는 상관계수는?
A . spearman correlation coefficient, 값들에 대해서 순서 혹은 rank를 매기고, 그를 바탕으로 correlation을 측정하는 Non-parametric한 방식이다.
Q . Spearman correlation을 계산하는 방법은 ?
A .
Q . Orthogonality( 직교 )란?
A . 벡터 혹은 매트릭스가 서로 수직으로 있는 상태를 말한다.
- 수직인 벡터는 상관관계가 없다
- 벡터가 수직이다 = 내적이 0이다.
Q . Span( 생성 )이란?
A . 주어진 두 벡터의 ( 합이나 차와 같은 ) 조합으로 만들 수 있는 모든 가능한 벡터의 집합이다.
Q . 같은 선상에 있다는 것을 수학적으로 어떻게 표현 할까요?
A .
Q . Basis( 기저 )란?
A . 벡터 공간 의 basis 는, 라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음이다. ( span의 역개념 ) 주어진 공간을 채우는 벡터이다.
: 2차원 실수좌표공간 설명
Orthogonal Basis
Orthonormal Basis
Q . Gram-Schmidt 프로세스란?
A . 주어진 벡터들을 Orthonormal하게 수정하는 과정이다.
Q . Rank( 계수 )란?
A . 매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원
Q . Gaussian Elimination란?
A . 주어진 매트릭스를 "Row-Echelon form"으로 바꾸는 계산과정이다.
Row-Echelon form란? 각 행에 대해서 왼쪽 1, 그 이후 부분 0으로 이루어진 형태이다.
Linear Projection, 데이터를 표기하기 위해 x와 y라는 2개의 feature를 projection을 해 데이터의 x만 남긴다. 즉, 1개의 feature만 남긴다.