[데이터 분석] Linear Algebra+

Colacan·2022년 2월 7일
1

[데이터 분석]

목록 보기
3/9

Variance, Standard Deviation

  • 분산은 평균과 다르게 Data의 Scale에 영향을 받는다.

  • 이를 줄이기 위해 var의 ddof 속성 이용(표준편차 이용)

Covariance

  • 1개의 변수값이 변화할 때 다른 변수가 어떤 연관성을 나타내며 변하는지 측정

  • 코스피 지수와 코스닥 지수의 변화가 비슷하다. 공분산이 Positive하다.

Correlation coefficient

  • 상관계수 : Covariance도 Variance와 마찬가지로 Scale의 영향을 받는다 이를 줄여주기 위해서 사용

  • 상관계수는 -1에서 1의 범위 안의 값만 가짐

  • 상관계수에서의 Negative covariance : -1<cor(x,y)<0

  • 상관계수에서의 Zero covariance : cor(x,y)~0

  • 상관계수에서의 Positive covariance : 0<cor(x,y)<1

  • 상관계수는 데이터의 선형관계를 보여준다.

Spearman correlation

  • Categorical한 데이터의 상관계수를 구하는데 이용

  • rank를 매기고 그를 바탕으로 correlation을 측정하는 non-parametic한 방식

  • 피어슨 상관계수 검정
    1) corr = stats.pearsonr(cor01.sales, cor01.gdp1)

  • 스피어만 상관계수 검정
    1) rho = stats.spearmanr(cor01.sales, cor01.gdp1)

Orthogonality

  • 데이터의 직교성, 데이터가 독립임을 의미

  • 벡터의 내적값이 0이면 수직으로 배치

단위벡터

  • 단위길이(1)을 가지는 모든 벡터

  • 모든 값을 norm값으로 나눠줌

  • 차원의 단위 벡터 : 모든 값들이 1과 0으로만 구성

  • 모든 벡터는 단위벡터의 선형조합으로 표기 가능

Span

  • 주어진 두 벡터의 조합으로 만들 수 있는 모든 벡터의 집합

  • 선형관계의 경우 : 선 외부의 벡터를 만들 수 없다.

  • 선형관계가 없는 벡터 : 주어진 공간의 모든 벡터를 조합으로 만들 수 있음

Basis

  • Span의 반대 개념

  • 주어진 공간을 만들 수 있는 벡터의 집합

  • Orthogonal Basis : 주어진 공간을 채울 수 있는 서로 수직인 벡터

  • Orthonormal Basis : Orthogonal Basis에 길이가 1이라는 조건이 붙음

Rank

  • Matrix의 열을 이루는 벡터로 만들 수 있는 차원

  • 행과 열을 이루는 백터중 선형관계가 있을 시 Matrix의 차원과는 다르다

  • Gaussian Elimination : 주어진 Matrix를 Row-Echelon form으로 바꿈

  • Row-Echelon form : 각 행에 대해서 왼쪽에 1 이후는 0으로 이루어진 형태

  • Rank외의 feature는 의미가 없으므로 분석방법을 수정하거나 재수집 필요

Linear Projections

  • 선형투영 : 한 벡터를 다른 벡터로 투영

  • 선형투영을 하는 이유 : x와 y라는 2개의 feature에서 projection을 할 경우 x만, - 즉 1개의 feature만 사용해도된다. (차원축소) data를 저장하기 위한 메모리가 줄어듬. 하지만 loss가 발생한다. 적절히 이용해야함

오늘의 참고자료

profile
For DE, DA / There is no royal road to learning

0개의 댓글