3-2. 분산, 표준편차, 벡터

Suhae Bae·2022년 2월 7일
0


해도해도 어려운 벡터...


1. 평균, 분산, 표준편차

본격적으로 머리아픈(...)벡터를 들어가기 전에 3가지 기본 개념부터 다시 짚어보고 넘어가자!

평균: 일반적으로 데이터의 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미
분산: 데이터가 얼마나 퍼져있는지를 측정하는 방법. 각 값들의 평균으로부터 차이의 제곱 평균
표준편차: 분산의 제곱근. 분산을 구하는 과정에서 제곱 값들을 더했기 때문에 평균에 비해 스케일이 커지는데, 이를 해결하기 위해 제곱 된 스케일을 낮춘 방법

2. 공분산

그렇다면 공분산은 무엇일까?

공분산: 2개의 확률변수의 선형 관계를 나타내는 값
만약 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해 높은 공분산 값을 가지게 된다.
큰 값의 공분산은 두 변수간의 큰 연관성을 나타낸다.
즉, 변수들이 다른 스케일을 가지고 있다면 공분산은 실제 변수의 연관성에 관계 없이 영향을 받게 된다

3. 벡터와 상관관계

위에서 알아본 바에 의하면, 공분산은 하나가 증가할 때, 다른 하나도 증가하는 경향을 팍하는 것이라고 할 수 있다.
즉, 좌표상의 벡터는 다른 벡터들과 상관이 약간이라도 있다. 하지만, 수직인 벡터만 상관 관계가 존재하지 않는다.
때문에 이 벡터가 선형 관계가 있는지, 상관 관계가 없는지를 파악하는게 이후 데이터 분석에서 중요하다.

선형 관계의 벡터: 두 벡터가 같은 선상에 있는 경우. 이 두 벡터들은 선 외부의 새로운 벡터를 생성할 수 없음. 따라서, 이런 벡터의 span은 평면 공간이 아닌, 벡터가 이미 올려진 선으로 제한된다
선형 관계가 없는 벡터: 위의 경우와 달리, 같은 선상에 있지 않은 벡터. 공간의 모든 벡터를 조합으로 만들 수 있다
span이란, 두 벡터의 조합으로 만들 수 있는 모든 가능한 벡터들이다
어떤 공간 V가 있을 때, 그 공간을 채울 수 있는 선형 관계가 없는 벡터들을 basis라고 한다.

4. Rank

매트릭스의 차원과는 다른 개념으로, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 span 공간의 차원이다. 파이썬에서 np.linalg.matrix_rank()로 쉽게 알아낼 수 있다.

profile
데이터 사이언티스트를 꿈꾸는 반오십

0개의 댓글