: sample에서 중복가능한 subset of data를 무작위 추출
분모를 나눠준 이유
평균, cov, corr는 모두 기댓값! -> 아웃라이어에 약함
데이터 분석에서 다른 고려사항도 같이 생각해야 함 ex) 중앙값, 독립
📎상관계수=벡터의 내적
벡터의 내적
= vector a의 vector b로의 정사영 x vector b
= 벡터 a의 변화를 벡터 b가 얼마만큼 설명해 줄 수 있는가?
수직인 벡터는 상관관계가 없다. (cos90 = 0)
1) 스케일링: 벡터의 방향은 유지한 채, 그 크기는 늘이거나 줄이거나 뒤집는 과정
2) 스칼라: 벡터를 스케일하는 숫자(선대에서 주된 역할이기 때문에 '스칼라'='숫자'로 쓰임)
1) 2차원
: 두 벡터를 스케일하고, 더하여 새 벡터를 얻을 수 있는 모든 연산
2) 3차원
: 세 벡터를 스케일하고, 더하여 얻을 수 있는 모든 연산
: 주어진 벡터 쌍의 선형결합으로 다다를 수 있는 모든 결과 벡터의 집합
1) 2차원
두 벡터의 선형생성 -> 벡터의 덧셈, 스칼라배
Q. 두가지 연산만으로 다다를 수 있는 모든 벡터는?
i. 대부분의 2차원 벡터 쌍(=2차원 벡터 공간 전체, 2차원 평면)
ii. 일렬인 벡터쌍(= 끝점이 직선에 한정되는 모든 벡터, 방향이 같음)
iii. 영벡터인 두 벡터 쌍의 생성(=원점)
2) 3차원
R³ 선형결합인 세 벡터들의 모든 집합
= 생성 in R³
i. 세번째 벡터가 다른 두 벡터의 선형생성에 있음(=같은 평면 위에 같힘)
ii. 세번째 벡터가 다른 두 벡터의 선형생성에 있지 않음(= 모든 가능한 3차원 벡터, 3차원 공간전체)
: 벡터 중 하나가 다른 벡터들의 선형결합으로 표현
(이미 다른 벡터들의 생성에 속하므로)
: 벡터 모두가 각자 생성에 다른 차원을 구성
(같은 선상에 있지 않은 경우)
: 매트릭의 열을 이루고 있는 벡터들로 만들 수 있는 공간의 차원
: 매트릭스를 "Row-Echelon form"으로 바꾸는 계산과정
📎Vector Projection using Python
import numpy as np
# 1) 다른 벡터 위에 벡터 투영
u = np.array([1, 2, 3]) # vector u
v = np.array([5, 6, 2]) # vector v
v_norm = np.sqrt(sum(v**2))
proj_of_u_on_v = (np.dot(u, v)/v_norm**2)*v
# 2) 평면에 벡터 투영
u = np.array([2, 5, 8]) # vector u
n = np.array([1, 1, 7]) # n은 평면 P에 대한 직교 벡터
n_norm = np.sqrt(sum(n**2))
proj_of_u_on_n = (np.dot(u, n)/n_norm**2)*n