https://youtu.be/g-Hb26agBFg
선형 변환은 임의의 두 벡터를 더하거나 스칼라 곱을 하는 것을 말한다. 두 벡터 공간 사이의 함수, 한 점을 한 벡터 공간에서 다른 벡터 공간으로 이동시키는데 그 이동규칙을 선형 변환이라고 한다.
f를 활용해서 임의의 두 벡터[x1, x2])에 대해서 [2x1+x2, x1-3x2]로 변환할 수 있다.
그렇기에 위의 f를 활용하는 것은 T를 곱해주는 것으로 이해할 수 있다.
임의의 벡터를 다른 벡터로 변환하는 과정은 특정 T 매트릭스를 곱하는 것과 동일하다.
Transformation은 Matrix를 곱해 벡터(=데이터)를 다른 위치로 옮긴다는 뜻.
행렬 A를 선형 변환으로 위치를 옮겨 새롭게 볼 때에 선형 변환 A에 의한 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터
벡터를 변환할 때, 크기만 변화하고 방향은 변하지 않는 벡터
위의 그림에서 빨강, 보라, 검정 세 가지 선 중에서 초록색 데이터를 가장 잘 표현할 수 있는 선은 바로 빨간 선이다. 빨간 선을 저 초록 데이터의 고유 벡터로 이해하면 좋다.분산이 큰 vector를 선택해주어야 한다.
고유벡터에서 상수배의 값.
변화한 크기의 값.
고유벡터와 고유값은 항상 쌍을 이루고 있다.
주성분 분석이라고도 한다. 기존의 여러 변수를 재조합(Selection, Extraction)하여 고차원에서 저차원으로 차원을 축소해준다.
차원 축소에는 여러 방법이 있는데 여기서는 크게 Selection과 Extraction을 살펴본다.
Selection(선택): 왼쪽의 데이터는 x축에 size, y축에 rooms를 두어 2차원으로 표현했다. 하지만 오른쪽의 그래프는 x축 size만 남겨두어 1차원으로 축소했다. 이런 것이 pca, 데이터 차원 축소의 일종이다.
장점: 선택한 feature를 해석하기 쉽다.
단점: 선택하고 선택하지 않은 feature 사이의 연관성을 염두해두어야 한다.
예) LASSO, Genetic algorithm 등
Extraction(추출): 기존에 있는 feature와 그것을 활용해 새롭게 만든 feature를 사용하는 것. 마치 커피의 원두를 로스팅 하는 것과 비슷하다.
장점: feature 사이의 연관성이 고려된다. feature 수를 많이 줄일 수 있다.
단점: 그렇게 해서 나온 feature의 해석이 어렵다.
예) PCA, Auto-encoder 등
pca를 통해 차원을 축소한다고 했다. 그러면 축소를 하는데 얼마나 축소해야하나? 가 문제가 될 수 있다.
scree plot은 주성분을 x축에, 주성분의 Eigenvalue(고유값, 분산)을 y축에 두고 시각적으로 얼마나를 판단하게 도와준다.
강화학습(Reinforcement): 머신러닝의 여러 유형 중 하나. 기계가 좋은 행동을 할 경우 보상, 그렇지 않을 경우 처벌
Unsupervised Learning의 한 종류
주어진 데이터들이 얼마나 그리고 어떻게 유사한지 알 수 있다.
하지만 정답을 보장하지 않기에 EDA를 위한 방법으로 많이 사용된다.
다만, 우리가 알 수 없는(혹은 몰랐던) 특성을 찾아내준다.
Aggolomerative(병합): 개별 포인트에서 시작 후 점점 크게(위로) 합쳐간다.
Divisive(구분): 한개의 큰 클러스터에서 시작해서 점점 작게(아래로) 나뉘어져 간다.
https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ 실습해볼 수 있는 사이트
임의로 spot을 만들고 가장 가까운 것으로 Grouping 및 spot은 각각의 그룹의 중앙으로 이동한다.
과정: 1) k개의 랜덤한 데이터를 cluster의 중심점으로 설정. 2) 중심점 근처(가장 가까운 데이터)의 데이터를 해당 cluster로 할당한다. 3) 변경된 cluster에 대해 중심점을 새로 계산. 4)cluster에 유의미한 변화가 없을 때까지 2)~3)을 계속 반복
K를 결정하는 방법: 1)They Eyeball Method: 사람이 주관적으로 K를 판단 2)Metrics: 객관적인 지표를 설정하여 K를 결정
Elbow Method: k의 개수가 3일때 최적. L자 모양의 그래프가 사람의 팔꿈치와 닮았다고 해서 Elbow라고 부른다. 팔꿈치 모양의 k를 선택하면 된다.