# PCA

PCA 주성분분석
주성분분석의 필요성주성분분석(Principal Component Analysis, PCA)는 차원축소의 대표적 기법고차원 자료 분석을 위한 요구가 증가. 예: • IT: 이미지 자료• BT: 마이크로어레이 자료대부분의 전통적 통계분석 방법들은 변수 개수(p)가표본의 개

[혼공머신] 6-3. 주성분 분석
🚨고객들이 보낸 과일 사진이 너무 많아지면서, 저장공간이 부족해졌다... 업로드된 사진의 용량을 좀 압축시킬 수는 없을까?

PCA
PCA가 차원 축소를 위해 사용한다는 것 정도는 모두가 알고 있을 것이다.차원을 축소한다는 것은 무슨 의미이지? 저기 3차원 데이터 분포가 있다고 가정하자. 차원을 줄인다것은 저 데이터를 2차원 평면이나 1차원 직선으로 정사영 내린다는 것을 의미한다. 하지만 차원 축소

주성분 분석(PCA)
과일 사진 이벤트를 위하여 고객들이 보낸 여러 개의 이미지를 받아 k-평균 알고리즘으로 분류 후 폴더별로 저장한다. 그런데 너무 많은 사진이 등록되어 저장 공간이 부족하다. 나중에 군집이나 분류에 영향을 끼치지 않으면서 업로드된 사진의 용량을 줄일 수 있을까?지금까지

Google Cloud Professional Cloud Architect Certification(구글 PCA 자격증 대비) (1/4)
구글 PCA자격증 공부

PCA, t-SNE, MDS, Isomap 을 이용한 2,3차원 도형 차원 축소
Level2 멘토링 첫번째 과제인 차원 축소 시각화 해결 내용

PCA
PCA란 Principal Component Analysis의 약자로 분포된 데이터들의 주성분을 찾아내는 방법입니다. 아래와 같이 2차원 좌표에 n개의 데이터가 분포할 때 데이터들의 분포 특성을 2개의 벡터 e1,e2로 가장 잘 설명할 수 있는 방법이 무엇인가를 파악해내는 것입니다. 여기서 e1의 방향과 크기, 그리고 e2의 방향과 크기를 알면 데이터의 ...

[혼자 공부하는 머신러닝+딥러닝] - CH.6-3 PCA
차원 축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류, 저장공간을 줄이고 시각화하기 쉽고 다른 알고리즘의 성능을 높일 수 있음PCA(주성분 분석): 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향(주성분)을 찾는 방법

차원축소(Dimension Reduction)
정보 손실은 최소화(가능한 많은 정보를 포함)하면서 중요한 변수만 선택할 수 있다면 어떨까요?머신러닝에서는 이를 위한 다양한 차원 축소 기술들을 연구 중입니다. > 차원 축소란 고차원 원본 데이터의 의미 있는 특성을 이상적으로 원래의 차원에 가깝게 유지할 수 있도록 고차원 공간에서 자차원 공간으로 데이터를 변환 하는 것을 말합니다. > > - 직관적으로 ...

고차원의 문제(The Curse of Dimensionality; 차원의 저주)
차원의 저주란 > 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상. 차원이 증가할 수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 즉, 데이터보다 차원의 수가 더 많을 때 발생하는 현상입니다. 무조건 변수의 수가 증가한다고 해서 차원의 저주 문제가 있는 것이 아니라, 관측치 수보다 ...
데이터를 고유벡터에 선형 투영하기
linear projection(선형 투영) > Projection이란 한 벡터를 다른 벡터의 공간에 표기하는 것이라고 생각할 수 있습니다. > 아래 그림에서 vector b를 vector a 위의 vector p 로 projection 한 것이다.vector a가 선(1차원) 위에 있는 경우, vector p는 아무리 스케일을 변화시켜도 결국 선 위에 ...
고유값(eigenvalue)과 고유벡터(eigenvector)
고유벡터(Eigenvector) > 함수를 통해 선형변환 할 때 크기만 변하고 방향은 변하지 않는 벡터입니다. 그 행렬이 벡터의 변화에 작용하는 주축(principal axis)의 방향을 나타냅니다. 즉, 공분산 행렬의 고유벡터는 데이터가 어떤 방향으로 분산되어 있는지 찾아줍니다. 고유값(Eigenvalue) > $T(v) = \lambda v \...

공분산(covariance) / 공분산 행렬(covariance matrix) / 상관계수(Correlation coefficient)
공분산(covariance) 두 변수에 대하여 한 변수가 변화할 때 다른 변수가 어떠한 연관성을 갖고 변하는지를 나타낸 값입니다. 두 변수의 연관성이 클수록 공분산 값도 커집니다. 공분산 행렬(covariance matrix) > 기하학적 의미 행렬 = 선형변환, 벡터 공간을 다른 벡터 공간으로 mapping > > 데이터 구조적 의미 각 featu...

[Google Cloud PCA 시험 도전기] 시험 신청
미루고 미루고 미뤄왔던 Google Cloud PCA(Profesional Cloud Architecturer) 자격증 시험에 도전하기로 했다. 올해 목표 중 하나가 PCA 자격증 취득이였는데, 더이상 미뤘다가는 올해 안에 취득할 수 없을거 같았다. 칼을 뽑았으면 무

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(1) (PCA, LDA)
: 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것다차원 데이터 세트의 문제점차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지고, 희소한Sparse 구조를 가져 예측 신뢰도가 떨어진다.다중공선성 문제(독립

Dimension Reduction
미니배치로 PCA 수행, 미니배치 적용때마다 점진적으로 PCA성능 개선 레코드가 충분하면 Basic PCA와 거의 유사하나 메모리 사용량이 낮음 sparse는 자료해석의 용이함, 과대적합 방지 등에 효과가 있음alpha값이 클수록(희소성의 유지가 잘 될수록) 일부 입력