: 통계적인 모델링에서 사용되는 변수 선택 기법 중 하나로, 모델의 예측 능력을 향상시키기 위해 가장 중요한 변수들의 부분 집합을 선택하는 과정
: 변수를 하나씩 추가하면서 가장 예측력이 좋은 변수를 선택
: 모든 변수를 포함한 전체 모델에서 하나씩 변수를 제거하면서 예측 성능이 가장 크게 저하되지 않는 변수를 제거
: 전진 선택과 후진 제거의 조합으로, 변수를 추가하거나 제거하면서 예측 성능이 개선되는 경우에만 변수를 선택 또는 제거
: 통계적인 모델링에서 사용되는 변수 선택 기법 중 하나로, 모델의 복잡성을 줄이고 예측 성능을 개선하기 위해 변수들의 계수를 축소(Shrink)하는 방법
01. Ridge Regression
-손실 함수에 L2 규제항을 추가하여 변수들의 계수를 축소
-L2 계수의 크기에 비례하여 페널티를 부여하므로, 변수들의 계수를 0에 가깝게 만들고 상대적으로 중요한 변수들을 선택할 수 있음
02. Lasso Regression
-L1 규제항을 사용하여 변수들의 계수를 축소
-변수 선택과 변수들의 계수 축소를 동시에 수행하며, 계수를 0으로 만들 수도 있음
-변수 선택과 희소성(sparisty)를 동시에 제공
: 고차원 데이터의 특성을 요약하고 축소하여 데이터의 복잡성을 줄이는 방법
01. PCA(Principal Component Analysis)
: 고차원 데이터의 주요 정보를 가장 잘 보존하는 주성분(PC, Principal Component)으로 데이터를 변환
02. t-SNE (t-Distributed Stochastic Neighbor Embedding)
: 비선형 차원 축소 방법으로, 고차원 데이터의 유사도를 보존하면서 저차원에서 데이터를 시각화하기 위해 사용
03. LLE(Locally Linear Embedding)
: 비선형 차원 축소 방법으로, 지역적으로 선형적인 관계를 보존하면서 데이터를 저차원으로 변환
04. Autoencoder
: 경망 기반의 차원 축소 방법으로, 비지도 학습을 통해 데이터를 표현하는 저차원 잠재 공간을 학습