DATA SCIENCE (5)

Hyo·2023년 5월 28일
1

DATA SCIENCE

목록 보기
5/6
post-thumbnail

선형모델 선택 및 Regularization

1. Subset Selection

: 통계적인 모델링에서 사용되는 변수 선택 기법 중 하나로, 모델의 예측 능력을 향상시키기 위해 가장 중요한 변수들의 부분 집합을 선택하는 과정

01. 전진 선택(Forward Selection)

: 변수를 하나씩 추가하면서 가장 예측력이 좋은 변수를 선택

02. 후진 제거(Backward Elimination)

: 모든 변수를 포함한 전체 모델에서 하나씩 변수를 제거하면서 예측 성능이 가장 크게 저하되지 않는 변수를 제거

03. 단계적 선택(Stepwise Selection)

: 전진 선택과 후진 제거의 조합으로, 변수를 추가하거나 제거하면서 예측 성능이 개선되는 경우에만 변수를 선택 또는 제거

2. Shrinkage Methods

: 통계적인 모델링에서 사용되는 변수 선택 기법 중 하나로, 모델의 복잡성을 줄이고 예측 성능을 개선하기 위해 변수들의 계수를 축소(Shrink)하는 방법

  • 변수 선택 및 계수 측정
  • Bias-Variance 트레이드 오프

01. Ridge Regression
-손실 함수에 L2 규제항을 추가하여 변수들의 계수를 축소
-L2 계수의 크기에 비례하여 페널티를 부여하므로, 변수들의 계수를 0에 가깝게 만들고 상대적으로 중요한 변수들을 선택할 수 있음

02. Lasso Regression
-L1 규제항을 사용하여 변수들의 계수를 축소
-변수 선택과 변수들의 계수 축소를 동시에 수행하며, 계수를 0으로 만들 수도 있음
-변수 선택과 희소성(sparisty)를 동시에 제공

3. Dimension Reduction Methods

: 고차원 데이터의 특성을 요약하고 축소하여 데이터의 복잡성을 줄이는 방법

01. PCA(Principal Component Analysis)
: 고차원 데이터의 주요 정보를 가장 잘 보존하는 주성분(PC, Principal Component)으로 데이터를 변환

02. t-SNE (t-Distributed Stochastic Neighbor Embedding)
: 비선형 차원 축소 방법으로, 고차원 데이터의 유사도를 보존하면서 저차원에서 데이터를 시각화하기 위해 사용

03. LLE(Locally Linear Embedding)
: 비선형 차원 축소 방법으로, 지역적으로 선형적인 관계를 보존하면서 데이터를 저차원으로 변환

04. Autoencoder
: 경망 기반의 차원 축소 방법으로, 비지도 학습을 통해 데이터를 표현하는 저차원 잠재 공간을 학습

profile
갓난 아이의 거짓 울음

0개의 댓글