차원 축소

혜쿰·2023년 11월 21일
0
post-thumbnail

🥨 개념

차원축소는 데이터의 특성 수를 줄이는 과정으로, 원본 데이터에서 중요한 정보를 보존하면서 데이터의 차원(특성 수)을 줄인다. 이를 통해 데이터를 더욱 효율적으로 다룰 수 있고, 모델의 성능을 향상시킬 수 있다.

🧂 목적

  1. 계산 효율성 향상

    • 고차원 데이터는 연산 비용이 많이 들 수 있어, 차원을 축소하여 계산 효율을 높인다.
  2. 과적합 방지

    • 고차원 데이터는 모델이 복잡해지고 과적합될 가능성이 높으므로 차원 축소를 통해 모델의 일반화 성능을 향상시킨다.
  3. 시각화

    • 차원 축소를 통해 고차원 데이터를 2차원 또는 3차원으로 축소하여 시각화하면 데이터의 구조를 이해하기 쉽다.
  4. 특성 간 상관관계

    • 특성 간에 높은 상관관계가 있거나 중복된 정보가 많은 경우에는 이러한 중복된 정보를 제거하고자 할 때 차원축소를 적용할 수 있다. 다중공선성이 존재할 경우 이 방법을 사용해 볼 수 있다.
  5. 계산 효율성

    • 학습 및 예측 과정에서 데이터의 차원이 크면 계산 비용이 많이 들기 때문에, 차원축소를 통해 계산 비용을 줄일 수 있다.
  6. 특성 선택보다 나은 특성 추출

    • 특성 선택은 특정 특성을 선택하고 나머지를 버리는 것이지만, 차원축소는 특성을 결합하여 새로운 의미 있는 특성을 추출하는 방식으로 더 나은 특성을 찾을 수 있다.

이러한 상황에서 차원축소를 사용하여 데이터를 더 효율적으로 처리하고 모델의 성능을 향상시킬 수 있다. 하지만 항상 차원축소가 항상 좋은 선택은 아니다. 데이터의 특성과 목적에 따라 적절한 차원축소 방법을 선택해야 한다.

🥞 종류

1. 주성분 분석 (PCA, Principal Component Analysis)

  • 주성분 분석은 데이터의 분산을 최대화하여 데이터를 가장 잘 설명하는 새로운 변수(주성분)를 찾는 방법이다.
  • 주로 선형 차원 축소에 사용되며, 상관 관계가 있는 여러 특성을 선형적으로 조합하여 새로운 주성분을 생성한다.
    -> 주성분 분석 자세히 보기

2. 요인 분석 (Factor Analysis)

  • 요인 분석은 관측된 변수들 간의 상관 관계를 분석하여 이를 몇 개의 잠재적인 변수(요인)로 요약하는 기법이다.
  • 관측된 변수들 간에 숨겨진 구조나 상호 관련성을 찾고자 할 때 주로 사용된다.

3. 독립성분 분석 (ICA, Independent Component Analysis)

  • 독립성분 분석은 다변량 신호를 통계적으로 독립적인 부분으로 분리하는 데 사용된다.
  • 주로 신호 처리나 이미지 처리 분야에서 사용되며, 다른 차원 축소 방법과는 달리 데이터의 통계적 독립성을 추구한다.

4. 다차원 척도법 (MDS, Multidimensional Scaling)

  • 다차원 척도법은 데이터 간의 거리 또는 유사성을 보존하면서 데이터를 저차원 공간에 매핑하는 기법이다.
  • 데이터의 유사성을 시각화하거나 이해하는 데 사용된다. 주로 비선형적인 상황에서도 적용될 수 있다.

5. 비선형 차원 축소법

  • 비선형 차원 축소법은 비선형적인 데이터 구조를 보존하면서 차원을 축소하는 방법을 말한다.
  • 주로 t-SNE, UMAP 등이 있으며, 고차원 데이터의 시각화나 복잡한 구조를 가진 데이터에서 유용하다.

차원축소는 데이터에 적합한 기법을 선택하고 적용하는 것이 중요하다. 이를 통해 데이터를 효과적으로 다루고 모델의 성능을 향상시킬 수 있다. 그러나 차원축소를 진행할 때 주요 정보를 보존하고 데이터 손실을 최소화하는 것이 핵심적인 요소이다.

0개의 댓글

관련 채용 정보