차원 축소를 사용한 데이터 압축

머신러닝

목록 보기
8/13

차원 축소를 위한 또 다른 방식 -> 특성 추출

특성 선택과 특성 추출의 차이

  • 원본 특성을 유지 여부
    - 특성 선택은 원본이 유지되지만, 추출은 유지X

1. 주성분 분석(PCA)

  • 데이터의 차원을 축소하면서도 정보 손실을 최소화하기 위해, 데이터 분산이 가장 큰 방향(주성분)을 찾아 새로운 축으로 변환하는 비지도 학습 기법
    - why 분산이 최대인 방향? 저차원으로 축소하면서 손실 발생 -> 그 손실을 최소화 하려고 분산을 큰 방향으로 -> why? 데이터의 분산이 크다는 것은 데이터가 그 방향으로 더 많이 퍼져 있고, 더 많은 변동성을 설명할 수 있다는 의미 -> 즉 데이터의 주요 패턴과 구조를 더 잘 보존! **분산이 최대 = 유효한 많은 정보를 담고있다
  • 관련 용어:
    • 공분산(두 변수사이의 관계(상관성)) : 양의 공분산(예. 키와 몸무게; 키가 크면 몸무게도), 음의 공분산(예. 상품가격과 판매량; 가격이 오르면 일반적으로 판매량은 떨어짐)
  • 비지도 학습: 클래스 레이블 정보 사용X

2. 선형 판별 분석(LDA)

  • 클래스 간 분리를 최대화하고 클래스 내부 분산을 최소화(즉 과대 적합을 줄이는 방향으로)하는 방향으로 데이터를 투영하여, 분류 문제를 해결하거나 차원을 축소하는 지도 학습 기법
  • 주성분분석 VS. LDA
    • 모두 차원 개수를 줄이는 선형 변환 기법
    • PCA는 비지도, LDA는 지도 -> 분류작업에서 더 뛰어남

3. 커널 PCA

  • 비선형 데이터를 고차원 공간으로 매핑해, 그 공간에서 주성분 분석(PCA)을 수행함으로써 비선형 구조까지 효과적으로 차원 축소를 가능하게 하는 기법
  • 커널: 고차원 공간으로 매핑하는 수학적 함수. (매핑함수)
profile
정리하는게 공부가 될 지 모르겠지만, 정리를 하면 마음만큼은 편해

0개의 댓글