[머신러닝] 특징추출(Feature Extraction)

나래·2024년 8월 12일

1. 특징 추출이란?

1)정의


= 특징 추출은 사전 학습된 모델을 사용하여 새로운 데이터셋에서 특성을 추출하는 기법이다.

입력 데이터가 xix_i로 주어지고 출력 데이터가 yiy_i로 주어질 수도 있다.
주어진 데이터에 대해서 n차원의 랜덤 벡터를 통해 변환함수 ϕ\phi(파이)를 찾게 되며 변환 함수의 ϕ\phi를 찾으면 입력 데이터를 ynewy_new라는 m차원의 특징벡터로 변환해서 표현된다.

기계 학습을 위해 원시 데이터로부터 유용한 특징들을 선택, 조합, 생성하는 과정으로, 이 과정은 다량의 원시 데이터에서 주요 정보를 식별하여 관련이 높고 차원이 낮은 표현을 제공하는 것을 목표로 한다.

  • 특징 추출은 분류, 군집화, 회귀, 예측 등의 과제에서 사용된다.
    ➡️ 음성에서 발음과 관련한 특징을 추출하여 군집화(혹은 분류)에 사용하면 되지 않을까?

2) 목적

  • 분류를 하거나 군집 등의 분석을 할 때 불필요한 정보들을 제거하고 핵심적인 정보만 추출하기 위함이다.
  • 원래의 n차원의 데이터를 m 차원으로 차원 축소해서 계산량을 줄이고 메모리를 감소시켜 분석 시스템의 효율과 성능을 향상시키기 위함이다.

3) 변환 함수(Embedding Function, Transformation Function)란?


= n차원의 입력 값을 받아서 m차원의 특징벡터로 변환하는 것을 특징 추출이라고 한다.

  • ϕ\phi의 특징에 따라서 두 종류로 나눌 수 있다.

2. 선형 변환에 대한 특징 추출

1) 선형 변환
= n차원 열벡터 x에 대해서 변환 행렬 W(nxm)을 곱해서 m차원의 특징을 휙득하는 것이다.
특징 벡터 y가 원하는 분포가 되도록 W를 찾는 것이 목적이다.

여러가지 방법이 있긴 한데... 이건 추후 실제 예제로 정리해보고 싶다.

참고블로그

0개의 댓글