Maximum Mean Discrepancy

정또치·2024년 2월 21일
0

지식++1

목록 보기
14/15

Maximum Mean DiscrepancyRKHS(Reproducing Kernel Hilbert Space)에서 분포의 평균 임베딩 거리를 계산하여 두 확률 분포 간 차이를 구한다.

MMD를 위해서는 데이터를 고차원 공간으로 매핑해야 하는데, 고차원 공간으로 매핑하기 위해서는 Kernel 함수가 필요하다.

모든 데이터에 대해 Mapping Function Φ\Phi을 source domain과 target domain 각각에 적용하고 평균 임베딩 거리를 계산한다. 그 후, 두 확률 분포 간 차이를 구한다.


고차원 공간으로 매핑하는 이유 : 결정 경계를 선형으로 만들기 어려운 상황에서 원본 데이터를 고차원으로 매핑하여 선형 분류하려고


Kernel 함수 : 원래 특징 공간 LL에 정의된 두 특징벡터 x,zx, z에 대해 K(x,z)=Φ(x)Φ(z)K(x,z)=\Phi (x)*\Phi (z)Φ\Phi 가 존재하면 K(x,z)K(x, z)를 커널함수라 부른다.


Kernel trick 이란 변환함수 Φ(x)\Phi (x) 로 변환한 HH 공간에서 내적 연산을 원래 특징 공간 LL 에서 커널함수 계산으로 대치하는 것이다. 다시 말해 특징 벡터를 명시적으로 HH 공간으로 매핑하지 않고 커널함수를 이용하여 HH 공간의 내적을 얻는다. 원래 특징 공간에서 쉽게 계산하지만, 선형 분리 가능이라는 고차원 공간의 좋은 특성을 이용하는 셈이고, 수학적 트릭으로 차원의 저주를 피한 셈이다. [오일석, 기계학습]

커널 트릭을 활용하기 위해서는 H공간에서의 연산이 내적으로 표현되어야 한다.
Duality 라는 개념을 사용하여 내적으로 표현되는 등가의 식을 유도한다.


RKHS : A Hilbert space, HH is a real or complex inner product space that is also a complete metric space with respect to the distance function induced by the inner product.

함수들의 집합이 Hilbert 공간을 형성하며, 재생 커널이라 불리는 특별한 함수를 이용하여 내적 연산이 정의되는 공간을 나타냅니다. 함수들의 내적 연산을 이용하면 함수 공간에서의 유사성 및 거리를 정의할 수 있다.

Reproducing Kernel Hilbert Space (RKHS)는 함수 공간을 나타내는 수학적인 개념으로, 머신러닝 및 커널 기법에서 중요한 역할을 합니다. RKHS는 Hilbert 공간의 특별한 유형으로, 특히 커널 함수를 통해 정의됩니다.

Hilbert Space(힐버트 공간): Hilbert 공간은 내적이 정의된 완비된 벡터 공간입니다. 여기서 완비된(complete)이란 모든 Cauchy 수열이 수렴하는 것을 의미합니다. 내적은 벡터 공간 내에서 두 벡터 간의 "유사성"을 측정하는 연산입니다.

Reproducing Kernel(복원 커널): RKHS의 핵심 아이디어는 재생 커널입니다. 재생 커널은 특별한 성질을 가진 함수로, 이 함수를 사용하여 RKHS에 속하는 함수들의 값을 재현할 수 있습니다. 즉, 재생 커널을 사용하면 함수의 평가가 내적의 형태로 표현될 수 있습니다.

profile
ddochi

0개의 댓글