1. Zero Temperature Gibbs Algorithm 개요
Zero Temperature Gibbs Algorithm은 Gibbs Sampling의 변형된 형태로, 샘플링 과정에서 난수성을 줄이고 결정론적인 탐색을 수행하는 방식이다. 일반적인 Gibbs Sampling은 각 조건부 분포에서 확률적으로 샘플을 선택하지만, Zero Temperature Gibbs Algorithm에서는 특정한 극한 조건을 적용하여 최적의 상태를 찾는 데 집중한다.
이 알고리즘은 주로 확률적 최적화(Stochastic Optimization)와 에너지 기반 모델(Energy-Based Models, EBM)에서 사용되며, Gibbs Sampling에서 온도(Temperature) 매개변수를 0으로 두는 개념에서 유래한다.
2. Zero Temperature Gibbs Algorithm의 원리
일반적인 Gibbs Sampling에서는 다음과 같은 방식으로 샘플을 업데이트한다.
- 초기값 설정: 임의의 초기 상태 (X^{(0)} = (X_1^{(0)}, X_2^{(0)}, ..., X_d^{(0)}))을 선택한다.
- 각 변수에 대해 조건부 분포를 기반으로 샘플링:
- X1(t+1)∼P(X1∣X2(t),X3(t),...,Xd(t))
- X2(t+1)∼P(X2∣X1(t+1),X3(t),...,Xd(t))
- …
- Xd(t+1)∼P(Xd∣X1(t+1),X2(t+1),...,Xd−1(t+1))
그러나, Zero Temperature Gibbs Algorithm에서는 확률적인 샘플링 대신, 조건부 분포에서 가장 가능성이 높은 값(최대 우도 추정, Maximum Likelihood Estimation, MLE)을 선택하는 방식으로 진행된다.
즉, 일반적인 Gibbs Sampling이 확률적인 상태 탐색을 수행하는 반면, Zero Temperature Gibbs Algorithm은 결정론적으로 최적의 상태를 찾아간다. 해당 방법은 확률적 모델에서 특정 변수의 MAP(Maximum A Posteriori) 추정을 수행할 때 활용될 수 있다. (Bayesian Inference 및 Variational Methods)
수식으로 나타내면 다음과 같다.
Xi(t+1)=argXimaxP(Xi∣X¬i(t))
여기서 X¬i는 Xi를 제외한 나머지 변수들을 의미한다.
3. Zero Temperature Gibbs Algorithm 예제
(예시: 이진 분류 문제에서 Zero Temperature Gibbs Sampling)
문제 설정: 이진 분류 문제
주어진 이진 분류 문제에서, 각 데이터 포인트는 2차원 벡터 x=(x1,x2)로 구성된다. 그리고 목표는 주어진 데이터에 대해 분류 경계(linear decision boundary)를 학습하는 것이다.
모델은 Perceptron이며, 입력 데이터 x에 대한 예측은 다음과 같이 이루어진다.
fw(x)=sign(w1x1+w2x2+b)
여기서 w=(w1,w2)는 모델의 가중치 벡터, b는 편향이다. 목표는, 주어진 데이터에 대해 가장 적합한 가중치 벡터 w를 찾는 것이다.
초기화 및 모델 설정
- 주어진 데이터 샘플: X={(x1,y1),(x2,y2),(x3,y3)}, 여기서 xi∈R2는 2차원 벡터, yi∈{0,1}는 해당 샘플의 레이블이다.
- 초기 가중치 w(0)=(w1(0),w2(0),b(0))는 임의로 설정된다. 예를 들어, w(0)=(0.5,−0.5,0.1)로 시작할 수 있다.
Zero Temperature Gibbs 적용
Zero Temperature Gibbs는 샘플링이 아니라, 조건부 확률에서 가장 높은 확률을 갖는 값을 선택하는 결정론적 방식이다. 여기서는 가장 적합한 가중치 벡터를 선택하는 방식으로 진행된다.
조건부 분포 계산
각각의 가중치 w1, w2, b에 대해 조건부 확률을 계산한다. 예를 들어, w1에 대한 조건부 분포는 다음과 같다.
P(w1∣X,y)∝exp(−β⋅L(w1,w2,b))
여기서,
- L(w1,w2,b)는 손실 함수이다.
- β는 온도 파라미터로, Zero Temperature에서는 β→∞로 설정된다.
Zero Temperature에서의 결정론적 선택
- 온도 β→∞일 때, 확률 분포는 가장 작은 손실을 가지는 값으로 집중되므로, 최소 손실 값을 갖는 w1을 선택한다.
- 즉, w1에 대해 최적의 값을 선택하면, 다른 가중치들(w2,b)도 비슷한 방식으로 결정론적으로 선택된다.
Gibbs 업데이트
Zero Temperature에서는 다음과 같이 각 가중치에 대해 최적의 값을 선택하는 방식으로 업데이트가 이루어진다.
w1(t+1)=argw1maxP(w1∣X,y)
w2(t+1)=argw2maxP(w2∣X,y)
b(t+1)=argbmaxP(b∣X,y)
이 과정에서 각 가중치는 최적의 값으로 결정되며, 이때 조건부 확률이 가장 높은 값을 선택하는 것이 Zero Temperature의 핵심이다.