연구 배경 및 중요성
주요 난제
DREAM-Talk 프레임워크 제안
본 논문의 기여
Audio-driven talking face (오디오 기반 토킹 페이스 생성)
Emotional audio-driven talking face (감정 기반 오디오 토킹 페이스 생성)
2D 랜드마크 기반 방법의 한계:
3D 모델링 기술의 장점:
전통적인 3D 모델(3DMM, FLAME)의 한계:
ARKit 블렌드셰이프 채택 이유:
ARKit 기반 감정 데이터셋 구축:
전방 확산 과정 (Forward Diffusion Process)
개념: Denoising Diffusion Probabilistic Models (DDPM) [12]의 정의를 채택하여, 원본 데이터 에 점진적으로 가우시안 노이즈(Gaussian noise)를 추가하여 최종적으로 완전한 노이즈 를 만드는 과정이다. 이 과정은 마르코프 연쇄(Markov process)를 따른다.
목표: 실제 데이터 분포 에서 샘플링된 데이터 포인트 로부터 노이즈가 추가된 잠재 변수 시퀀스 를 생성한다.
정의 (수식 1):
평균이 이고 공분산 행렬이 인 가우시안(정규) 분포란?
평균 (Mean Vector)
공분산 행렬 (Covariance Matrix)
논문의 맥락에서 의 의미:
논문의 수식 에서 공분산 행렬이 로 주어졌다. 여기서 는 단위 행렬(Identity Matrix)이다.
단위 행렬()의 특징: 대각선 요소는 모두 1이고, 비대각선 요소는 모두 0이다.
따라서, 공분산 행렬 는 대각선 요소가 모두 이고, 비대각선 요소는 모두 0인 형태이다.
시간 가 증가함에 따라 는 감소하므로, 는 증가한다. 이는 시간이 지날수록 추가되는 노이즈의 양(분산)이 점점 커진다는 것을 의미한다.
전방 확산 과정 (Forward Diffusion Process)을 실제 예시 값으로 설명
전방 확산 과정은 원본 데이터 에 점진적으로 노이즈를 추가하여 와 같은 노이즈 데이터를 만들어가는 과정이다. 논문의 수식은 다음과 같다.
데이터 : 아주 간단하게, 1차원 데이터라고 가정하자. (실제로는 고차원이지만 이해를 돕기 위해) 예를 들어, 이라는 깨끗한 데이터 포인트가 있다.
스케줄링 파라미터 : 는 가 증가함에 따라 에서 으로 감소하는 값이다.
공분산 행렬 : 1차원 데이터이므로 는 단순히 숫자 1이다. 즉, 분산은 가 된다.
이제 스텝을 진행하면서 가 어떻게 생성되는지 살펴보자.
Step 0: 원본 데이터
Step 1: 생성 ()
Step 2: 생성 ()
Step T: 생성 (최종 단계)
전방 확산 과정 요약:
공분산 행렬의 대각선 요소와 비대각선 요소
공분산 행렬()은 다변량 확률 변수들의 분산과 공분산을 나타내는 정방 행렬(square matrix)이다. 개의 변수를 가진 데이터라면 크기의 행렬이 된다.
예를 들어, 3개의 확률 변수 가 있다고 가정해보자. 이 변수들은 이미지의 픽셀 값, 얼굴 표정 파라미터 또는 어떤 특성 값들이 될 수 있다.
이 세 변수의 공분산 행렬 는 다음과 같이 정의된다:
여기서 각 요소 는 와 사이의 공분산을 의미하며, 다음과 같이 계산된다:
는 기댓값(평균)을 나타낸다.
대각선 요소는 행렬의 왼쪽 위에서 오른쪽 아래로 이어지는 대각선에 위치한 요소들을 말한다. 위 예시에서는 , , 가 대각선 요소이다.
예시 (수식과 해석):
만약 공분산 행렬이 다음과 같다고 가정하자.
비대각선 요소는 대각선을 제외한 모든 요소들을 말한다. 위 예시에서는 , , , , , 가 비대각선 요소이다.
예시 (수식과 해석, 위 행렬 동일):
: 과 는 약한 양의 상관 관계를 가진다. 이 증가하면 도 증가하는 경향이 있지만, 그 관계가 매우 강하지는 않다. (공분산 자체의 크기는 변수의 스케일에 따라 달라지므로, 관계의 강도를 정확히 파악하려면 상관계수를 봐야 한다.)
: 과 는 매우 약한 양의 상관 관계를 가진다. 그 관계는 과 사이보다 더 약하다.
: 와 는 비교적 강한 음의 상관 관계를 가진다. 가 증가하면 는 감소하는 경향이 강하다.
논문의 수식 에서의 공분산 행렬
논문의 수식 에서의 공분산 행렬 는 매우 특별한 형태이다.
차원 데이터(변수)를 다룬다면, 는 크기의 단위 행렬이다.
따라서 는 다음과 같은 형태를 띠게 된다:
이 행렬에서:
역방향 확산 과정 (Reverse Diffusion Process)
역방향 과정을 이해하기 위한 전방 확산 과정 복습:
이제 역방향 확산 과정은 에서 시작하여 를 찾아가는 과정이다. 우리는 에서 시작한다고 가정한다.
역방향 과정의 목표:
여기서 우리는 와 를 알아야 을 샘플링할 수 있다.
논문에서는 는 "학습되지 않은 시간 의존 상수"로, 미리 정해진 값들을 사용한다. 여기서는 전방 과정의 분산과 유사하게 작동하도록 값들을 가정한 뒤 진행하겠다.
따라서, 이고, 이다.
이전 전방 예시에서 사용한 값들을 바탕으로 와 를 계산해보자.
이제 역방향 과정을 단계별로 진행해보자. 조건 (오디오, 초기 상태, 감정 스타일)는 모델이 를 예측할 때 사용된다고 가정한다.
Step T: 에서 생성 (예시: 이라고 가정)
Step 2: 에서 생성
Step 1: 에서 생성
역방향 확산 과정 요약:
학습 목표 (Training Objective)
수식 유도 과정
이 수식은 Denoising Diffusion Probabilistic Models (DDPM)의 핵심 유도 과정 중 하나이며, 전방 확산 과정의 통계적 특성을 이용하여 역방향 과정의 평균을 예측하도록 변형된 형태이다.
핵심 아이디어는 다음과 같다:
유도 과정을 단계별로 살펴보자. (여기서 조건 는 표기 편의상 생략하지만, 모든 예측에 포함된다고 가정한다.)
가정 및 정의:
유도 단계:
를 과 로 표현:
전방 확산 식 에서 에 대해 정리하면:
이 식은 와 실제 노이즈 을 알면 를 알 수 있다는 것을 보여준다. 하지만 우리는 실제 을 모르므로, 모델 가 예측한 노이즈 을 사용해야 한다.
는 모델이 로부터 예측한 깨끗한 데이터이다.
의 형태:
DDPM 논문에서 중요한 결과는, 가 주어졌을 때 와 사이의 관계()가 역시 가우시안 분포를 따른다는 것이다. 이 분포의 평균은 다음과 같이 유도된다:
이것은 전방 과정의 조건부 분포 와 를 결합하여 베이즈 정리를 적용하여 얻어지는 "진짜" 역방향 평균이다.
를 사용하여 재구성:
이제 (식 B)에서 얻은 를 (식 C)의 자리에 대입하여 모델이 예측하는 평균 를 얻을 수 있다.
이 식을 정리하는 것이 다소 복잡하지만, 차분히 전개하면 논문의 수식으로 귀결된다. 주요 항만 정리해보면:
여기서 다음과 같은 관계를 이용한다:
복잡한 대수적 조작을 통해, 최종적으로 다음과 같은 형태로 단순화될 수 있다:
그리고 이것을 논문의 수식과 비교하면:
(논문의 수식에서는 가 와 항 모두에 곱해져 있지 않고 에만 곱해진 것처럼 보이지만, 이는 보통 수식을 간결하게 표현하기 위한 것이다. 실제로는 덩어리 전체에 가 곱해지는 형태가 원래 DDPM 유도 식이다.)
주의사항: 논문에서 제시된 형태는 원래 DDPM의 유도된 평균 식에서 를 분배한 형태이다. 원래 DDPM 논문 [12]의 식 (11)을 보면:
여기서 이므로 이를 대입하면 논문의 수식과 거의 동일해진다.
핵심 의미:
이 수식은 모델 가 예측한 노이즈 를 사용하여 로부터 "깨끗한" 를 추정하고, 이 추정된 를 바탕으로 한 단계 이전의 데이터 의 평균을 계산하는 방법을 알려준다. 즉, 노이즈를 예측하는 모델만 학습하면 역방향 과정의 평균 를 자동으로 얻을 수 있다는 것이 DDPM의 강점이다.