[딥러닝] Transfusion

트랜스퓨전(Transfusion)은 이산 데이터(예: 텍스트)와 연속 데이터(예: 이미지)를 동시에 처리하고 생성할 수 있는 통합된 멀티모달 모델입니다. 기존의 모델들은 주로 이산 데이터와 연속 데이터를 별도의 모달리티별 모델로 처리했으며, 이를 통합하려는 시도는 주로 데이터의 이산화(quantization)를 통해 이루어졌습니다. 그러나 이러한 접근은 이미지 데이터를 이산화하는 과정에서 정보 손실이 발생하는 문제를 안고 있습니다. 트랜스퓨전은 이러한 정보 손실을 방지하기 위해 텍스트에 대해 언어 모델링(다음 토큰 예측) 기법을 적용하고, 이미지에 대해서는 디퓨전 기법을 사용하여, 하나의 트랜스포머 모델로 이 두 가지 모달리티를 동시에 처리할 수 있도록 설계되었습니다.

트랜스퓨전은 텍스트와 이미지 데이터를 동일한 시퀀스로 처리하는 방식을 취합니다. 구체적으로, 텍스트는 이산 토큰으로, 이미지는 잠재 벡터 패치로 변환되며, 이 시퀀스는 모델에 의해 동시에 처리됩니다. 이 모델은 텍스트와 이미지의 각 모달리티에 맞는 특화된 손실 함수를 적용하여 학습되며, 이를 통해 정보 손실 없이 두 모달리티 모두에서 높은 성능을 달성할 수 있습니다. 트랜스퓨전의 주요 기여는 이와 같은 통합된 멀티모달 모델링 접근법을 제시함으로써, 다양한 멀티모달 작업에서 우수한 성능을 입증했다는 점입니다.

이 모델은 특히 텍스트-이미지 생성 작업에서 매우 높은 효율성을 보여주며, 기존의 이미지 이산화 접근법보다 훨씬 적은 계산 자원으로 우수한 성능을 달성할 수 있습니다. 이를 통해 트랜스퓨전은 멀티모달 모델링 분야에서 중요한 새로운 가능성을 제시하며, 다양한 응용 분야에서 활용될 수 있는 잠재력을 지니고 있습니다.

배경 지식(Background)

언어 모델링(Language Modeling)

언어 모델링(Language Modeling)은 주어진 텍스트 시퀀스에서 다음에 나올 토큰을 예측하는 작업으로, 자연어 처리(NLP)에서 매우 중요한 역할을 합니다. 전통적으로 언어 모델은 주어진 시퀀스의 각 토큰을 조건부 확률로 분해하여 모델링하며, 이러한 조건부 확률의 곱으로 전체 시퀀스의 확률을 계산합니다. 이를 통해 모델은 입력된 텍스트의 일부분을 기반으로 다음 토큰을 예측할 수 있게 됩니다. 이러한 방식은 자연스럽게 텍스트 생성 작업으로 확장될 수 있으며, 텍스트 데이터를 기반으로 한 다양한 언어 모델링 작업에 활용됩니다.

트랜스포머(transformer) 기반 언어 모델은 최근 몇 년간 큰 주목을 받아왔으며, 특히 큰 규모의 데이터와 파라미터를 사용하여 학습된 GPT-3와 같은 모델들이 뛰어난 성능을 보이고 있습니다. 트랜스포머 모델은 인과적 어텐션(causal attention)을 통해 입력 시퀀스의 과거 정보만을 참조하여 다음 토큰을 예측하는 방식으로 동작하며, 이는 텍스트 시퀀스에서 시간적 순서를 유지하면서도 병렬 처리를 가능하게 합니다. 이러한 특성 덕분에 트랜스포머 기반 언어 모델은 대규모 데이터를 효율적으로 학습할 수 있으며, 다양한 언어 처리 작업에서 높은 성능을 보이고 있습니다.

트랜스퓨전에서는 이러한 언어 모델링 기법을 텍스트 모달리티에 적용하여, 텍스트 데이터를 이산 토큰 시퀀스로 처리하고, 이 시퀀스에서 다음 토큰을 예측하는 방식으로 모델을 학습시킵니다. 이를 통해 텍스트 생성 작업에서 높은 성능을 달성할 수 있으며, 동시에 이미지와 같은 다른 모달리티와의 통합된 처리가 가능해집니다.

디퓨전 모델(Diffusion Model)

디퓨전 모델(Diffusion Model)은 연속적 데이터(예: 이미지)를 처리하고 생성하는 데 널리 사용되는 기법입니다. 이 모델은 기본적으로 노이즈가 점진적으로 추가된 데이터를 복원하는 과정을 학습합니다. 구체적으로, 디퓨전 모델은 입력 데이터를 점진적으로 노이즈화(noise)하는 전방 과정(forward process)과, 이를 역전시키며 원래의 데이터를 복원하는 역방향 과정(reverse process)으로 구성됩니다. 이러한 접근은 특히 고해상도 이미지와 같은 연속적 데이터를 생성하는 데 효과적입니다.

디퓨전 모델의 전방 과정에서는 주어진 데이터에 가우시안 노이즈를 점진적으로 추가하여 점차적으로 노이즈가 증가된 버전의 데이터를 생성합니다. 이러한 과정은 마코프 체인(Markov Chain)을 통해 이루어지며, 각 단계에서 이전 단계의 데이터에 노이즈를 추가하여 새로운 상태를 생성합니다. 이 과정에서 생성된 노이즈화된 데이터는 모델의 입력으로 사용되며, 역방향 과정에서는 이 노이즈화된 데이터를 점진적으로 복원하여 원래의 데이터를 재현합니다.

트랜스퓨전에서는 이러한 디퓨전 모델의 기법을 이미지 모달리티에 적용하여, 이미지 데이터를 잠재 벡터 패치로 인코딩하고, 이를 디퓨전 기법을 통해 복원하는 방식으로 모델을 학습시킵니다. 이를 통해 고해상도 이미지를 생성하는 데 필요한 복잡한 계산 과정을 효율적으로 처리할 수 있으며, 텍스트 모달리티와 통합된 형태로 이미지를 생성할 수 있습니다.

잠재 이미지 표현(Latent Image Representation)

이미지 데이터를 효과적으로 처리하고 압축하기 위해서는 고차원 픽셀 데이터를 저차원 잠재 공간(latent space)으로 변환하는 기법이 필요합니다. 변형 오토인코더(VAE: Variational Autoencoder)와 같은 기법은 이러한 잠재 공간으로의 인코딩을 통해 이미지 데이터를 효율적으로 압축할 수 있게 합니다. VAE는 이미지 데이터를 잠재 벡터로 변환한 후, 이 잠재 벡터를 다시 이미지로 디코딩하는 과정을 통해 학습됩니다.

VAE는 이미지의 잠재 표현을 통해 데이터의 중요 정보를 압축하며, 이러한 잠재 표현은 디퓨전 모델과 같은 고차원 데이터를 다루는 모델에서 매우 유용하게 사용됩니다. 예를 들어, VAE를 사용하여 이미지를 저차원 벡터로 인코딩한 후, 이를 디퓨전 모델에 입력하여 이미지를 복원하거나 생성하는 방식으로 사용할 수 있습니다. 이러한 접근은 특히 이미지 생성과 같은 작업에서 높은 효율성을 제공합니다.

트랜스퓨전에서는 이러한 VAE를 활용하여 이미지 데이터를 잠재 벡터로 변환하고, 이를 트랜스포머 모델에 입력하여 텍스트와 이미지 모달리티 간의 통합된 처리가 가능하게 합니다. 이를 통해 고해상도 이미지 데이터를 효과적으로 압축하고, 정보 손실 없이 높은 품질의 이미지를 생성할 수 있습니다.

트랜스퓨전(Transfusion) 모델 소개

데이터 표현(Data Representation)

트랜스퓨전에서는 텍스트와 이미지 데이터를 동일한 시퀀스로 처리하기 위해 각각의 데이터를 적절한 형태로 변환합니다. 텍스트는 일반적으로 사용되는 언어 모델링 기법에 따라 고정된 어휘에서 이산 토큰으로 변환됩니다. 각 토큰은 정수로 표현되며, 이러한 토큰 시퀀스는 트랜스포머 모델에 의해 처리됩니다. 반면, 이미지는 VAE와 같은 변형 오토인코더를 통해 잠재 벡터 패치로 인코딩됩니다. 이 패치들은 연속적인 벡터로 표현되며, 이미지 데이터를 트랜스포머 모델에서 처리할 수 있도록 변환하는 역할을 합니다.

텍스트와 이미지를 통합하여 처리하기 위해, 트랜스퓨전은 텍스트 시퀀스와 이미지 패치 시퀀스를 결합하여 하나의 시퀀스로 만듭니다. 이 결합된 시퀀스는 모델의 입력으로 사용되며, 이를 통해 텍스트와 이미지 데이터를 동시에 처리할 수 있습니다. 텍스트와 이미지 시퀀스는 모델의 입력으로서 서로 다른 특성을 가지지만, 동일한 트랜스포머 모델에 의해 처리되기 때문에 일관된 방식으로 통합됩니다.

트랜스퓨전의 데이터 표현 방식은 텍스트와 이미지 모달리티 간의 통합된 처리를 가능하게 하며, 이를 통해 모델이 다양한 멀티모달 작업에서 높은 성능을 발휘할 수 있도록 합니다. 또한, 이러한 데이터 표현 방식은 트랜스퓨전 모델의 확장성을 높이며, 다양한 형태의 데이터에 적용할 수 있는 유연성을 제공합니다.

모델 아키텍처(Model Architecture)

트랜스퓨전의 모델 아키텍처는 대부분의 파라미터가 단일 트랜스포머(transformer) 모델에 속하는 형태로 설계되었습니다. 이 트랜스포머 모델은 텍스트와 이미지 시퀀스를 동시에 처리할 수 있도록 설계되어 있으며, 다양한 모달리티 간의 통합된 처리를 가능하게 합니다. 트랜스포머 모델은 기본적으로 다중 계층의 셀프 어텐션(self-attention) 메커니즘을 사용하여 시퀀스 내의 요소 간의 관계를 모델링하며, 이를 통해 복잡한 패턴을 학습할 수 있습니다.

트랜스퓨전에서는 텍스트와 이미지 모달리티에 특화된 인코딩 및 디코딩 계층이 존재합니다. 텍스트 인코딩 계층은 주어진 텍스트 시퀀스를 적절한 벡터 표현으로 변환하며, 이 벡터는 트랜스포머 모델에 입력됩니다. 이미지 인코딩 계층은 이미지 데이터를 잠재 벡터 패치로 인코딩하며, 이 잠재 패치는 연속적인 벡터로 표현되어 트랜스포머 모델에 입력됩니다. 디코딩 계층은 이 과정을 역으로 수행하여 텍스트나 이미지를 복원하는 역할을 합니다.

트랜스퓨전의 트랜스포머 모델은 이러한 인코딩된 시퀀스를 처리하여, 텍스트와 이미지 데이터를 통합된 방식으로 학습합니다. 트랜스퓨전은 단일 아키텍처 내에서 이러한 다양한 모달리티를 동시에 처리할 수 있으며, 이를 통해 모델의 복잡성을 줄이고 학습의 효율성을 높일 수 있습니다. 또한, 트랜스퓨전은 모달리티 간의 상호 작용을 자연스럽게 모델링할 수 있어, 멀티모달 작업에서 뛰어난 성능을 발휘합니다.

트랜스퓨전 어텐션(Transfusion Attention)

트랜스퓨전 모델의 핵심 요소 중 하나는 어텐션 메커니즘입니다. 텍스트 모달리티에는 인과적 어텐션(causal attention)이 적용됩니다. 인과적 어텐션은 주어진 시퀀스에서 각 토큰이 이전 토큰들에만 의존하도록 하여, 텍스트 생성 시 시퀀스의 순서를 유지하면서 자연스러운 텍스트를 생성할 수 있게 합니다. 이는 언어 모델에서 일반적으로 사용되는 기법으로, 텍스트 생성 작업에서 매우 효과적입니다.

이미지 모달리티에는 양방향 어텐션(bidirectional attention)이 적용됩니다. 양방향 어텐션은 이미지 패치들 간의 상호 작용을 허용하여, 패치 간의 정보를 자유롭게 교환할 수 있게 합니다. 이를 통해 이미지의 전역적 특징을 학습할 수 있으며, 이미지 생성 작업에서 더욱 정교하고 일관된 이미지를 생성할 수 있습니다. 트랜스퓨전에서는 이러한 어텐션 메커니즘을 통해 텍스트와 이미지 데이터를 효과적으로 처리하고 통합된 결과를 생성할 수 있습니다.

트랜스퓨전의 어텐션 메커니즘은 텍스트와 이미지 간의 상호작용을 자연스럽게 모델링하며, 이를 통해 멀티모달 작업에서 높은 성능을 발휘할 수 있습니다. 텍스트와 이미지 간의 상호작용은 다양한 멀티모달 작업에서 중요한 역할을 하며, 트랜스퓨전의 어텐션 메커니즘은 이러한 상호작용을 효과적으로 모델링하는 데 중요한 역할을 합니다.

학습 목표(Training Objective)

트랜스퓨전 모델의 학습 목표는 텍스트와 이미지 모달리티에 각각 특화된 손실 함수를 결합하는 것입니다. 텍스트 모달리티에 대해서는 언어 모델링 손실(language modeling loss)이 사용됩니다. 이 손실 함수는 주어진 텍스트 시퀀스에서 다음 토큰을 예측하는 과정에서 발생하는 오차를 최소화하도록 모델을 학습시킵니다. 언어 모델링 손실은 텍스트 생성 작업에서 중요한 역할을 하며, 모델이 자연스러운 텍스트를 생성할 수 있도록 도와줍니다.

이미지 모달리티에 대해서는 디퓨전 손실(diffusion loss)이 사용됩니다. 디퓨전 손실은 노이즈화된 이미지 데이터를 복원하는 과정에서 발생하는 오차를 최소화하는 데 중점을 둡니다. 디퓨전 손실은 특히 이미지 생성 작업에서 중요한 역할을 하며, 고해상도 이미지를 생성할 수 있도록 모델을 학습시킵니다. 트랜스퓨전은 이러한 손실 함수를 결합하여 텍스트와 이미지 데이터를 동시에 처리하고, 두 모달리티 모두에서 높은 성능을 발휘할 수 있도록 학습됩니다.

이러한 학습 목표는 트랜스퓨전 모델이 다양한 멀티모달 작업에서 높은 성능을 발휘할 수 있게 합니다. 텍스트와 이미지 모달리티 각각의 특화된 손실 함수를 결합함으로써, 모델이 두 가지 모달리티 간의 정보를 효과적으로 통합하고, 다양한 형태의 데이터를 생성할 수 있게 합니다.

추론(Inference)

트랜스퓨전 모델의 추론 단계에서는 텍스트 생성 모드와 이미지 생성 모드를 전환하면서 혼합된 모달리티 데이터를 생성할 수 있습니다. 텍스트 생성 모드에서는 표준적인 언어 모델링 방법을 따라 텍스트 시퀀스를 생성합니다. 이 과정에서는 이전에 학습된 텍스트 데이터에 기반하여 다음 토큰을 예측하며, 이를 통해 일관된 텍스트 시퀀스를 생성할 수 있습니다. 이 방법은 언어 모델링 작업에서 일반적으로 사용되는 방식이며, 자연스러운 텍스트 생성이 가능합니다.

이미지 생성 모드에서는 디퓨전 모델의 방법을 따라 이미지 데이터를 생성합니다. 디퓨전 모델은 주어진 노이즈화된 이미지 패치를 점진적으로 복원하여 최종 이미지를 생성합니다. 이 과정에서는 이미지 패치 간의 상호작용이 중요한 역할을 하며, 이를 통해 고해상도의 이미지를 생성할 수 있습니다. 트랜스퓨전은 이러한 과정을 통해 텍스트와 이미지 데이터를 동시에 생성할 수 있으며, 이를 통해 혼합된 모달리티 데이터를 효과적으로 처리할 수 있습니다.

트랜스퓨전의 추론 단계에서는 텍스트와 이미지 데이터를 조합하여 다양한 형태의 데이터를 생성할 수 있습니다. 이를 통해 텍스트-이미지 생성 작업에서 높은 유연성을 제공하며, 다양한 응용 분야에서 활용될 수 있는 가능성을 보여줍니다.

트랜스퓨전 모델의 동작 예시

트랜스퓨전이 실제로 어떻게 작동하는지 이해하기 위해, 모델이 텍스트 프롬프트를 받아 이미지를 생성하고, 그 후 설명 텍스트를 생성하는 시나리오를 고려해보겠습니다. 이 과정은 모델이 텍스트 프롬프트를 받는 것으로 시작하며, 이는 토큰화되고 벡터 시퀀스로 임베딩됩니다. 이러한 벡터들은 텍스트 인코더에 의해 처리되며, 어텐션 메커니즘을 사용하여 토큰 간의 관계를 캡처하고 문맥적으로 적절한 응답을 생성합니다.

텍스트 인코더가 전체 프롬프트를 처리한 후, 모델은 이미지 생성 과정을 시작하는 특수 토큰을 만나게 됩니다. 이 시점에서 트랜스퓨전은 이미지 처리 모드로 전환하며, VAE 기반 인코더를 사용하여 이미지 데이터를 잠재 패치로 압축합니다. 이러한 패치들은 트랜스포머 레이어에 의해 처리되며, 양방향 어텐션을 사용하여 이미지의 일관성과 구조를 유지합니다. 그런 다음 디퓨전 기반 디코더가 이를 고품질 이미지로 점진적으로 정제합니다.

이미지가 생성된 후, 모델은 다시 텍스트 처리 모드로 전환을 알리는 특수 토큰을 만나게 됩니다. 텍스트 디코더는 텍스트 인코더와 생성된 이미지에서 제공된 컨텍스트를 사용하여 이미지의 내용과 스타일을 정확하게 반영하는 설명 텍스트를 생성합니다. 이 과정은 트랜스퓨전이 텍스트와 이미지 처리를 매끄럽게 전환할 수 있는 능력을 보여주며, 복잡한 다중 모달 작업을 쉽게 처리할 수 있게 합니다.

이미지 생성에서 잠재 표현과 디퓨전 과정을 사용하는 것은 모델이 세부적이고 문맥적으로 적절한 이미지를 생성할 수 있도록 보장합니다. 동시에, 텍스트 처리를 위한 트랜스포머 기반 아키텍처를 사용하여 트랜스퓨전은 일관되고 문법적으로 정확한 텍스트를 생성할 수 있어 광범위한 응용 프로그램에서 다재다능한 도구가 됩니다.

[논문]

https://arxiv.org/abs/2408.11039v1?utm_source=pytorchkr&ref=pytorchkr