input으로 audio input a∈RC×T, video input v∈RF×C×H×W 가 들어오며, F,T 는 각각 video frame number, audio sequence number이다.
Efficient Multi-Modal Blocks
U-Net에서 각 Multi-Modal Block은 위와 같이 구성되어 있다.
먼저 video에서는 2D Convolution, 1D Convolution으로 구성되어 있는데, 이는 기존 video diffusion model에서 주로 computational efficiency를 위해 spatial 부분을 담당하는 2D convolution과 temporal 부분을 담당하는 1D convolution으로 구성하였다.
Attention 또한, 위와 같은 이유로 2D self-attention, 1D self-attention으로 나누어 구성하였다.
Audio의 경우에는, long-term dependency에 대한 modeling이 필요하기 때문에, (audio sequence가 훨씬 길다.) 단순히 1D convolution을 사용하기 보다는 dilated convolution을 사용하였다.
또한, computational efficiency를 위해, temporal attention block을 삭제하였다.
Random-shift based Multi-Modal Attention
이제 Audio, video 간의 alignment를 해야하는데, 이를 단순히 cross-attention으로 구성한다면, attention map의 크기가 너무 커져, computational complexity 문제가 생길 것이다.
그래서, 논문에서는 이를 해결하기 위해, Random-shift based attention mask를 통한 Multi-modal attention mechanism (RS-MMA)을 제안하였다.
이는 아래와 같은 순서로 진행된다.
audio stream을 video frame timestep과 동일하게 잘라준다.
{a1,a2,…aF}
각 modality에서 random하게 shift된 부분과 attention weight을 구한다.
예를 들어, window-size를 S 라 하고, random-shift number를 R∈[0,F−S] 라 할때, audio-to-video attention map을 구한다면, ai:i+S 와 vi+R:i+R+S 간의 attention map을 구한다.
이에 대한 그림은 아래와 같다.
이를 통해, computation complexity 문제를 해결할 수 있고, Neighborhood atttention으로 global attention 효과를 가질 수 있다.