
Reverse Engineering
1) Time-Space compressor: 원본 비디오를 잠재 공간에 매핑
2) ViT: 토큰화된 잠재 표현 처리 및 출력
3) CLIP: 확산 모델이 비디오 생성하도록 안내
4) Decoder: 픽셀 공간에 노이즈가 제거된 비디오를 매핑
동영상을 저차원 잠재 공간으로 압축한 후 시공간 패치로 분해하여 동영상을 패치로 변환

압축된 입력 비디오를 통해 시공간 패치 시퀀스를 추출
이미지나 비디오를 작은 부분으로 나누어 각 부분을 따로 처리
⇒ 작은 부분을 순차적으로 처리 후 조합하여 전체 데이터 처리

동영상의 차원을 줄이고 시공간적으로 압축된 잠재 패치 출력
VAE, VQ-VAE(Vector Quantiised-VAE)를 기반으로 구축
→ 크기 조정을 하지 않는 경우 고정된 크기의 잠재 공간에 매핑이 어려움
⇒ 두 가지 패치 수준의 압축 접근 방식을 통해 reverse engineering 진행
텍스트 프롬프트와 같은 컨디셔닝 정보가 주어지면 원래의 “깨끗한” 패치를 예측하도록 훈련

→훈련 연산이 증가함에 따라 샘플 품질이 현저하게 향상됨