Kwai Keye-VL Technical Report 1탄

lit·2025년 7월 27일

서론

Kwai Keye-VL(Key-frame understanding & Event-centric Vision-Language)은 글로벌 숏폼 비디오 플랫폼 Kwai의 AI 연구소에서 개발한 최첨단 비전-언어 모델.
기존의 정적인 이미지-텍스트 쌍을 이해하는 수준을 넘어 비디오의 동적인 '흐름'과 '맥락'을 깊이 있게 이해하는 것을 목표로 한다.

Keye-VL은 단순히 비디오에 등장하는 객체를 인식하는 것을 넘어, 객체 간의 상호작용, 사건의 순차적 전개, 그리고 영상에 내포된 감성이나 의도까지 파악할 수 있는 능력을 갖추고 있음
복잡한 사용자 질의에 대해 단순한 텍스트 답변이 아닌, 영상의 특정 구간을 정확히 찾아내거나 새로운 스토리를 생성하는 등 고차원적인 상호작용을 가능하게 한다.

왜 '비디오' 이해가 중요한가?
디지털 콘텐츠의 중심이 텍스트와 이미지에서 비디오로 이동함에 따라 방대한 양의 비디오 데이터를 효과적으로 분석하고 활용하는 기술의 중요성이 그 어느 때보다 커지고 있다.
기존의 VL 모델들은 주로 단일 이미지에 대한 캡셔닝이나 질의응답(VQA)에 초점을 맞춰왔으나 다음과 같은 한계를 지닌다.

  • 시간적 맥락의 부재: 영상의 이전과 이후 상황을 고려하지 못해 사건의 인과관계를 파악하기 어렵다.

  • 동적 정보 손실: 움직임, 속도, 변화와 같은 동적인 정보를 효과적으로 처리하지 못한다.

  • 복합적인 스토리 이해의 한계: 여러 사건이 얽혀 있는 복잡한 내러티브를 전체적으로 이해하는 데 어려움이 있다.

Keye-VL은 이러한 한계를 극복하고 '시간'이라는 축을 모델의 핵심 요소로 통합함으로써 진정한 의미의 비디오 이해를 구현하고자 개발되었다.

Keye-VL의 핵심 특징 요약

Spatio-temporal Attention: 비디오 프레임 내의 공간적 정보와 프레임 간의 시간적 정보를 동시에 처리하여 동적인 맥락을 효과적으로 포착한다.
Event-centric Architecture: 단순 프레임의 나열이 아닌, 의미 있는 'Event' 단위로 비디오를 분절하고 이해하여 핵심 내용을 효율적으로 요약하고 추론한다.
대규모 비디오-텍스트 데이터셋 학습: Kwai 플랫폼의 수십억 개에 달하는 비디오와 사용자 생성 텍스트를 기반으로 구축된 독점 데이터셋 'Kwai-Interaction-2B'를 통해 실제 세상의 다양하고 복잡한 상호작용을 학습했다.
Multimodal Fusion Network: 정교하게 설계된 퓨전 네트워크를 통해 시각 정보와 언어 정보 간의 미묘한 의미적 연결고리를 학습하고 이를 바탕으로 고품질의 텍스트 생성 및 질의응답을 수행한다.

아키텍처

Keye-VL은 기본적으로 Transformer에 기반한 인코더-디코더 구조를 채택하고 있다.
하지만 비디오의 특성을 효과적으로 처리하기 위해 각 모듈이 정교하게 설계되었다.

비전 인코더 (Vision Encoder):
역할: 비디오의 시각적 특징을 추출한다.
기술: 기존의 ViT(Vision Transformer)를 확장한 'TimeSformer'와 유사한 구조를 사용한다.
비디오를 여러 개의 프레임 Patch로 나눈 뒤 각 패치에 대한 Spatial Attention과 프레임 간의 Temporal Attention을 순차적으로 적용한다.
이를 통해 '무엇이' '어떻게' 움직이는지에 대한 정보를 벡터 형태로 압축한다.

텍스트 인코더 (Text Encoder):
역할: 사용자 질의나 관련 텍스트의 의미를 이해한다.
기술: BERT와 같은 표준 양방향 트랜스포머 인코더를 사용하여 입력된 텍스트의 문맥적 의미를 풍부하게 담은 임베딩을 생성한다.

멀티모달 퓨전 디코더 (Multimodal Fusion Decoder):
역할: 비전 인코더에서 추출된 시각 정보와 텍스트 인코더에서 추출된 언어 정보를 통합하여 최종 결과물(텍스트, 답변 등)을 생성한다.
기술: Keye-VL의 핵심 기술로, 'Cross-Attention' 메커니즘을 다층적으로 적용한다. 텍스트 정보가 비디오의 어떤 시공간적 영역에 주목해야 하는지, 반대로 비디오의 특정 장면이 텍스트의 어떤 단어와 관련이 깊은지를 상호 학습한다. 이 과정을 통해 두 양식의 정보가 단순 결합을 넘어 유기적으로 융합된다.

핵심 기술 1: Event Segmentation Network - ESN

Keye-VL은 비디오를 일정한 시간 간격의 프레임 묶음(Clip)으로 처리하는 대신, 의미론적 변화가 발생하는 지점을 기준으로 '이벤트'를 자동 분절하는 ESN을 전처리 단계에 도입했다.
ESN은 장면 전환, 주요 객체의 등장/퇴장, 행동의 시작과 끝 등을 감지하여 비디오를 가변 길이의 이벤트 청크(Chunk)로 나눈다.

장점:
계산 효율성: 불필요한 중복 프레임에 대한 연산을 줄이고, 중요한 변화가 일어나는 부분에 집중할 수 있다.
의미적 일관성: 하나의 이벤트 청크 내에서는 의미적, 시각적 일관성이 유지되므로 모델이 더 안정적으로 특징을 학습할 수 있다.

핵심 기술 2: Causal Reasoning Module - CRM

단순한 사건 나열을 넘어 인과관계를 이해하기 위해, Keye-VL은 퓨전 디코더 내에 CRM을 탑재했다.
이 모듈은 분절된 이벤트 벡터들을 입력받아, 특정 이벤트가 이전 이벤트의 '결과'인지, 혹은 다음 이벤트의 '원인'이 되는지를 확률적으로 모델링한다. 예를 들어, '공을 차는 장면(원인)'과 '공이 골대에 들어가는 장면(결과)' 사이의 관계를 학습하는 방식이다. 이는 "왜 이 사람이 웃고 있나요?"와 같은 추론적 질문에 답하는 능력을 크게 향상시킨다.

학습 데이터 및 방법론

학습 데이터셋: Kwai-Interaction-2B

Keye-VL의 뛰어난 성능은 학습 데이터의 질과 양에 크게 의존한다.
Kwai 연구소는 이를 위해 내부적으로 대규모 비디오-텍스트 데이터셋인 'Kwai-Interaction-2B'를 구축했다.

규모: 약 20억 개의 비디오-텍스트 쌍.
구성:
비디오: Kwai 플랫폼에 업로드된 5초~3분 길이의 다양한 비디오. (일상, 댄스, 튜토리얼, 코미디, 뉴스 등)
텍스트: 비디오 제목, 설명, 사용자 댓글, 자동 생성된 자막(ASR), 해시태그 등.
특징:상호작용 중심: 단순 설명문을 넘어, 사용자의 질문, 감정 표현, 반응 등 상호작용적 텍스트가 풍부하여 모델이 대화형 맥락을 학습하는 데 유리하다.
정제 과정: 혐오 발언, 개인정보, 저품질 콘텐츠를 제거하고, 비디오 내용과 텍스트의 관련성이 높은 데이터만을 선별하는 다단계 필터링 파이프라인을 적용했다.
이 외에도 MSR-VTT, MSVD, VATEX 등 공개 벤치마크 데이터셋을 파인튜닝 단계에서 활용하여 모델의 일반화 성능을 높였다.

사전 학습 목표 (Pre-training Objectives)

Keye-VL은 세 가지 주요 목표를 동시에 학습하는 멀티태스크 방식으로 사전 학습을 진행했다.

대조 학습 (Video-Text Contrastive Learning - VTC): 매칭되는 비디오-텍스트 쌍의 유사도는 높이고 매칭되지 않는 쌍의 유사도는 낮추도록 학습한다. 이를 통해 모델은 두 양식 간의 전반적인 의미적 연관성을 파악하는 능력을 기른다.

마스킹 모델링 (Masked Modeling - MLM & MFM):
Masked Language Modeling (MLM): 텍스트의 일부 단어를 마스킹하고, 주변 단어와 비디오 내용을 바탕으로 원래 단어를 예측하도록 한다.
Masked Frame Modeling (MFM): 비디오의 일부 프레임(또는 이벤트 청크)을 마스킹하고, 주변 프레임과 텍스트 내용을 바탕으로 마스킹된 부분의 시각적 특징을 예측하도록 한다.
Temporal Order Prediction - TOP: 이벤트 청크들의 순서를 무작위로 섞은 뒤, 모델이 원래의 시간 순서를 맞추도록 학습한다. 이를 통해 영상의 논리적, 시간적 흐름을 이해하는 능력을 강화한다.

profile
AI Researcher

0개의 댓글