한 소녀가 공원에서 자전거를 타며 강아지가 뒤따라오는 장면을 포함한 비디오.
비디오 내에서 특정 시간 구간 동안 인식된 주요 행동을 간략히 표현한 사전 정의된 레이블.
비디오의 특정 프레임에서 발생하는 주요 사건이나 장면에 대한 간단한 설명.
비디오의 주요 객체, 행동, 장소, 또는 주제를 간단한 키워드 형태로 나타낸 태그.
비디오의 특정 구간에서 발생하는 모든 이벤트를 포괄적으로 묘사한 상세한 설명.
비디오 프레임 내에서 특정 객체의 위치를 좌표(x, y, w, h) 형태로 나타낸 것.
비디오의 전반적인 스토리를 시간 순서에 따라 내러티브 형태로 묘사한 내용.
비디오의 특정 이벤트가 발생하는 시간 정보를 나타낸 것.
위 맥락에서 다음 용어들의 정의와 예시를 통해 각 개념을 구분해 드리겠습니다:
Clip Action Class (클립 행동 분류)
정의: 비디오의 특정 짧은 구간(클립)에 대해 해당 클립에서 발생하는 주요 행동을 분류한 것입니다. 이는 사전 정의된 행동 카테고리 중 하나로 레이블링됩니다.
예시:
Clip Caption (클립 캡션)
정의: 비디오의 특정 클립에 대한 짧은 설명 문장으로, 해당 클립에서 발생하는 내용을 서술합니다.
예시:
Video Caption (비디오 캡션)
정의: 비디오 전체에 대한 전반적인 설명 문장으로, 비디오의 주요 내용을 요약합니다.
예시:
Dense Caption (밀도 캡션)
정의: 비디오의 일정 구간(예: 5초)에 대해 발생하는 여러 이벤트나 장면을 상세하게 묘사한 캡션들의 집합입니다. 시간적으로 겹칠 수 있으며, 각기 다른 객체나 행동에 대한 세부 정보를 제공합니다.
예시:
Subtitle (자막)
정의: 비디오에서 들리는 음성이나 대화를 텍스트로 변환하여, 해당 음성이 들리는 시간에 맞춰 표시하는 것입니다. 주로 대화 내용을 전달하며, 청각 장애인을 위한 접근성 도구로도 사용됩니다.
예시:
Clip Action Class는 클립의 행동 분류에 초점을 맞추며, 사전 정의된 카테고리를 사용하여 행동을 레이블링합니다. 이는 모델이 인식한 행동을 간단한 태그로 표현하는 것입니다.
Clip Caption은 특정 클립의 내용을 한두 문장으로 서술하며, 더 풍부한 언어적 설명을 제공합니다.
Video Caption은 비디오 전체를 아우르는 요약 설명으로, 비디오의 전반적인 내용을 파악하는 데 도움을 줍니다.
Dense Caption은 비디오의 일정 구간 내에서 발생하는 다양한 이벤트를 상세하게 기술하며, 시간적으로 세밀한 묘사가 가능합니다. 이는 한 구간 내에서도 여러 객체나 행동이 있을 때 유용합니다.
Subtitle은 음성이나 대화 내용을 문자로 옮긴 것으로, 비디오의 청각적 정보를 시간에 맞춰 전달합니다.
예를 들어, 한 비디오 클립에서 남자가 부엌에서 요리를 하는 장면이 있다고 가정해 봅시다.
이렇게 각 용어는 비디오의 다른 측면을 강조하며, 서로 보완적인 정보를 제공합니다. Clip Action Class와 Clip Caption은 특정 클립에 집중하고, Video Caption은 전체 비디오를 요약하며, Dense Caption은 세부적인 이벤트를 상세히 묘사하고, Subtitle은 음성 정보를 문자로 전달합니다.