영상은 얼마나 빠른가? AI가 시간의 속도를 배우는 법

BHTAE·2026년 4월 25일

눈이 먼저 아는 것

스마트폰으로 찍은 영상과 고속카메라로 찍은 슬로모션 영상을 나란히 틀어놓으면, 누구든 한눈에 구분할 수 있다. 슬로모션에서는 물방울이 공중에 흩어지는 순간이, 보통 속도로는 절대 보이지 않을 찰나의 무늬를 펼쳐 보인다. 반대로 배속으로 돌린 영상은 꽃이 피는 열두 시간을 삼십 초로 압축한다. 우리는 그걸 보는 순간 "아, 빠르다" 혹은 "아, 느리다"고 느낀다. 그 느낌은 어디서 오는 걸까.

캘리포니아대학교와 구글 연구팀은 바로 이 질문을 AI에게 던졌다. 영상 속 시간의 흐름을 컴퓨터가 스스로 배울 수 있을까? 그리고 배웠다면, 느리거나 빠른 영상을 마음대로 만들어낼 수 있을까?

모션 블러, 시간이 남긴 흔적

달리는 자전거를 스마트폰으로 찍으면 뒷배경이 번진다. 날아가는 새를 카메라로 팬(panning)하면 날개도, 하늘도 가로로 흐릿하게 늘어진다. 이 번짐, 즉 모션 블러는 단순한 촬영 실수가 아니다. 그것은 카메라가 셔터를 여는 찰나에 피사체가 얼마나 움직였는지를 빛이 필름(혹은 센서)에 쌓아놓은 기록이다.

산길을 달리는 자전거 라이더, 배경이 흐릿하게 번져 있다
Time-lapse of a cyclist on a mountain trail showing strong motion blur — a visual cue that the sequence contains rapid motion.

비유하자면, 모션 블러는 시간이 남긴 속도계 눈금이다. 선이 길고 번질수록 피사체는 빠르게 움직인 것이고, 선이 짧고 선명할수록 느리게 움직인 것이다. 우리 눈은 이걸 무의식적으로 읽는다.

빠르게 달리는 산악 자전거 라이더, 먼지 트랙에서 강한 모션 블러
A mountain biker on a dusty trail — background blur signals high-speed motion to both the human eye and, as this paper argues, a trained model.

연구팀은 AI도 이 눈금을 읽도록 가르쳤다. 영상 클립을 보여주고 "이건 원래 속도야, 이건 두 배로 빠르게 돌린 거야"라고 스스로 비교하게 한 것이다. 이른바 자기지도 학습(self-supervised learning)이다. 마치 아무도 "이게 빠른 거야"라고 말해주지 않아도, 두 영상을 나란히 보면서 차이를 발견하는 아이처럼.

카메라 팬 샷으로 찍은 빠르게 날아가는 새, 가로 방향 모션 블러
A panning shot of a bird in flight — both subject and background blur horizontally, encoding speed as a visual texture.

귀도 안다 — 음성과 영상의 협주

그런데 영상에는 화면만 있는 게 아니다. 소리도 있다. 그리고 소리는 영상 속도가 바뀌면 함께 바뀐다. 동영상을 두 배속으로 돌려본 적 있다면 알 것이다. 유튜브 1.5배속에서 목소리가 약간 찢기는 듯 들리는 경험. 그건 음높이(피치)가 올라갔기 때문이다. 느리게 재생하면 반대로 목소리가 낮고 느릿하게 들린다.

연구팀은 이 원리를 적극적으로 활용했다. 영상의 화면과 소리를 동시에 분석해서, 소리의 주파수 분포가 어떻게 바뀌는지를 보조 단서로 삼은 것이다. 이것이 교차 모달 감독(cross-modal supervision)이다.

오디오 스펙트로그램 — 재생 속도가 빨라지면 고주파 성분이 갑자기 채워진다
Audio spectrogram showing a sharp shift in frequency distribution mid-clip — when playback speed increases, high-frequency energy fills in, giving the model a free cross-modal label.

비유하자면, 이건 마치 소설을 읽으면서 동시에 오디오북을 듣는 것과 같다. 두 채널 모두 같은 이야기를 하고 있지만, 한쪽이 흐릿해질 때 다른 쪽이 더 또렷하게 단서를 준다. AI는 두 채널의 불일치를 감지함으로써 "아, 이 영상은 원래보다 빨리 돌아가고 있구나"를 별도의 수동 라벨 없이도 깨달을 수 있다.

왜 아무도 이걸 안 했나

기존의 컴퓨터 비전 연구는 대부분 공간에 집중했다. 이 영상에 고양이가 있나, 얼굴은 누구인가, 물체는 어디 있나. 시간, 즉 영상이 얼마나 빠른가는 거의 다루지 않았다. 왜일까.

첫 번째 이유는 데이터다. 슬로모션 영상을 대량으로 구하기 어렵다. 고속카메라 촬영이 필요하고, 그런 영상은 희귀하다. 두 번째 이유는 정의의 문제다. "이 영상은 얼마나 빠른가"라는 질문에 답하려면, "기준 속도"가 있어야 한다. 하지만 인터넷에 떠도는 영상들은 촬영 속도에 대한 정보가 없는 경우가 많다.

연구팀은 이 두 가지 문제를 동시에 풀었다. 앞서 배운 속도 감지 모델로 인터넷의 수많은 영상을 뒤지면서, 슬로모션 장면이 담긴 영상을 자동으로 골라낸 것이다. 사람 손으로는 절대 불가능한 규모로. 결과적으로 이 연구는 역대 최대 규모의 슬로모션 영상 데이터셋을 구축했다고 밝힌다.

느리게 보고, 빠르게 만든다

데이터를 갖추자 연구팀은 두 가지 강력한 도구를 만들었다.

하나는 속도 조건부 영상 생성(speed-conditioned video generation)이다. 원하는 속도를 지정하면 그 속도에 맞는 영상을 생성하는 AI다. "초당 30프레임 속도로 달리는 사람"과 "초당 240프레임 고속 슬로모션으로 달리는 사람"은 단순히 같은 장면을 빠르거나 느리게 돌린 게 아니다. 슬로모션에서는 원래 속도에서는 뭉개져 보이지 않던 근육의 미세한 움직임, 땅에서 튀는 먼지 입자, 신발이 지면과 닿는 순간의 변형이 보인다. AI는 그 풍부한 시간적 세부 묘사를 생성할 줄 알아야 한다.

다른 하나는 시간적 초해상도(temporal super-resolution)다. 낮은 프레임률(예: 초당 30프레임)의 흐릿한 영상을 받아서, 마치 고속카메라로 찍은 것처럼 높은 프레임률(초당 240프레임)의 선명한 영상으로 변환하는 것이다. 공간적 초해상도가 흐릿한 사진을 선명하게 만드는 것이라면, 시간적 초해상도는 뚝뚝 끊기는 영상을 부드럽게 채워넣는 기술이다. 비유하면, 5장의 스케치만으로 100프레임짜리 애니메이션을 복원하는 것과 같다.

이게 실현되면 무엇이 달라지나

가장 먼저 달라질 것은 스포츠 중계다. 현재 슬로모션 리플레이는 경기장에 설치된 고가의 고속카메라에 의존한다. 이 기술이 성숙하면, 일반 카메라로 찍은 영상도 사후에 슬로모션으로 변환할 수 있다. 심판 판정 논란이 생겼을 때, 스마트폰 관중석 영상도 슬로모션으로 돌려볼 수 있게 되는 것이다.

딥페이크 탐지에도 쓰일 수 있다. 영상의 속도 일관성이 깨져 있다면, 즉 특정 구간만 자연스럽지 않다면, 그건 조작의 흔적일 수 있다. 연구팀은 이를 시간적 포렌식(temporal forensics)이라 부른다.

더 멀리 보면, 세상의 물리 법칙을 이해하는 AI를 만드는 데 기여할 수도 있다. 시간이 어떻게 흐르는지를 이해한 모델은, 어떤 사건이 어떤 순서로 일어나는지, 얼마나 빠르게 변화하는지를 더 잘 예측할 수 있다. 그것이 연구팀이 말하는 "더 풍부한 세계 모델(world model)"이다.