장점 : Video Recognition에서 좋은 성능
단점 : 많은 계산량, 메모리를 필요. Online Inferece 제공x
현재까지의 상황
본 논문에서 시도한 접근
MobileNetV3을 Base로 사용
3D Video를 입력값으로 다루기 위해 MobileNetV3에 있는 2D block를 확장.
Overview of MoViNet Search Space
Base search space → MoViNet-A2
compound scaling heuristic 적용 → 뭘까?
본 접근이 갖는 차이점
scaling coefficients를 찾기 위해 random search를 사용
→ 현재까지 언급한 MoViNet Search Space는 input frame의 수에 비례하여 메모리 사용량이 증가 (모바일 디바이스에서 긴 영상을 다루기 어렵게 만듬)
→ 따라서 다음 section에서 메모리 소모량을 linear에서 constant로 줄여주는 Stream Buffer에 대해 소개할 것임.
일반적으로 메모리를 줄여주는 해결책은 multi-clip evalution이 사용된다.
이와 같은 단점을 해결하기 위해 본 논문에서는 Stream Buffer을 제안
먼저 을 현재 i < n 로 단계에서 현재 subclip으로 정하고 time dimension에서 b의 길이를 갖는 Buffer B를 0으로 초기화한 Tensor로 나타낼 것이다.
이후, time dimension에 있는 subclip과 이어진 Buffer의 Feature map 를 계산한다.
그 다음 clip을 처리할때 Buffer를 업데이트한다.
→ TSM(Temporal Shift Module)은 Stream Buffer에서 b = 1이고 f가 Buffer (의 Channel 비율을 input 로 바꾸는 Operation인 특별한 case이다.