





















동기: 인간은 외형(Appearance) 정보가 거의 없더라도 움직임(Motion)만으로도 활동을 매우 잘 인식합니다. 외형과 동작을 분리하여 처리하는 네트워크가 필요하다는 아이디어가 제기되었습니다.
광학 흐름 (Optical Flow): 동작을 명시적으로 측정하는 방법입니다.

두 스트림 네트워크 (Two-Stream Network):

심화 내용 (UCF 101 결과): UCF 101 데이터셋에서 테스트했을 때, 동작 스트림(Temporal Only)의 성능이 외형 스트림(Spatial Only)보다 훨씬 뛰어난 것으로 나타났습니다.
































Q: 비디오 데이터는 2D 이미지와 비교하여 어떻게 정의되며, 일반적인 비디오 이해 작업은 이미지 분류와 무엇이 다른가요?
Q: 비디오 데이터의 거대한 크기가 야기하는 주요 문제점과 이를 해결하기 위한 학습 전략은 무엇인가요?
Q: 레이트 퓨전(Late Fusion)의 주요 한계점 중 하나인 '저수준 모션 정보 손실'이 발생하는 이유는 무엇인가요?
Q: 3D 컨볼루션 신경망(3D CNN)이 2D 컨볼루션(특히 Early Fusion)보다 갖는 주요 이점인 '시간적 이동 불변성(temporal shift invariance)'에 대해 설명해주세요.