10*30 = 300 frame
) -> 연속적인 64 frame(2.56초) 짜리 view(클립) 1개를 랜덤하게 골라냄720 by 1080
-> 256 by 384
or 320 by 480
임의의 영역을 224×224 크기로 잘라(crop)
input으로 입력10*30= 300 frame
) -> 연속적인 64 frame(2.56초)짜리 view(클립) 4개를 샘플링 한다는 뜻4개의 시간 클립
각각에 대해 3개의 공간 크롭
을 사용하므로 총 12개의 뷰
가 사용됩니다.32 frames using a stride of 2
를 Input으로 한번에 받음4*3=12
input을 넣은 후, 각 output을 평균하여 최종 class 구분을 한 것임