10*30 = 300 frame) -> 연속적인 64 frame(2.56초) 짜리 view(클립) 1개를 랜덤하게 골라냄720 by 1080 -> 256 by 384 or 320 by 480임의의 영역을 224×224 크기로 잘라(crop) input으로 입력10*30= 300 frame) -> 연속적인 64 frame(2.56초)짜리 view(클립) 4개를 샘플링 한다는 뜻4개의 시간 클립 각각에 대해 3개의 공간 크롭을 사용하므로 총 12개의 뷰가 사용됩니다.
32 frames using a stride of 2를 Input으로 한번에 받음4*3=12 input을 넣은 후, 각 output을 평균하여 최종 class 구분을 한 것임
