이미지 분류와 맥락을 같이 함
하지만 motion과 action 까지 분류해야 함. 이를 Action Recognition이라고 함.
좋은 비디오 분류는 한 프레임에 레이블을 다는 것 뿐만 아니라 전체 영상을 포괄하는 설명을 할 수 있어야 한다.
긴 frame feature를 어떤 식으로 modeling 할 것인가
long sequence를 처리하는데 LSTM, GRU과 CNN보다 효과적
해당 논문은 graph 기반으로 frame feature sequence를 모델링하는 방법 제시
input data는 상당히 많은 관점과 장면을 가지고 있다.
예를 들어 cooking show라도 음식과 관련없는 물건만 나오는 frame이 존재하는 것이다.
그래서 저자는 frame level에서 video level로 점진적으로 정보를 추출하고 graph를 구성한다.
이 graph는 frame으로부터 추출된 특징으로 node를 구성한다.
각 프레임은 graph의 node이므로 node vector 간의 유사도를 측정하여 weighted edge를 잇는다.
weighted edge를 잇기 위해 인접 행렬을 구해야 한다.
코사인 유사도를 적용해 frame 간의 유사도를 구한다.
코사인 유사도의 output = -1, 0, 1
GCN에서 node를 전달하기 위해 aggregation function을 사용
dignoal node degree matrix를 사용해 인접 행렬을 정규화한다
graph toploloy를 점진적인 레이어를 통해 도출한다.
local self-attention을 적용하여 weight alpha 값을 구한다.
node에 적용하여 중요한 node를 집중시키는 효과가 있다.