영상 처리 4. Video Understanding

행동하는 개발자·2023년 3월 9일
0

video

목록 보기
4/4

Video Classification

  • 이미지 분류와 맥락을 같이 함

  • 하지만 motion과 action 까지 분류해야 함. 이를 Action Recognition이라고 함.

  • 좋은 비디오 분류는 한 프레임에 레이블을 다는 것 뿐만 아니라 전체 영상을 포괄하는 설명을 할 수 있어야 한다.

Hierarchical Video Frame Sequence Representation with Deep Convolutional Graph Network

  • 긴 frame feature를 어떤 식으로 modeling 할 것인가

  • long sequence를 처리하는데 LSTM, GRU과 CNN보다 효과적

  • 해당 논문은 graph 기반으로 frame feature sequence를 모델링하는 방법 제시

how

  • input data는 상당히 많은 관점과 장면을 가지고 있다.

  • 예를 들어 cooking show라도 음식과 관련없는 물건만 나오는 frame이 존재하는 것이다.

  • 그래서 저자는 frame level에서 video level로 점진적으로 정보를 추출하고 graph를 구성한다.

  • 이 graph는 frame으로부터 추출된 특징으로 node를 구성한다.

  • 각 프레임은 graph의 node이므로 node vector 간의 유사도를 측정하여 weighted edge를 잇는다.

  • weighted edge를 잇기 위해 인접 행렬을 구해야 한다.

  • 코사인 유사도를 적용해 frame 간의 유사도를 구한다.

  • 코사인 유사도의 output = -1, 0, 1

  • GCN에서 node를 전달하기 위해 aggregation function을 사용

  • dignoal node degree matrix를 사용해 인접 행렬을 정규화한다

  • graph toploloy를 점진적인 레이어를 통해 도출한다.

  • local self-attention을 적용하여 weight alpha 값을 구한다.

  • node에 적용하여 중요한 node를 집중시키는 효과가 있다.

출처: https://sjpyo.tistory.com/98

profile
끊임없이 뭔가를 남기는 사람

0개의 댓글