SlowFast

FSA·2023년 12월 1일
0

video summarization

목록 보기
4/8
  • 우리의 모델은 비디오에서 동작 분류 및 탐지 모두에서 강력한 성능을 달성

설명

  • 일단 기본적으로, 비디오나 이미지를 컴퓨터가 이해하려면, 그것을 분석하는 방법이 필요해요.
  • 이미지의 경우, 우리는 보통 가로(x축)와 세로(y축)를 고려합니다. 비디오의 경우, 여기에 시간(t축)이 추가돼요.
  • 대부분의 이미지는 어디를 봐도 비슷한 패턴(등방성)을 가지고 있고, 어디에 있든 같은 모습으로 보이는(이동 불변성) 성질이 있어요.
  • 하지만 비디오에서는, 움직임 때문에 이런 규칙이 정확히 맞지 않을 수 있어요.
  • 예를 들어, 비디오에서 느린 움직임은 빠른 움직임보다 흔하죠.
  • 그리고 우리 눈은 움직이는 것을 보면, 그 움직임의 방향을 바로 알아차리지 못할 때가 있어요.
  • 예를 들어, 움직이는 선을 볼 때, 우리는 그 선이 자기 방향으로 움직이는 것처럼 보이지만 실제로는 선에 수직으로 움직일 수도 있어요.

  • 이제, 비디오 인식에 대해 이야기해 볼게요. 비디오를 분석할 때, 공간(이미지의 형태)과 시간(움직임)을 다르게 다루는 방법이 있어요.
  • 예를 들어, '손'이나 '사람' 같은 대상은 시간이 지나도 그 모습이 크게 바뀌지 않아요.
  • 하지만 그 대상이 하는 움직임은 순식간에 바뀔 수 있죠.
  • 그래서 비디오 인식에서는 이 두 가지 요소를 따로 분석하는 게 도움이 돼요.

  • 이를 위해 'SlowFast'라는 모델이 제안됐어요. 이 모델에는 두 가지 경로가 있어요.
  • 'Slow' 경로는 이미지의 형태나 의미 같은 것을 천천히 분석하고, 'Fast' 경로는 움직임 같은 것을 빠르게 분석해요.
  • 'Fast' 경로는 가볍게 설계되어 있어서 많은 계산이 필요하지 않고, 대신 빠른 움직임에 집중할 수 있어요.
  • 두 경로는 서로 연결되어 있어서, 각각의 장점을 활용할 수 있어요.

  • 이러한 아이디어는 사람 눈의 신경세포 연구에서 영감을 받았어요.
  • 사람 눈에는 두 종류의 신경세포가 있는데, 하나는 움직임에 빠르게 반응하고 다른 하나는 이미지의 세부 사항에 느리게 반응해요.
  • 'SlowFast' 모델도 비슷하게 두 경로가 각각의 역할을 해서, 비디오를 더 잘 분석할 수 있도록 도와줘요.

  • 실제로 이 모델을 사용해서 여러 비디오 데이터셋을 실험했을 때, 기존 방법보다 더 좋은 결과를 얻을 수 있었어요.
  • 이는 이 모델이 비디오 인식에 효과적인 방법임을 보여줍니다.

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글