FSA.log
로그인
FSA.log
로그인
SlowFast
FSA
·
2023년 12월 1일
팔로우
0
0
video summarization
목록 보기
4/8
우리의 모델은 비디오에서 동작 분류 및 탐지 모두에서 강력한 성능을 달성
설명
일단 기본적으로, 비디오나 이미지를 컴퓨터가 이해하려면, 그것을 분석하는 방법이 필요해요.
이미지의 경우, 우리는 보통 가로(x축)와 세로(y축)를 고려합니다. 비디오의 경우, 여기에 시간(t축)이 추가돼요.
대부분의 이미지는 어디를 봐도 비슷한 패턴(등방성)을 가지고 있고, 어디에 있든 같은 모습으로 보이는(이동 불변성) 성질이 있어요.
하지만 비디오에서는, 움직임 때문에 이런 규칙이 정확히 맞지 않을 수 있어요.
예를 들어, 비디오에서 느린 움직임은 빠른 움직임보다 흔하죠.
그리고 우리 눈은 움직이는 것을 보면, 그 움직임의 방향을 바로 알아차리지 못할 때가 있어요.
예를 들어, 움직이는 선을 볼 때, 우리는 그 선이 자기 방향으로 움직이는 것처럼 보이지만 실제로는 선에 수직으로 움직일 수도 있어요.
이제, 비디오 인식에 대해 이야기해 볼게요. 비디오를 분석할 때, 공간(이미지의 형태)과 시간(움직임)을 다르게 다루는 방법이 있어요.
예를 들어, '손'이나 '사람' 같은 대상은 시간이 지나도 그 모습이 크게 바뀌지 않아요.
하지만 그 대상이 하는 움직임은 순식간에 바뀔 수 있죠.
그래서 비디오 인식에서는 이 두 가지 요소를 따로 분석하는 게 도움이 돼요.
이를 위해 'SlowFast'라는 모델이 제안됐어요. 이 모델에는 두 가지 경로가 있어요.
'Slow' 경로는 이미지의 형태나 의미 같은 것을 천천히 분석하고, 'Fast' 경로는 움직임 같은 것을 빠르게 분석해요.
'Fast' 경로는 가볍게 설계되어 있어서 많은 계산이 필요하지 않고, 대신 빠른 움직임에 집중할 수 있어요.
두 경로는 서로 연결되어 있어서, 각각의 장점을 활용할 수 있어요.
이러한 아이디어는 사람 눈의 신경세포 연구에서 영감을 받았어요.
사람 눈에는 두 종류의 신경세포가 있는데, 하나는 움직임에 빠르게 반응하고 다른 하나는 이미지의 세부 사항에 느리게 반응해요.
'SlowFast' 모델도 비슷하게 두 경로가 각각의 역할을 해서, 비디오를 더 잘 분석할 수 있도록 도와줘요.
실제로 이 모델을 사용해서 여러 비디오 데이터셋을 실험했을 때, 기존 방법보다 더 좋은 결과를 얻을 수 있었어요.
이는 이 모델이 비디오 인식에 효과적인 방법임을 보여줍니다.
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
Query-Dependent Video Representation for Moment Retrieval and Highlight Detection
다음 포스트
CLIP
0개의 댓글
댓글 작성