
비디오 내에서 모호한 행동 경계로 인해 경계 예측이 부정확했음경계 주변의 추정된 상대적 확률 분포를 모델링하는 새로운 Trident-head를 제안비디오의 다양한 시간적 단계(즉, 짧은 동작부터 길게 이어지는 동작까지)에 걸쳐 있는 정보를 적절히 결합하지 못할 때 이 문제가 발생비디오의 다양한 시간적 크기를 고려하여 정보를 효과적으로 결합하고 분석하는 새로운 기술을 도입확장 가능한 세밀도 인식(Scalable-Granularity Perception, SGP) layer based feature pyramid다양한 시간적 크기의 정보를 효율적으로 처리비디오의 짧은 순간부터 긴 시간에 걸친 행동까지 다양한 '세밀도'의 정보를 잘 결합하고 이해할 수 있도록 함 경계 주변의 순간들(즉, 비디오 특성 시퀀스 내의 시간적 위치)이 분류기로부터 상대적으로 높은 예측 응답 값을 가진다는 것
각 순간의 세부적인 정보를 무시할 수 있다는 것
시간적 특성의 상대적 응답 강도가 비디오 특성의 복잡성의 영향을 완화하고 지역화 정확도를 높일 수 있다고 가정