0. 들어가기 전에 0.1. 논문 정보 https://arxiv.org/pdf/2212.03191 2022/12, 317회 인용 internvideo 2: https://arxiv.org/pdf/2403.15377 2024, 63회 인용 https://github.com/OpenGVLab/InternVideo 1500 stars 0. 논문 4줄...
https://github.com/OpenGVLab/InternVideohttps://github.com/InternLM/InternLM-XComposerhttps://github.com/ShareGPT4Omni/ShareGPT4Videoht
Video Encoder가 비디오의 시공간적 특징을 포착하는 능력을 학습하도록 하는 단계Video Encoder는 마스킹되지 않은(unmasked) 비디오 토큰을 입력받아, Expert Encoder의 출력과 유사한 (여러개의) 토큰을 생성하도록 학습두 개의 Exper
https://openaccess.thecvf.com/content/ICCV2021/papers/Arnab_ViViT_A_Video_Vision_Transformer_ICCV_2021_paper.pdfhttps://openaccess.thecvf.co