QD-DETR 코드 돌리기

FSA·2024년 11월 22일
0

QVHighlights pretrained checkpoints

  • QD-DETR (Video+Audio) checkpoint: 존재
  • QD-DETR (Video) checkpoint: 존재

학습

  • SlowFast and Open AI CLIP feature을 가지고 학습한다고 함.
    • RTX 2080Ti GPU로 4시간 이면, 학습이 완료된다고 함.
  • 다른 setting으로 학습하고 싶으면: https://github.com/jayleicn/moment_detr/blob/main/moment_detr/config.py 을 공부하면 된다.
    • max_q_l, max_v_l 가 뭘까?
      - 불러온 query feature, video feature의 차원 길이를 clipping 할 때 사용됨.
      • TODO: 왜 clipping 하는가?
    • ctx_mode 가 뭘까?
    • max_windows 가 뭘까?
      • 골 장면이 10개인데, max_windows가 5개이면, 앞 5개만 사용한다.
      • maximum number of windows to use as labels.
      • 데이터셋에서, 특정 query와 관련있는 windows를 list 형태로 저장하고 있다. 각 원소는 (st, ed) in seconds로 이루어진다.
    • 여기서, list 길이가 max_windows 보다 많으면, max_windows 만큼으로 데이터를 줄이는 것이다.

Pretraining

  • weakly supervised pretraining을 위해, ASR captions를 이용했다.

개인 dataset으로 학습하기

너의 video와 queries로 prediction하기

Build models...
Loading feature extractors...
Loading CLIP models
Loading trained Moment-DETR model...
Run prediction...
------------------------------idx0
>> query: Chef makes pizza and cuts it up.
>> video_path: run_on_video/example/RoripwjYFp8_60.0_210.0.mp4
>> GT moments: [[106, 122]]
>> Predicted moments ([start_in_seconds, end_in_seconds, score]): [
    [49.967, 64.9129, 0.9421], 
    [66.4396, 81.0731, 0.9271], 
    [105.9434, 122.0372, 0.9234], 
    [93.2057, 103.3713, 0.2222], 
    ..., 
    [45.3834, 52.2183, 0.0005]
   ]
>> GT saliency scores (only localized 2-sec clips): 
    [[2, 3, 3], [2, 3, 3], ...]
>> Predicted saliency scores (for all 2-sec clip): 
    [-0.9258, -0.8115, -0.7598, ..., 0.0739, 0.1068]  
  • 너의 개인 video와 queries로 돌려보고 싶으면, run_on_video/run.pyrun_example 함수를 공부해라.

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글