QVHighlights pretrained checkpoints
- QD-DETR (Video+Audio) checkpoint: 존재
- QD-DETR (Video) checkpoint: 존재
학습
- SlowFast and Open AI CLIP feature을 가지고 학습한다고 함.
- RTX 2080Ti GPU로 4시간 이면, 학습이 완료된다고 함.
- 다른 setting으로 학습하고 싶으면: https://github.com/jayleicn/moment_detr/blob/main/moment_detr/config.py 을 공부하면 된다.
- max_q_l, max_v_l 가 뭘까?
- 불러온 query feature, video feature의 차원 길이를 clipping 할 때 사용됨.
- ctx_mode 가 뭘까?
- max_windows 가 뭘까?
- 골 장면이 10개인데, max_windows가 5개이면, 앞 5개만 사용한다.
- maximum number of windows to use as labels.
- 데이터셋에서, 특정 query와 관련있는 windows를 list 형태로 저장하고 있다. 각 원소는 (st, ed) in seconds로 이루어진다.
- 여기서, list 길이가 max_windows 보다 많으면, max_windows 만큼으로 데이터를 줄이는 것이다.
Pretraining
- weakly supervised pretraining을 위해, ASR captions를 이용했다.
개인 dataset으로 학습하기
너의 video와 queries로 prediction하기
- 너의 환경에 feature extraction을 위해, 몇몇 library를 추가해야 한다.
PYTHONPATH=$PYTHONPATH:. python run_on_video/run.py
- 위 명령어는
- output은 아래와 같다.
Build models...
Loading feature extractors...
Loading CLIP models
Loading trained Moment-DETR model...
Run prediction...
------------------------------idx0
>> query: Chef makes pizza and cuts it up.
>> video_path: run_on_video/example/RoripwjYFp8_60.0_210.0.mp4
>> GT moments: [[106, 122]]
>> Predicted moments ([start_in_seconds, end_in_seconds, score]): [
[49.967, 64.9129, 0.9421],
[66.4396, 81.0731, 0.9271],
[105.9434, 122.0372, 0.9234],
[93.2057, 103.3713, 0.2222],
...,
[45.3834, 52.2183, 0.0005]
]
>> GT saliency scores (only localized 2-sec clips):
[[2, 3, 3], [2, 3, 3], ...]
>> Predicted saliency scores (for all 2-sec clip):
[-0.9258, -0.8115, -0.7598, ..., 0.0739, 0.1068]
- 너의 개인 video와 queries로 돌려보고 싶으면,
run_on_video/run.py
의 run_example
함수를 공부해라.