이전에 한번 읽어본 논문을 다시 안읽고 생각나는대로 가볍게 적어둔 것이라 빠진 부분이 있을 수 있음
Contribution
- BLIP2를 사용해 LoRA 튜닝으로 sequence2sequence 방식으로 MR을 풀었음.
특이점
- 단순히 구현했는데, 상당히 높은 성능을 내는 것이 인상깊긴하다.
- 그래도 파라미터가 너무 많다는 점, 인코더에 넣을 이미지 프레임 수에 제한이 있어서 중간에 빠지는 프레임이 있을 수 있다는 점 등의 단점이 많이 존재하는 것 같다.
아키텍쳐

성능
