
ViTA는 light·heavy-weight VLM을 결합해 비디오→텍스트 변환을 대폭 가속화한다. RAG 시스템에 빠르게 비디오 정보를 저장해 LLM이 활용하도록 돕는다.

🔗 https://arxiv.org/abs/2305.14314 LoRA 와 nf4로 양자화 한 pretrained language model 을 사용하는 방식
* Robust Speech Recognition via Large-Scale Weak Supervision [Paper] [[Github]] (https://github.com/openai/whisper)* Alec Radford, Jong Wook Kim, Tao