OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web
번외 논문으로 한 편 선정해보았다. human-computer interaction agent를 학습하는 논문. 선택을 python GUI로 학습한다. 대단한데?
생각
오늘 본 vision논문은 비디오 & LLM은 경량화에 초점을 두고 있다. 역시 이미지가 잘 되니 3D와 비디오로 넘어간다. 아직 수정할 부분이 보이긴 한다.