Paper : https://arxiv.org/pdf/2404.05719
No Code..
UI screen에 대한 이해도가 높은 mLLM
1. Data Generation
Different granularities에 따라 data를 따로 생성했음

Elementary Tasks : Template-based approach를 이용해서 기초적인 UI task를 위한 training samples를 생성함
Advancded Tasks : GPT 4를 이용해서 advanced task를 위한 data를 생성함
Template-based approach
문제를 해결하거나 작업을 수행하기 위해 사전에 정의된 템플릿을 사용하는 방법
2. Develop test benchmark
Ferret-UI 모델을 제안함
Elementary 와 advanced UI tasks에 대한 training sample을 구축하여 모델을 훈련했음
Test benchmark를 구축했음
UI screen 자체에 대한 이해도를 높이고자하는 선행 연구들은 많았지만, 본 논문은 UI task를 수행할 수 있도록 UI screen에 대한 이해도를 학습하는 mLLM을 개발했음
Ferret-UI가 Ferret Model을 기반으로 어떤 방식을 써서 UI screen에 대한 이해도를 높이고, referring, grounding task를 실행할 수 있었는지 보여줌

Raw screen pixel을 input으로 받음 (다른 mLLM 모델들은 External detection modules 와 screen view files 를 input으로 받음)
External detection modules
UI 요소를 식별하고 분석하기 위해 시스템 외부에서 작동하는 독립된 소프트웨어 또는 하드웨어 구성 요소
- UI 요소 감지, 텍스트 인식, 이벤트 감지 등을 할 수 있음
Screen view files
UI의 상태를 저장한 파일 (특정 시점의 UI 구성 요소와 그 속성을 기록함)
- UI 구조, 이벤트 기록 등이 들어있음
Model training과 evaluation을 위해 어떻게 data를 생성했는지 소개함
RICO Dataset을 이용해서 Android UI screen에 대한 data를 모았음
Taperception
모바일 사용자 인터페이스(UI)의 '탭 가능성'(tappability)을 예측하고 설명하기 위해 사용된 데이터셋
- Google Research에서 제공함
Ferret을 학습시키기 위해 UI screen을 3가지 방법으로 reformating함
연구에 적용할 수 있는 부분