NAS에 데이터 정리해서 올리기
다양하고 대규모인 멀티모달 멀티뷰 비디오 데이터셋
전세계 13개 도시에서 800명 이상의 참가자 131개 다양한 자연환경 1422시간의 비디오 생성
비디오는 expert commentary 여러 쌍의 언어설명과 함께 제공
사람의 기술 습득을 할려면 자아중심(ego), 외부중심적(exo) 시각은 필수적, 두 시각은 서로 상호보완적임, 기술 습득시 서로 원활하게 번역할 수 있어야함
Ego-Exo4D: ego-exo 비디오 학습 및 다중 모달 지각에 대한 연구를 지원하기 위한 데이터 셋
단일 인물 활동에 중점, 다중뷰 멀티모달
exo camera: 4~5개의 고정된 GoPro가 배치되어 있음
총 8개의 domain인 skilled activity(43개의 활동)를 2가지의 category로 나눔
839명의 참가자를 모집, 대부분이 10년 이상의 경험을 가지고 있음(실수가 없기 때문), 초보자~전문가 기술의 진화를 묘사하기도 함
개인정보 보호, 윤리 기준 준수하여 수집함, 모든 데이터가 폐쇄된 환경에 있으므로 모든 비디오는 모자이크 없이 이용 가능
ego-exo4d는 비디오와 함께 시간에 따라 3가지의 자연어 데이터 셋을 제공함
4가지 도전과제- 관계, 인식, 숙련도, ego-pose
exo clip에서 ego clip을 합성하는 것
(손가락이) 관찰된 exo clip에서 관찰되지 않은 ego 프레임에서 객체의 분할 마스크를 추정함
ego-exo 번역은 AR 코칭이나 로봇 인식에서 응용 될 수 있음
과정: 1) ego 클립에서 객체의 위치와 모양을 예측하고, 2) 지면 실제 위치를 고려하여 외관을 합성함
Fine-grained keystep recognition(세부)
짝을 이룬 영상 데이터를 보고 보완성 활용하여 (오물렛 만드는)절차들을 구분
ego 중심의 비디오 clip만 보고 여러 key step들을 식별해야 함
Procedure understanding
비디오에서 절차의 구조를 자동으로 이해하는 것
이전 절차 결정, 선택사항인지, 절차적 실수인지, 누락된 절차인지, 다음 절차는 뭔지 예측을 해야함
Energy-efficient multimodal keystep recognition
현실세계 하드웨어에서 실행 가능성을 높이기 위해 에너지 효율적인 비디오 모델을 구축하는데 초점을 둠 (ex. 배터리)
사람이 무엇을 하는지 인식하는거를 넘어서 사용자의 기술 수준을 측정하는 것을 목표로 함
=> 새로운 기술을 효과적으로 배울 수 있고, 인간의 성과를 평가 하는데 사용될 수 있음
ego 뷰에서 사람의 신체 상태를 추정하는 것
비디오에서 참가자의 숙련된 신체 움직임(가려지거나 시야에서 벗어난 신체부위)을 복원하는 것
Aria glasses- including 8 MP RGB camera, 2 slam camera, IMU, 7 microphones, eye tracking
4~5개의 GoPro