Language Conditioned Imitation Learning over Unstructured Data

FSA·2023년 3월 22일
0

Large Language model

목록 보기
1/8

https://arxiv.org/pdf/2005.07648.pdf

Abstract

  • 본 연구에서는 모방 학습에 자유 형식의 자연어를 도입하는 방법을 제안합니다.
  • 이 방법은 하나의 신경망으로 픽셀로부터의 지각, 자연어 이해 및 다중 작업 연속 제어를 종단 간 학습하며, 라벨이 없고 구조화되지 않은 시연 데이터를 통합할 수 있습니다.
  • 이를 통해 언어 조건화 성능이 크게 향상되고 언어 주석 비용이 전체 데이터의 1% 미만으로 줄어듭니다.
  • 테스트 시간에는 다양한 로봇 조작 기술을 자연어 설명으로 지정하여 수행할 수 있습니다.
  • 대형 사전 훈련된 신경 언어 모델과 텍스트 조건화 정책을 결합하여 에이전트가 따를 수 있는 명령의 수를 늘리는 것을 제안하며, 이를 통해 정책이 새로운 시연 없이도 다양한 외부 분포 동의어 명령에 견딜 수 있음을 발견했습니다.
  • 에이전트에게 실시간 텍스트 명령을 입력하는 인간의 동영상은 해당 웹사이트에서 확인할 수 있습니다.

  • 자연어는 아마도 인간이 로봇에게 작업을 전달하는 가장 유연하고 직관적인 방법입니다.
  • 이전의 모방 학습 작업은 일반적으로 작업 ID나 목표 이미지와 같은 것으로 각 작업이 지정되어야 합니다.
  • 이는 오픈 월드 환경에서 종종 비현실적입니다.
  • 반면, 이전의 명령어 따르기 접근 방식은 에이전트의 행동을 언어로 안내할 수 있지만, 관찰, 액츄에이터 또는 언어의 구조를 전제로 하여 로봇과 같은 복잡한 설정에 적용하기에 한계가 있습니다.
  • 본 연구에서는 모방 학습에 자유 형식의 자연어 조건을 통합하는 방법을 제시합니다.
  • 저희의 접근 방식은 픽셀로부터의 지각, 자연어 이해 및 다중 작업 연속 제어를 하나의 신경망으로 종단 간(end-to-end) 학습합니다.
  • 이전의 모방 학습 작업과 달리, 저희의 방법은 라벨이 없고 구조화되지 않은 시연 데이터(즉, 작업 또는 언어 라벨이 없음)를 통합할 수 있습니다.
  • 이를 통해 언어 조건화 성능이 크게 향상되며, 언어 주석 비용이 전체 데이터의 1% 미만으로 줄어듭니다.
  • 테스트 시간에 저희의 방법으로 훈련된 단일 언어 조건화 시각 운동 정책은 3D 환경에서 다양한 로봇 조작 기술을 수행할 수 있으며, 각 작업의 자연어 설명만으로 지정됩니다(예: "서랍을 열어... 이제 블록을 집어... 이제 초록색 버튼을 눌러...")(동영상 참조).
  • 에이전트가 따를 수 있는 명령의 수를 늘리기 위해, 저희는 대형 사전 훈련된 신경 언어 모델과 텍스트 조건화 정책을 결합하는 것을 제안합니다.
  • 이를 통해 정책이 새로운 시연을 요구하지 않고도 많은 외부 분포 동의어 명령에 견딜 수 있음을 발견했습니다.
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글