Reinforcement Learning based End-to-End Driving System
by 카이스트 AVE Lab
http://ave.kaist.ac.kr/bbs/board.php?bo_table=B_06

자율주행 자동차의 주행 방식에는 모듈러(Modular) 방식과 종단간(End-to-End) 주행 방식이 있으며, 현재 대부분의 연구 개발은 모듈러 방식으로 진행하고 있다.
모듈러 방식은 사람이 직접 모든 교통 상황을 정의하여 모듈을 구성하므로, 예측 가능한 범위 내에서만 작동하고 사고 발생시 사고 경위를 쉽게 판단할 수 있다는 장점이 있다.
하지만, 알고리즘 설계의 복잡도가 높아서 모든 교통 상황에 대해서 대응을 할 수 없기 때문에 Level5 자율주행 자동차 개발은 불가하고, 현재는 Level 2~3단계 수준으로 상용화가 진행되고 있다.
종단간 주행 방식은 자율주행 시스템을 모듈화하지 않고 심층신경망으로 구현하는 방법이다. 다양한 도로 환경에 대한 충분한 데이터가 있다는 가정하에 입력값 간의 최적화된 조합을 찾아 다양한 교통상황에 대해서 모듈러 방식을 뛰어넘는 성능을 가질 수 있다.

기존에 연구되고 있는 자율주행 심층신경망은 i.i.d.조건(independent and identically distributed condition)을 가정한 데이터(주변환경조건 및 교통상황)로 학습을 하는데,
학습된 환경과 통계적 분포도가 유사한 환경에서는 자율주행에 큰 어려움이 없이 잘 동작하는 장점이 있지만, 새로운 환경에서는 입력 데이터가 학습된 환경과 유사하지 않은 통계적 분포도를 가지는 OOD(Out-of-distribution) 환경에서는 자율주행 자동차가 안정적으로 동작하는 것을 보장할 수 없는 큰 한계가 있다.
본 연구실은 다양한 OOD 환경에서도 안정적인 Level5의 자율주행 자동차 개발을 목표로 Meta-강화학습 기반의 종단간 주행 방식을 연구하고 있으며, 총 5년동안 20억 규모의 연구재단 과제를 진행하고 있다.
1) Meta-RL based End-to-End Autonomous Driving
(연구재단 과제 수행 중: 2021.03.01~2026.02.28)
기존 자율주행 심층 신경망은 제어 영역(control space)에 변화가 없고 주행 환경의 상태 분포(state distribution)가 일반적인 주행 환경의 상태 분포를 따르는 학습 데이터로 학습되어 있다.
따라서 기존 기술로는 자율주행 차량이 주행 중에 예상 못한 상황(Unexpected Novel Situation – UNS e.g., 타이어 펑크, 브레이크/스티어링휠의 부분적 오작동, 미끄러운 노면에 의한 하나 또는 일부 바퀴들의 미끄러짐, 갑작스러운 짙은 안개 상황 등)을 직면 할 때, 사전 학습되지 않은 UNS 상황에 대한 대처가 불가능하기 때문에 안전한 주행을 보장하지 못한다는 한계를 가지고 있다.

본 연구실의 메타-강화학습기반 End-to-End 자율주행 시스템
현재 본 연구실은 위와 같은 한계를 극복하기 위해 메타 강화학습 기반의 자율주행 에이전트가 학습되지 않은 UNS 상황이 발생한 것을 탐지하는 인공지능과, UNS 탐지 결과에 따른 MPC(Model Predictive Control)기반 최적 제어 신호 생성 policy망을 학습하고 실제 제어하는 메타 강화학습 알고리즘을 개발하는 것을 목표로 연구재단 과제를 진행하고 있으며, 어떠한 상황에도 인간의 개입 없이 자율주행 자동차가 모든 판단과 주행제어를 수행하는 Level5 자율주행 기술 개발을 목표를 하고 있다.
2) Segmentation-based Class-wise Disentangled Latent Encoding(2020~)

SCDLE 구조
본 연구실에서는 입력된 도로 이미지를 의미 분할하고 변분 오토인코더를 통해 이미지를 압축하여 이를 강화 학습의 상태 변수로 사용해 조향각을 추론 및 평가하는 세계 최초의 심층 신경망을 구성하는 것을 연구하고 있다.

