본 논문은 다중 모드 트랜스포머 기반 3D 어포던스와 강화 학습(RL)을 활용하여 자율 주행의 인지 및 제어 기능을 연결하는 MTA-RL 프레임워크를 제안합니다.
MTA-RL은 RGB 이미지와 LiDAR 포인트 클라우드를 융합하여 명시적인 기하학적 어포던스 표현을 예측하고, 이를 통해 RL 정책이 주행 의미론에만 집중하도록 합니다.
CARLA Town01-03 환경에서 MTA-RL은 기존 방식 대비 Route Completion 9.0% 증가, Total Distance 11.0% 증가, Distance Per Violation 83.7% 개선 등 우수한 성능을 보였습니다.