연구진은 로봇 내비게이션을 위한 보상 함수 설계 자동화 프레임워크 EvoNav를 제안했습니다. EvoNav는 대규모 언어 모델(LLM)을 활용하여 로봇이 동적 환경에서 효율적으로 이동하도록 돕는 보상 함수를 설계합니다. 정책 훈련 비용을 줄이기 위해 EvoNav는 세 단계의 점진적인 워밍업-부스트 절차를 통해 LLM의 제안을 평가합니다.
EvoNav는 분석적 프록시, 경량 롤아웃, 전체 정책 훈련 등 다양한 방법을 활용하여 계산 효율적인 탐색을 가능하게 합니다. 실험 결과, EvoNav는 수동 설계된 RL 보상 함수 및 최첨단 보상 설계 방법보다 효과적인 내비게이션 정책을 생성하는 것으로 나타났습니다.