EnvRL은 강화 학습(RL) 에이전트가 환경 역학을 학습하도록 돕는 프레임워크입니다. 상태 예측과 역방향 역학을 통해 환경의 전환 메커니즘을 파악하고 내부 모델을 구축합니다. ALFWorld와 WebShop 벤치마크에서 Qwen-2.5-1.5B-Instruct의 성공률을 각각 72.8%에서 77.4%, 56.8%에서 67.0%로 향상시켰습니다.
EnvRL은 롤아웃 상호 작용 트래저토리에서 얻을 수 있는 환경 역학 정보를 활용하여 정책 학습을 개선합니다. 에이전트의 상호 작용 경험에서 환경 역학을 내부화하도록 장려합니다.
기존 RL 방법은 희소한 결과 보상에 어려움을 겪지만, EnvRL은 환경 역학을 활용하여 이를 극복하고 더 정확한 내부 모델을 구축합니다.