Pulse · AI 뉴스

EnvRL: 에이전트 강화 학습에서 환경 역학 학습

Qwen · 2026-06-16

EnvRL은 강화 학습(RL) 에이전트가 환경 역학을 학습하도록 돕는 프레임워크입니다. 상태 예측과 역방향 역학을 통해 환경의 전환 메커니즘을 파악하고 내부 모델을 구축합니다. ALFWorld와 WebShop 벤치마크에서 Qwen-2.5-1.5B-Instruct의 성공률을 각각 72.8%에서 77.4%, 56.8%에서 67.0%로 향상시켰습니다.

EnvRL은 롤아웃 상호 작용 트래저토리에서 얻을 수 있는 환경 역학 정보를 활용하여 정책 학습을 개선합니다. 에이전트의 상호 작용 경험에서 환경 역학을 내부화하도록 장려합니다.

기존 RL 방법은 희소한 결과 보상에 어려움을 겪지만, EnvRL은 환경 역학을 활용하여 이를 극복하고 더 정확한 내부 모델을 구축합니다.

##강화학습##에이전트##환경역학
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기