연구진은 LLM 기반 에이전트가 여러 환경과 동시에 상호작용하며 경험을 공유하는 새로운 패러다임을 제시했어요. DPEPO는 병렬 탐색을 장려하는 강화 학습 알고리즘으로, 초기 SFT와 계층적 보상 체계를 활용해요. ALFWorld와 ScienceWorld 실험에서 DPEPO는 최고 성능을 달성하며 기존 방식과 유사한 효율성을 유지했어요.