연구진은 단일 턴 추론 퍼즐에서 멀티턴, 도구 보강 전자상거래 대화로 RLVR 프레임워크를 확장했습니다.
EcomRLVE-GYM은 제품 검색, 대체, 장바구니 구축 등 8개의 검증 가능한 환경을 제공하며, 절차적 문제 생성, 12축 난이도 커리큘럼, 알고리즘으로 검증 가능한 보상을 특징으로 합니다.
Qwen 3 8B 모델을 DAPO로 300단계 훈련하여 환경 확장과 적응형 난이도가 실제 작업 완료로 이어진다는 초기 결과를 제시했습니다.
각 환경은 특정 실제 쇼핑 시나리오를 다루며, 에이전트는 도구를 사용하여 작업을 완료하고 프로그램에 의해 점수화됩니다.
연구는 대규모 언어 모델의 유창함이 작업 완료로 이어지지 않는다는 문제를 해결하고, 강화 학습을 통해 실제 전자상거래 요구 사항을 충족하는 에이전트를 훈련하는 데 중점을 둡니다.