Qwen이 에이전트 환경 시뮬레이션을 위해 Qwen-AgentWorld-35B-A3B 모델을 공개했어요. 이 모델은 7가지 에이전트 상호작용 도메인을 포괄하는 최초의 언어 월드 모델이에요.
Qwen-AgentWorld는 CPT, SFT, RL의 3단계 파이프라인을 통해 훈련되었으며, 환경 모델링을 CPT 단계부터 학습 목표로 삼아 기존 LLM에 사후적으로 추가하는 방식과 달라요.
이 모델은 350억 개의 파라미터를 가지고 있으며, 7가지 벤치마크에서 멀티턴, 툴 콜링 에이전트 작업에 활용될 수 있으며, 새로운 환경에도 제로샷으로 일반화할 수 있어요.