COMAP은 LLM 에이전트의 세계 모델과 정책을 상호 진화시키는 새로운 프레임워크입니다. 에이전트는 세계 모델의 예측 피드백 신뢰도를 평가하고 행동을 개선하며, 이를 통해 세계 모델은 에이전트의 상호 작용 분포에 맞춰 업데이트됩니다.
기존 방식과 달리 COMAP은 외부 보상이나 검증 없이, 자체적인 상호 작용 데이터를 활용하여 세계 모델과 에이전트 정책을 동시에 개선합니다. Qwen3-4B 모델을 사용했을 때, 기존 방식 대비 16.75% 성능 향상을 달성했습니다.
본 연구는 임베디드 작업 계획, 웹 탐색, 도구 사용 벤치마크에서 COMAP의 우수성을 입증하며, 세계 모델 예측 정확도 향상과 장기 의사 결정 능력 개선을 보여줍니다.