연구진은 ReAct 에이전트의 성능을 개선하기 위해 Co-ReAct 프레임워크를 개발했어요. Co-ReAct는 추론 과정에서 단계별 지침으로 루브릭을 활용하여 에이전트의 다음 행동을 안내합니다.
연구진은 루브릭 생성기를 GRPO로 학습시켜 루브릭의 신뢰성을 높였으며, 다수의 전문가 합의 순위를 기준으로 Spearman 순위 상관관계 보상을 최적화했어요.
DeepResearchBench와 SQA-CS-V2에서 Co-ReAct는 ReAct 및 기존 모델을 능가하는 성능을 보였으며, 학습된 루브릭 생성기는 기존 모델의 의사 결정 메커니즘을 변경하지 않고도 성능을 향상시킬 수 있습니다.