Pulse · AI 뉴스

Co-ReAct: 단계별 협력자로 작동하는 루브릭을 활용한 ReAct 에이전트

Co-ReAct · 2026-05-22

연구진은 ReAct 에이전트의 성능을 개선하기 위해 Co-ReAct 프레임워크를 개발했어요. Co-ReAct는 추론 과정에서 단계별 지침으로 루브릭을 활용하여 에이전트의 다음 행동을 안내합니다.

연구진은 루브릭 생성기를 GRPO로 학습시켜 루브릭의 신뢰성을 높였으며, 다수의 전문가 합의 순위를 기준으로 Spearman 순위 상관관계 보상을 최적화했어요.

DeepResearchBench와 SQA-CS-V2에서 Co-ReAct는 ReAct 및 기존 모델을 능가하는 성능을 보였으며, 학습된 루브릭 생성기는 기존 모델의 의사 결정 메커니즘을 변경하지 않고도 성능을 향상시킬 수 있습니다.

##에이전트##루브릭##ReAct##Co-ReAct##DeepResearchBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기