연구진이 다중 LLM 추론을 위한 새로운 강화 학습 프레임워크 TRACER를 공개했어요. TRACER는 턴 단위 후회 매칭과 역할별 GSPO 보상을 통해 제안자와 검토자의 발화를 최적화하며, 역할 수행 시 발언 여부를 학습해요. GSM8K, MATH500, GPQA-Diamond 데이터셋에서 높은 정확도와 일반화 성능을 보였으며, 코드도 GitHub에서 공개됐어요.