Pulse · AI 뉴스

TRACER: 턴 단위 후회 매칭을 활용한 협력적 다중 LLM 추론 프레임워크

TRACER · 2026-05-28

연구진이 다중 LLM 추론을 위한 새로운 강화 학습 프레임워크 TRACER를 공개했어요.

TRACER는 턴 단위 후회 매칭과 역할별 GSPO 보상을 통해 제안자와 검토자의 발화를 최적화하며, 역할 수행 시 발언 여부를 학습해요.

GSM8K, MATH500, GPQA-Diamond 데이터셋에서 높은 정확도와 일반화 성능을 보였으며, 코드도 GitHub에서 공개됐어요.

##LLM##강화학습##협력##추론

매일 핵심 AI 소식을 한국어로, 빠르게