Pulse · AI 뉴스

추론 아레나: 검증 가능한 보상이 부족할 때 추적 토너먼트 활용

Reasoning Arena · 2026-06-08

연구진은 검증 가능한 보상(RLVR)을 활용한 LLM 추론 능력 향상 방법론에서, 그룹 레벨에서 보상이 정보가 없을 때 발생하는 문제점을 지적했어요.

Reasoning Arena는 이러한 문제점을 해결하기 위해, 동일한 보상을 받은 그룹의 추적들을 심판 시스템으로 보내 세부적인 선호도를 파악하는 추적 토너먼트를 도입했어요.

새로운 추적은 기존에 생성된 추적들을 기준으로 상대적인 순위를 매기고, Bradley-Terry 모델을 적용하여 확장성 있는 RL 통합을 가능하게 하며, 수학 및 코딩 벤치마크에서 평균 7.6%의 성능 향상을 보여줬어요.

##RLVR##추론##토너먼트##ReasoningArena##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기