Pulse · AI 뉴스

훈련 없이 RLVR 데이터 선택을 위한 단일 롤아웃 숨겨진 상태 동역학

SHIFT · 2026-05-28

연구진은 RLVR 데이터 선택의 어려움을 해결하기 위해 훈련 없이 단일 롤아웃을 활용하는 SHIFT라는 새로운 방법을 제안했어요.

SHIFT는 추론 시 숨겨진 상태 동역학을 기반으로 하는 RIRS(reasoning-induced representation shift)를 계산하여 데이터 유용성을 판단하고, 품질 가중치 기반의 CoreSet 절차를 통해 효율적인 데이터 선택을 수행해요.

수학적 추론 및 의료 QA 벤치마크에서 기존 방법보다 뛰어난 성능을 보였으며, RIRS 기반 커버리지와 품질 가중치가 상호 보완적인 효과를 낸다는 것을 확인했어요.

##RLVR##데이터선택##인공지능##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기