연구진은 RLVR 데이터 선택의 어려움을 해결하기 위해 훈련 없이 단일 롤아웃을 활용하는 SHIFT라는 새로운 방법을 제안했어요.
SHIFT는 추론 시 숨겨진 상태 동역학을 기반으로 하는 RIRS(reasoning-induced representation shift)를 계산하여 데이터 유용성을 판단하고, 품질 가중치 기반의 CoreSet 절차를 통해 효율적인 데이터 선택을 수행해요.
수학적 추론 및 의료 QA 벤치마크에서 기존 방법보다 뛰어난 성능을 보였으며, RIRS 기반 커버리지와 품질 가중치가 상호 보완적인 효과를 낸다는 것을 확인했어요.