연구진은 참조 분할을 위한 새로운 프레임워크 B-GRTO(Bootstrapped Group Relative Tool Optimization)를 공개했어요. B-GRTO는 강화 학습과 분리 최적화되던 도구(예: 분할 디코더)의 목표를 통합하는 방식이에요.
GRTO는 그룹 상대적 정책 최적화(GRPO)를 재활용하여 보조 도구 목표를 최적화하고, 디코더 그래디언트가 정책 보상을 보완하는 구조예요.
B-GRTO는 도구를 저렴하게 사전 훈련하여 빠른 수렴과 뛰어난 성능을 가능하게 하는 사전 훈련 방법으로, 3가지 어려운 참조 분할 환경에서 기존 방식보다 성능이 향상됐어요.
B-GRTO는 강화 학습과 미분 가능한 보조 목표를 통합하여 추론 집약적인 분할 성능을 높이는 데 기여할 것으로 기대돼요.