연구진은 시각적 추론 RL 훈련에 필요한 확장성, 검증 가능성, 제어 가능성을 제공하는 온라인 환경 TRON(Targeted, Rule-verifiable Online eNvironments)을 공개했어요.
TRON은 제너레이터-검증 프로그램으로, 새로운 시각 상태를 샘플링하고 이미지를 렌더링하며 질문을 던져 정확한 답변을 검증하는 방식으로 무한한 훈련 인스턴스를 생성해요.
TRON은 공간, 수학, 다이어그램, 패턴/논리, 계산 능력을 포함한 520개의 환경으로 구성되어 있으며, Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT 모델의 성능을 향상시켰어요.