Pulse · AI 뉴스

TRON: 시각적 추론 RL을 위한 타겟 규칙 검증 온라인 환경

TRON · 2026-06-01

연구진은 시각적 추론 RL 훈련에 필요한 확장성, 검증 가능성, 제어 가능성을 제공하는 온라인 환경 TRON(Targeted, Rule-verifiable Online eNvironments)을 공개했어요.

TRON은 제너레이터-검증 프로그램으로, 새로운 시각 상태를 샘플링하고 이미지를 렌더링하며 질문을 던져 정확한 답변을 검증하는 방식으로 무한한 훈련 인스턴스를 생성해요.

TRON은 공간, 수학, 다이어그램, 패턴/논리, 계산 능력을 포함한 520개의 환경으로 구성되어 있으며, Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT 모델의 성능을 향상시켰어요.

##시각적추론##RL##온라인환경##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기