Pulse · AI 뉴스

Q-가이드 추론: 흐름 매칭 VLA 정책을 위한 Q-가이드 액션 흐름

SmolVLA · 2026-07-02

연구진은 흐름 매칭 VLA 정책의 테스트 시간 가이드를 위한 프레임워크 'Guided Action Flow'를 연구했어요. 이 프레임워크는 사전 학습된 SmolVLA 정책을 고정하고 학습된 액션-청크 비평가로 역방향 흐름 샘플러를 안내합니다.

실제 성공/실패 롤아웃으로 훈련된 비평가는 고정된 SmolVLA 언어 경로에서 작업 설명 특징을 조건으로 사용할 수 있으며, 샘플링 중에 액션 그래디언트만 사용합니다.

단일 작업 비평가는 성공률을 68.0%에서 82.0%로, 82.0%에서 86.0%로 개선했지만, 다중 작업 설명 비평가는 검증 성공률을 46.0%에서 56.0%로 개선하는 데 그쳤습니다.

##VLA##로봇##인공지능##흐름매칭

매일 핵심 AI 소식을 한국어로, 빠르게