Pulse · AI 뉴스

VisualThink-VLA: 시각적 중간 추론을 활용한 효율적이고 지연 시간이 짧은 시각-언어-행동 정책

VisualThink-VLA · 2026-05-28

연구진은 시각-언어-행동(VLA) 정책에 명시적 중간 추론을 도입하는 VisualThink-VLA 프레임워크를 개발했어요. 기존 방식의 텍스트 기반 추론은 관련 없는 정보로 인해 성능 저하 및 지연 시간 증가를 야기합니다.

VisualThink-VLA는 공간 정확성을 유지하면서 디코딩 오버헤드를 피하는 시각적 증거 인터페이스를 통해 행동 예측을 가이드하며, 선택적 라우팅 메커니즘을 통해 효율성을 높여요.

BridgeData V2 벤치마크에서 ECoT 기반 모델의 단계별 지연 시간을 8.377초에서 0.367초로 22.8배 단축하며, 시각적 중간 추론의 효율성을 입증했어요.

##VLA##시각추론##로봇제어##VisualThink-VLA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기