Pulse · AI 뉴스

TBD-VLA: 시간 블록 확산 기반 시각-언어-행동 모델

TBD-VLA · 2026-06-05

TBD-VLA는 시각-언어-행동(VLA) 모델의 시간적 일관성과 추론 속도를 개선하기 위해 시간 블록 확산 방식을 도입했어요. 행동 시퀀스를 시간 블록으로 나누고 각 블록 내에서 마스크된 확산을 수행하며, 블록 간에는 자동 회귀 방식으로 행동을 생성해요. TBD-VLA는 시뮬레이션과 실제 조작 작업 모두에서 기존 VLA 방식보다 뛰어난 성능을 보여줘요.

기존 VLA 모델은 행동을 다음 토큰 예측으로 처리하여 지연 시간이 길고 시간 구조를 고려하지 못했지만, TBD-VLA는 시간 블록 확산으로 이러한 문제를 해결했어요. 이 방식은 시간적 자동 회귀와 병렬 행동 디코딩을 결합하여 빠른 추론 속도와 시간적 일관성을 동시에 달성해요.

TBD-VLA는 시간 모델링을 통해 실시간 청킹과 같은 비동기 실행을 가능하게 하며, 프로젝트 웹페이지는 GitHub에서 확인할 수 있어요.

##VLA##확산모델##로봇##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기