TBD-VLA는 시각-언어-행동(VLA) 모델의 시간적 일관성과 추론 속도를 개선하기 위해 시간 블록 확산 방식을 도입했어요. 행동 시퀀스를 시간 블록으로 나누고 각 블록 내에서 마스크된 확산을 수행하며, 블록 간에는 자동 회귀 방식으로 행동을 생성해요. TBD-VLA는 시뮬레이션과 실제 조작 작업 모두에서 기존 VLA 방식보다 뛰어난 성능을 보여줘요.
기존 VLA 모델은 행동을 다음 토큰 예측으로 처리하여 지연 시간이 길고 시간 구조를 고려하지 못했지만, TBD-VLA는 시간 블록 확산으로 이러한 문제를 해결했어요. 이 방식은 시간적 자동 회귀와 병렬 행동 디코딩을 결합하여 빠른 추론 속도와 시간적 일관성을 동시에 달성해요.
TBD-VLA는 시간 모델링을 통해 실시간 청킹과 같은 비동기 실행을 가능하게 하며, 프로젝트 웹페이지는 GitHub에서 확인할 수 있어요.