Pulse · AI 뉴스

Realtime-VLA FLASH: 디퓨전 기반 VLAs를 위한 추론 가속 프레임워크

Realtime-VLA FLASH · 2026-05-14

연구진은 실시간 배포의 한계를 극복하기 위해 Realtime-VLA FLASH라는 추론 가속 프레임워크를 제안했습니다. 이 프레임워크는 가벼운 초안 모델과 주요 모델의 액션 전문가를 활용하여 빠른 재계획을 가능하게 합니다. LIBERO 환경에서 실험 결과, 평균 추론 지연 시간을 19.1ms로 줄이는 3.04배의 속도 향상을 보였습니다.

Realtime-VLA FLASH는 재계획 과정에서 대부분의 전체 추론 호출을 없애고, 필요할 때 전체 추론 파이프라인으로 되돌아가는 단계별 폴백 메커니즘을 사용합니다. 이를 통해 신뢰성을 유지하면서도 낮은 지연 시간과 높은 빈도의 재계획이 가능합니다.

연구진은 실제 컨베이어 벨트 분류 작업에서도 Realtime-VLA FLASH의 효과를 입증하여, 지연 시간에 민감한 임베디드 작업에 대한 실용적인 영향을 강조했습니다.

##VLAs##추론가속##실시간배포##인공지능

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기