Pulse · AI 뉴스

추상에서 구현으로: 시각-언어-행동 모델을 위한 행동 표현 학습

BehaviorVLA · 2026-05-22

연구진은 시각-언어-행동 모델의 성능 저하 문제를 해결하기 위해 BehaviorVLA 프레임워크를 제안했어요. 이 프레임워크는 Mamba 기반 인코더와 페이즈 기반 디코더를 활용하여 시간적으로 일관된 행동 표현을 학습합니다. RoboTwin 2.0, LIBERO, CALVIN 데이터셋에서 최고 성능을 달성했으며, 실제 환경으로의 이전 시 OpenVLA-OFT 대비 50%의 데모 데이터만 사용했습니다.

##VLA##행동학습##Mamba##RoboTwin##CALVIN
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기