PearlVLA는 비전-언어-액션(VLA) 모델의 효율적인 액션 생성과 명시적인 숙고 간의 균형을 맞추는 새로운 프레임워크입니다. VLM의 잠재 공간으로 숙고를 이동시켜 낮은 지연 시간과 높은 성능을 동시에 달성합니다.
PearlVLA는 VLM의 메타 쿼리 표현을 고정된 시각적 기반 분기 및 반복적인 잠재 플랜 분기로 분리하며, 각 개선 단계마다 잠재 세계 모델을 통해 미래 관찰을 예측하고 플랜을 개선합니다.
Causal Refinement-Grouped Process-Reward RL을 통해 잠재 플랜 편집으로 유도된 장기적인 미래를 활용하여 개선 과정을 최적화하며, LIBERO 벤치마크에서 최고 성능을 달성했습니다.