ALAM(Algebraically Consistent Latent Action Model)은 로봇 액션 데이터 부족 문제를 해결하기 위해 액션 없는 비디오에서 얻은 시각적 정보를 활용하는 새로운 모델입니다.
ALAM은 비디오 프레임 세 묶음을 기반으로 로컬적으로 가산적인 전환 공간을 장려하는 대수적 일관성 규제를 통해 잠재 전환을 학습합니다.
ALAM은 MetaWorld MT50에서 성공률을 47.9%에서 85.0%로, LIBERO에서 94.1%에서 98.1%로 향상시키는 등 VLA 정책 학습에 긍정적인 영향을 미쳤습니다.