연구진은 로봇 조작에 필요한 동역학적 정보를 반영하는 새로운 프레임워크 DynaFLIP을 개발했어요. 이미지·언어·3D 플로우 데이터를 활용해 로봇 인식 성능을 향상시켰어요. DynaFLIP은 조작에 필요한 영역에 집중하며, 다양한 다운스트림 정책에서 기존 방식보다 우수한 성능을 보여요. 시뮬레이션 및 실제 환경 테스트에서 최대 22.5%의 성능 향상을 달성했어요.
DynaFLIP은 이미지 인코더를 훈련할 때 이미지, 언어, 3D 플로우 데이터를 함께 사용해 멀티모달 표현을 학습해요. 세 가지 모달리티를 작은 공간에 밀집시키는 방식으로 동역학적 정보를 반영하고, 이를 통해 로봇의 조작 능력을 향상시켰어요.
DynaFLIP은 기존 방식 대비 시뮬레이션 및 실제 환경에서 22.5%의 성능 향상을 보여, 로봇의 일반화 능력을 개선하는 데 기여했어요. 이는 시각적 표현이 단순히 무엇이 존재하는지를 인코딩하는 것을 넘어 어떻게 세상이 변화하는지를 인코딩하도록 훈련할 때 가능해요.
연구 결과는 로봇이 세상을 인식하는 방식에 대한 새로운 관점을 제시하며, 로봇의 조작 능력과 일반화 능력을 향상시키는 데 중요한 역할을 할 것으로 기대돼요.