연구진은 임베디드 제어에 필요한 복합적인 언어 지식과 시각 상태 추론을 분리하는 Key-Gram 프레임워크를 소개했어요.
Key-Gram은 언어에서 파생된 세계 지식을 시각 상태 추론과 분리하여 메모리 모듈을 통해 지시 사항을 작업별 키-그램으로 분해하고, 정해진 규칙에 따라 언어적 선행 지식을 검색하여 컨텍스트에 맞는 게이팅과 경량 컨볼루션 퓨전을 통해 선택된 숨겨진 레이어에 주입해요.
RoboTwin2.0, LIBERO/LIBERO-Plus, 실제 환경에서의 이중 팔 조작 실험에서 Key-Gram은 평균적으로 29.5%/9.9%, 35.8%/4.5%, 15.4%/8.1%의 성능 향상을 보였어요.