연구진은 3D 공간 추론에서 에이전트가 도구를 잘못 사용하고 특정 장면의 특성을 고려하지 않는 문제를 지적했어요. Skill-3D는 장면 메모리를 활용해 성공적인 도구 사용 경로를 기록하고 재사용 가능한 장면 인지 기술을 학습하는 프레임워크예요. Skill-3D는 VSI-Bench에서 도구 활용률을 39%에서 78%로 향상시키고, Gemini-3-Flash의 MMSI-Bench 성능을 67% 향상시켰어요.