연구진은 포즈 제어 성능이 부족한 객체 커스터마이징 문제를 해결하기 위해 Pose-ICL 프레임워크를 제안했어요. Pose-ICL은 3D 인식을 활용한 인컨텍스트 학습(ICL)을 통해 객체의 포즈 정확도와 일관성을 높여요.
Surface-Anchored Position Embedding (SAPE)이라는 핵심 메커니즘을 통해 이미지 토큰을 3D 볼륨 박스의 표면 좌표에 고정하여 모델에 3D 인식을 부여해요.
3D 자산과 실제 객체에 대한 실험 결과, Pose-ICL은 기존 방법보다 포즈 정확도와 객체 일관성에서 뛰어난 성능을 보여줬어요.