연구진이 130만 개 객체 인스턴스를 담은 대규모 통합 키포인트 데이터셋 MegaKPT를 공개했어요. MegaKPT 기반으로 시각적/텍스트 프롬프트를 지원하는 범용 키포인트 감지 모델 GKDT를 개발했어요. GKDT는 22개 테스트 세트에서 90% 이상의 [email protected] 정확도를 보여주며 다양한 분야에 활용 가능해요.
GKDT는 DINOv3 기반 Transformer 모델로, 기존 키포인트 감지 모델의 한계를 극복하고 범용성을 높이는 데 기여해요. 모델 훈련 효율성을 높이기 위해 믹스 모달 프롬프트 훈련 및 동적 중요 샘플링 전략을 제안했어요. 데이터셋, 모델, 코드는 GitHub에서 공개될 예정이에요.
MegaKPT 데이터셋은 29개의 기존 데이터셋에서 수집된 객체 인스턴스로 구성되며, 키포인트 텍스트 설명을 포함한 고품질 통합 어노테이션을 제공해요. GKDT는 시각적 프롬프트, 텍스트 프롬프트 또는 둘 다를 지원하여 다양한 작업에 활용될 수 있어요.