연구진은 아동 시점 비디오에서 언어 학습 시 객체 식별의 어려움을 해결하기 위해 BabyMind라는 새로운 방법을 제안했어요.
BabyMind는 오프라인 마스크 기반 영역 인터페이스를 활용해 객체 후보 임베딩을 추출하고, 짧은 발화 중심 창에서 객체 파일을 연결하며, 프로토타입 공간 다중 인스턴스 대비 목표를 사용해요.
SAYCam-S 데이터셋에서 BabyMind는 Labeled-S 강제 선택 정확도를 CVCL보다 2.6포인트 향상시켰고, 다양한 벤치마크에서 일관된 성능 향상을 보였어요.