Nvidia가 시각-언어 Grounding 모델 'LocateAnything'을 공개했어요. Eagle 모델 기반으로 개발되었으며, Qwen3-VL 대비 10배 빠른 속도를 자랑해요. Hugging Face Space에서 데모를 체험할 수 있어요.
LocateAnything은 병렬 박스 디코딩 기술을 활용하여 빠른 속도와 높은 품질의 Grounding 성능을 제공하며, 3B 파라미터 규모로 개발되었어요. Nvidia GitHub 저장소에서 관련 코드를 확인할 수 있어요.