Pulse · AI 뉴스

Nvidia LocateAnything: Qwen3-VL 대비 10배 빠른 시각-언어 Grounding 모델 공개

Nvidia · 2026-05-28

Nvidia가 시각-언어 Grounding 모델 'LocateAnything'을 공개했어요. Eagle 모델 기반으로 개발되었으며, Qwen3-VL 대비 10배 빠른 속도를 자랑해요. Hugging Face Space에서 데모를 체험할 수 있어요.

LocateAnything은 병렬 박스 디코딩 기술을 활용하여 빠른 속도와 높은 품질의 Grounding 성능을 제공하며, 3B 파라미터 규모로 개발되었어요. Nvidia GitHub 저장소에서 관련 코드를 확인할 수 있어요.

##Nvidia##LocateAnything##시각언어모델

매일 핵심 AI 소식을 한국어로, 빠르게