Pulse · AI 뉴스

LocateAnything: 빠르고 정확한 시각-언어 객체 위치 파악 기술

LocateAnything · 2026-05-26

LocateAnything은 시각-언어 모델의 객체 위치 파악과 감지 성능을 높이는 새로운 프레임워크입니다. 기존 방식의 순차적 토큰 디코딩 방식의 한계를 극복하기 위해 Parallel Box Decoding (PBD) 기술을 도입했습니다.

PBD는 객체를 원자 단위로 한 번에 디코딩하여 객체 내부의 기하학적 구조를 유지하고 병렬 처리를 가능하게 하여 디코딩 속도를 향상시킵니다.

LocateAnything-Data라는 대규모 데이터셋을 구축하여 데이터 다양성을 확보하고, 다양한 벤치마크에서 높은 정확도와 빠른 처리 속도를 달성했습니다.

##시각언어모델##객체파악##딥러닝##LocateAnything

매일 핵심 AI 소식을 한국어로, 빠르게