LocateAnything은 시각-언어 모델의 객체 위치 파악과 감지 성능을 높이는 새로운 프레임워크입니다. 기존 방식의 순차적 토큰 디코딩 방식의 한계를 극복하기 위해 Parallel Box Decoding (PBD) 기술을 도입했습니다.
PBD는 객체를 원자 단위로 한 번에 디코딩하여 객체 내부의 기하학적 구조를 유지하고 병렬 처리를 가능하게 하여 디코딩 속도를 향상시킵니다.
LocateAnything-Data라는 대규모 데이터셋을 구축하여 데이터 다양성을 확보하고, 다양한 벤치마크에서 높은 정확도와 빠른 처리 속도를 달성했습니다.