Pulse · AI 뉴스

LocateAnything: 빠르고 정확한 시각-언어 객체 위치 파악 기술

LocateAnything · 2026-05-27

LocateAnything은 시각-언어 모델의 객체 위치 파악과 감지 성능을 향상시키는 새로운 프레임워크입니다. 기존 방식의 순차적 토큰 생성 방식을 개선하여 객체 기하학적 구조를 유지하고 병렬 처리를 가능하게 합니다. LocateAnything-Data라는 대규모 데이터셋을 구축하여 정확한 위치 파악 성능을 높였습니다.

LocateAnything은 Parallel Box Decoding(PBD)을 통해 객체 위치 파악 속도를 높이고, 기존 방식 대비 높은 IoU(Intersection over Union) 정확도를 달성했습니다. PBD는 객체의 기하학적 요소들을 원자 단위로 한 번에 디코딩하여 객체 내부의 기하학적 일관성을 유지합니다.

연구팀은 LocateAnything-Data를 통해 데이터 다양성을 확보하고, 시각-언어 모델의 효율성과 정확성을 향상시키는 병렬 박스 디코딩과 대규모 학습 데이터의 상호 보완적 이점을 확인했습니다.

##시각언어모델##객체파악##딥러닝##LocateAnything

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기