Pulse · AI 뉴스

객체 감지에서 시각적 추론으로: Vision-Language 모델을 위한 온-정책 데이터 주석 도구

ScreenAnnotator · 2026-06-17

연구진이 시각적 추론 능력을 가진 Vision-Language 모델(VLM) 학습을 위한 데이터 주석 도구 ScreenAnnotator를 공개했어요. 이 도구는 공간 좌표, 텍스트 설명, 구조적 속성, 위상 관계를 통합하는 새로운 주석 방식과 온-정책 주석 루프를 특징으로 합니다.

ScreenAnnotator는 Bayesian Annotation Verifier(BAV)를 통해 주석 수락률을 높이고, 템플릿 기반 데이터 합성 과정을 통해 다양한 추론 작업을 생성하여 데이터 재사용성을 높여요.

연구 결과, ScreenAnnotator를 활용해 VLM을 학습했을 때 플로우차트에서 76.1%의 정확도를 달성하며, 기존 방식 대비 35.1% 포인트 향상된 성능을 보여줬어요.

##VLM##데이터주석##시각적추론##ScreenAnnotator##OpenSource

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기