Pulse · AI 뉴스

ProMSA: 지식 기반 시각 질의 응답을 위한 점진적 다중 모드 검색 에이전트

ProMSA · 2026-06-26

ProMSA는 이미지와 질문을 기반으로 외부 지식을 활용하는 KB-VQA 모델입니다. 기존 방식의 고정된 검색 파이프라인의 한계를 극복하기 위해, 이미지 검색, 텍스트 검색, 중단 중 하나를 반복적으로 선택하는 점진적 에이전트를 제안합니다. TN-GSPO라는 새로운 강화 학습 방법을 통해 학습하여 E-VQA와 InfoSeek 데이터셋에서 기존 모델보다 성능이 향상되었습니다.

ProMSA는 도구 사용 예산을 명시하고 중복 검색을 방지하여 효율적인 지식 검색을 수행합니다. Rejection-sampling SFT를 통해 유효한 도구 사용 형식을 학습하고, 생성 길이와 도구 상호 작용 깊이를 정규화하는 TN-GSPO를 사용하여 에이전트를 최적화했습니다.

GitHub에서 코드 공개되었으며, 관련 연구는 KB-VQA 분야의 효율적인 지식 검색 방법론에 대한 새로운 가능성을 제시합니다.

##KBVQA##지식검색##에이전트##강화학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기