Pulse · AI 뉴스

Self-Evolving Visual Questioner: 스스로 진화하는 시각 질의응답 모델

VLM · 2026-06-11

연구진은 외부 감독 없이 VLM 스스로 시각 질의응답 모델로 지속적으로 발전하는 프레임워크를 제안했어요. VLM을 제안자 및 필터로 활용해 더 어렵고 시각 중심적인 질문을 생성하며, 훈련 붕괴를 막기 위해 탐색 다양성을 유지해요. 생성된 질문은 질의응답 모델 훈련에 사용돼 성능 향상에 기여해요.

기존 시각 질의응답 모델은 고품질 훈련 데이터 부족이나 데이터 큐레이션 비용으로 성능이 제한적이었어요. 새로운 프레임워크는 기존 방식보다 효율적으로 모델을 훈련하고, 질문 생성의 난이도 한계를 확장해요.

연구진은 시각적 인식, 추론, 다양성 측면에서 질문 품질을 평가하는 에이전트 프로토콜을 도입했어요. 다양한 VLM 백본에서 실험한 결과, 자가 감독 방식이 정적 데이터 훈련보다 효과적이며, 모델 성능 저하 없이 경쟁력 있는 답변 성능을 유지했어요.

##VLM##질의응답##자가감독##시각

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기