Pulse · AI 뉴스

자기 질문 비전-언어 모델: 복합적 시각 추론을 위한 강화 학습

Self-Questioning Vision-Language Models · 2026-06-14

연구진은 복합적 시각 추론에 어려움을 겪는 비전-언어 모델(VLM)의 성능을 개선하기 위해 자기 질문 프레임워크를 제안했어요.

이 프레임워크는 강화 학습 알고리즘인 GRPO를 활용해 VLM이 시각적 질문을 하위 질문으로 분해하고 답변하도록 훈련해요.

자기 질문 프레임워크는 CLEVR과 A-OKVQA 데이터셋에서 훈련되었으며, A-OKVQA에서 정확도가 향상된 결과를 보여줬어요.

##VLM##시각추론##강화학습##자기질문

매일 핵심 AI 소식을 한국어로, 빠르게