Pulse · AI 뉴스

Gen-VCoT: 디퓨전 기반 RGB 중간 표현을 활용한 생성적 시각적 연쇄적 사고 추론

Qwen · 2026-06-15

연구진이 시각적 추론 과정 해석 가능성을 높이는 Gen-VCoT 프레임워크를 제안했어요. 이 프레임워크는 전문가 비전 모델을 활용해 RGB 이미지를 추론 중간 표현으로 생성합니다.

Gen-VCoT는 시각적 기반 타겟팅(SAM 세그멘테이션), 기하학적 추론(Marigold 깊이 맵), 의미론적 추론(Qwen2-VL 통합) 3단계로 구성되며, 적응형 라우터가 추론 깊이를 선택합니다.

CLEVR 데이터셋에서 텍스트 기반 CoT가 시각적 중간 표현보다 성능이 우수했지만, 공간 및 깊이 관련 질문에서는 Gen-VCoT가 더 높은 정확도를 보였어요.

##멀티모달##시각적추론##GenVCoT##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기