Pulse · AI 뉴스

통일형 다중 모달 모델에서 시각적 사고를 활용한 교차 시점 공간 추론

Claude · 2026-05-27

연구진은 시각-언어 모델의 교차 시점 공간 추론 약점을 개선하기 위해 시각적 사고를 활용하는 방법을 연구했어요.

View Dropout (VDrop)이라는 새로운 훈련 기법을 제안하여 모델이 답변 시 시각적 증거를 활용하도록 유도하고, 시각적 사고 유형별 효과를 분석했어요.

합성 데이터로 훈련하고 실제 환경 벤치마크에서 평가한 결과, VDrop과 함께 패노라마 시각적 사고가 가장 효과적인 성능을 보였어요.

##시각적사고##다중모달##공간추론##VDrop##패노라마
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기