Pulse · AI 뉴스

비전 기반 자기 개선 학습으로 다중 모드 추론 능력 향상: VISTA

Qwen · 2026-05-12

연구진은 다중 모드 대규모 언어 모델(MLLM)의 자기 개선 학습 시 데이터 불균형과 언어 편향 문제를 지적했어요.

VISTA 프레임워크는 비전 정보를 고려한 데이터 재샘플링과 어텐션 점수를 활용하여 이러한 문제를 해결합니다.

VISTA는 Qwen2-5-VL-3B-Instruct 모델의 성능을 최대 13.66% 향상시키는 등 다양한 MLLM과 작업에서 효과를 입증했습니다.

##MLLM##비전##자기학습##추론##VISTA

매일 핵심 AI 소식을 한국어로, 빠르게