Pulse · AI 뉴스

Allegory of the Cave: 측정 기반 시각-언어 학습

PRISM-VL · 2026-05-12

연구진은 시각-언어 모델의 성능 향상을 위해 RGB 이미지 대신 카메라 측정 데이터를 활용하는 '측정 기반 시각-언어 학습' 방법을 제안했습니다.

PRISM-VL 모델은 RAW 데이터 기반의 Meas.-XYZ 입력, 카메라 조건부 접지, 노출 브래킷 감독을 결합하여 RGB 프록시에서 측정 도메인 관측으로 감독을 이전합니다.

PRISM-VL-8B 모델은 0.6120 BLEU, 0.4571 ROUGE-L, 82.66% LLM-Judge 정확도를 기록하며 RGB Qwen3-VL-8B 모델보다 성능이 향상되었습니다.

##시각언어모델##PRISM-VL##측정기반학습

매일 핵심 AI 소식을 한국어로, 빠르게