Pulse · AI 뉴스

좋은 검증기가 망가졌을 때: 자기 개선 VL 모델이 새로운 작업에서 후퇴할 수 있습니다

Qwen · 2026-06-13

연구진은 검증기 기반 자기 DPO 방식에서 검증기 품질이 작업별로 매우 다르다는 점을 발견했어요.

MathVista, MMMU, BLINK 등 다양한 작업에서 검증기가 학생 모델 성능을 저하시키는 현상이 나타났으며, 성능 저하 폭은 3.4~10.9%에 달했어요.

잘못된 선호 쌍을 증폭시키는 자기 개선 방식의 문제점을 지적하며, 검증기 품질을 작업별 정확도로 측정하고, 성능 향상이 줄어들면 검증기 예산으로 제한해야 한다고 조언했어요.

##VL모델##자기개선##검증기##DPO##MathVista

매일 핵심 AI 소식을 한국어로, 빠르게