Pulse · AI 뉴스

RL-Finetuned VLM의 견고성 및 추론 과정 일관성 연구

Apple ML Research · 2026-07-02

연구진은 시각 언어 모델(VLM)의 강화 학습(RL) 미세 조정이 시각적 추론 벤치마크 성능을 향상시키지만, 시각적 기반 부족, 환각, 텍스트 의존성 등의 취약점을 안고 있다고 밝혔습니다. 텍스트 기반 교란(오해의 소지가 있는 캡션, 부정확한 추론 과정)이 VLM의 견고성과 신뢰도를 크게 저하시킨다는 것을 확인했습니다. 특히 추론 과정 일관성이 중요합니다.

연구 결과, 간단한 텍스트 교란으로 VLM의 성능이 크게 저하되며, 이는 추론 과정 일관성이 일치하지 않을 때 더욱 두드러진다는 것을 보여줍니다. 이는 VLM이 시각적 정보보다 텍스트에 과도하게 의존하고 있음을 시사합니다. 연구진은 이러한 문제를 해결하기 위한 추가 연구가 필요하다고 강조했습니다.

##VLM##RL##추론##견고성##시각언어모델

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기