연구진은 시각-언어 모델(VLM)의 추론 능력을 향상시키는 강화 학습(RL) 과정에서 발생하는 불안정성 문제를 해결하기 위해 충실한 초기화(FWS) 전략을 제안했어요.
FWS는 시각 정보와 언어 간의 명확한 인과 관계를 가진 샘플을 선별하여 FaithfulQA 데이터셋을 구축하고, VLM 기반 평가 모델로 데이터셋을 정제하여 모델이 시각적으로 충실한 추론 패턴을 학습하도록 돕습니다.
실험 결과, 충실한 초기화는 답변 정확도를 향상시키고 RL 훈련을 안정화하며, 시각적 증거 없이 답변하는 현상을 줄이는 데 효과적이었어요.