연구진은 MLLM이 시각적 손상을 스스로 복구하여 견고한 이해를 가능하게 하는지 조사하는 Robust-U1 프레임워크를 제안했어요.
Robust-U1은 초기 복원을 위한 지도 학습, 고품질 시각을 맞추기 위한 이중 보상 강화 학습, 손상된 입력과 복구된 이미지를 함께 고려하는 다중 양방향 추론의 세 단계를 포함해요.
실험 결과, Robust-U1은 실제 손상 벤치마크에서 최고 성능을 달성하고 일반 VQA 벤치마크에서 적대적 손상 하에 우수한 성능을 유지하며, 시각적 복구가 추론 성능을 향상시키는 것을 확인했어요.