연구진이 다중 이미지 인과적 추론 성능을 높이는 BridgeVLM 모델을 제안했어요. BridgeVLM은 시각적 인과 관계 그래프를 생성해 LLM 디코더에 주입하고, RAMP 레이어를 통해 인과적 메시지 전달을 가능하게 해요. M3S라는 통합 학습 인터페이스를 통해 다양한 수준의 인과적 감독 신호를 활용하여 모델을 훈련했어요. 이 방식은 기존 프롬프트 기반 감독 방식보다 성능이 훨씬 뛰어났어요.