연구진은 시각 정보를 활용한 코어퍼런스 해결 방법인 Plug-and-Adapt을 제안했어요. 이 방법은 기존 방식과 달리, 희소한 데이터셋으로 훈련하거나 리소스 집약적인 VLLM에 의존하지 않고 즉시 활용 가능하도록 설계됐어요. CIN 벤치마크에서 기존 방식보다 5.31% 성능이 향상됐으며, VCR-MCR 데이터셋 평가에서도 우수한 일반화 성능을 확인했어요.