연구진은 양자 교정 플롯 해석 능력을 평가하는 최초의 VLM 벤치마크인 QCalEval을 발표했어요. QCalEval은 22개의 실험 패밀리에서 243개의 샘플과 6가지 질문 유형으로 구성되어 있으며, 제로샷 및 인컨텍스트 학습 환경에서 평가했어요. SFT를 통해 제로샷 성능은 향상되었지만, 다중 이미지 인컨텍스트 학습 격차를 해소하지 못했으며, NVIDIA Ising Calibration 1 모델을 공개했어요.