연구진은 시각-언어 모델(VLM)의 실제 천문 관측 데이터 해석 성능을 평가하기 위해 AstroVLBench 벤치마크를 개발했어요. 6개의 최첨단 모델을 평가한 결과, 모델 성능은 데이터 양식에 따라 크게 달라지며, 물리적 지식을 기반으로 하는 프롬프트가 더 나은 성능을 보였어요. 원시 측정 데이터를 표 형태로 제시하면 모델의 정확도가 최대 13% 포인트 향상되며, 정확도 외에 물리적 근거가 중요한 요소임을 확인했어요.