연구진은 AI가 과학적 진보를 예측하는 능력을 평가하는 벤치마크 CUSP(Cutoff-conditioned Unseen Scientific Progress)를 발표했어요.
CUSP는 AI 시스템의 실현 가능성 평가, 메커니즘 추론, 솔루션 설계, 시간 예측 능력을 평가하며, 4,760건의 과학적 사건을 분석했어요.
분석 결과, 현재 AI 모델은 연구 방향을 제시하는 데는 강점을 보이지만, 과학적 진보의 실현 여부와 시기를 정확히 예측하는 데는 한계가 있는 것으로 나타났어요.
AI 모델은 생물학, 화학, 물리학 분야에서 과학 발전 시기를 예측하는 데 어려움을 겪으며, 불확실성 추정에도 오류가 있는 것으로 확인됐어요.