연구진은 불확실성 하에서의 추론을 평가하는 새로운 벤치마크 QuantSightBench를 제안했어요.
QuantSightBench는 예측 구간(prediction intervals)을 활용하여 LLM의 정량적 예측 능력을 평가하며, 기존 벤치마크의 한계를 극복하고자 해요.
Gemini 3.1 Pro, Grok 4, GPT-5.4 등 최첨단 모델들도 90% 커버리지 목표 달성에 실패했으며, 극단적인 값에서는 과도한 자신감을 보이는 것으로 나타났어요.