Pulse · AI 뉴스

QuantSightBench: LLM의 정량적 예측 능력 평가

OpenAI · 2026-04-17

연구진은 불확실성 하에서의 추론을 평가하는 새로운 벤치마크 QuantSightBench를 제안했어요.

QuantSightBench는 예측 구간(prediction intervals)을 활용하여 LLM의 정량적 예측 능력을 평가하며, 기존 벤치마크의 한계를 극복하고자 해요.

Gemini 3.1 Pro, Grok 4, GPT-5.4 등 최첨단 모델들도 90% 커버리지 목표 달성에 실패했으며, 극단적인 값에서는 과도한 자신감을 보이는 것으로 나타났어요.

##모델평가##QuantSightBench##예측

매일 핵심 AI 소식을 한국어로, 빠르게