Pulse · AI 뉴스

LLM의 분포 예측 능력 평가 벤치마크 'UnpredictaBench' 공개

UnpredictaBench · 2026-06-04

연구진이 LLM의 분포 예측 능력을 평가하는 새로운 벤치마크 'UnpredictaBench'를 발표했어요. LLM이 실제 시스템의 불확실성을 제대로 반영하지 못하고 단일 답변으로 수렴하는 문제를 지적하며, 단순한 출력 다양성 개선으로는 해결되지 않는다고 설명했어요. 'KS@N'이라는 새로운 평가 지표를 도입해 모델의 분포 예측 능력을 측정했으며, 테스트 결과 모델별 성능 편차가 컸어요.

KS@100 지표에서 모델들의 점수가 0에서 20% 이상으로 다양하게 나타났으며, 40%를 넘는 모델은 없었다고 밝혔어요. 추론 능력 향상으로 점수를 높일 수 있지만, 근본적인 해결책은 아니라고 분석했어요. 'UnpredictaBench'는 LLM을 복잡한 시스템의 대리인으로 활용하기 위한 첫걸음이라고 강조했어요.

##LLM##벤치마크##분포예측##UnpredictaBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기