연구진이 LLM의 분포 예측 능력을 평가하는 새로운 벤치마크 'UnpredictaBench'를 발표했어요. LLM이 실제 시스템의 불확실성을 제대로 반영하지 못하고 단일 답변으로 수렴하는 문제를 지적하며, 단순한 출력 다양성 개선으로는 해결되지 않는다고 설명했어요. 'KS@N'이라는 새로운 평가 지표를 도입해 모델의 분포 예측 능력을 측정했으며, 테스트 결과 모델별 성능 편차가 컸어요.
KS@100 지표에서 모델들의 점수가 0에서 20% 이상으로 다양하게 나타났으며, 40%를 넘는 모델은 없었다고 밝혔어요. 추론 능력 향상으로 점수를 높일 수 있지만, 근본적인 해결책은 아니라고 분석했어요. 'UnpredictaBench'는 LLM을 복잡한 시스템의 대리인으로 활용하기 위한 첫걸음이라고 강조했어요.