Jones et al. (2025) 연구는 평가 데이터셋의 제한적인 실패를 보완하기 위해, 실패 점수를 외삽하여 배포 환경에서의 실패율을 예측하는 방법을 제시했어요.
예측 오차에 대한 분석 결과, 일반적으로 안전성을 과대평가하는 경향이 있지만, 이는 배포 환경에서 발생할 수 있는 위험을 줄이는 데 도움이 될 수 있어요.
연구진은 예측 정확도를 높이기 위해 '예측 가능성 손실'이라는 새로운 학습 목표를 제안했고, 실험 결과 주요 작업 능력 저하 없이 예측 오차를 줄이는 데 효과적이었어요.