연구진은 LLM 개발 과정에서 성능 예측을 위한 새로운 프록시 지표를 제안했어요. 이 지표는 전문가가 작성한 솔루션에 대한 모델의 다음 토큰 분포 통계를 활용하여 구축돼요. 세 가지 환경에서 기존 방식보다 성능 예측 정확도가 높게 나타났어요.
모델 선택 시 프록시 지표는 다양한 모델을 평가하는 데 Spearman Rho 0.81의 높은 상관관계를 보였으며, 사전 훈련 데이터 선택 시에는 1만 배 더 적은 컴퓨팅 비용으로 Pareto frontier를 개선했어요.
훈련 시간 예측에서는 기존 방식보다 절반의 오차로 18배의 컴퓨팅 지평선까지 정확도를 예측하는 데 성공했어요.