연구진은 LLM 개발 과정에서 성능 예측을 돕는 프록시 메트릭을 제안했어요. 이 메트릭은 전문가가 작성한 솔루션에 대한 모델의 다음 토큰 분포를 분석하여 엔트로피, 상위 K 정확도, 전문가 토큰 순위 등의 토큰 수준 통계를 집계합니다.
세 가지 환경에서 프록시 메트릭은 손실 함수 및 컴퓨팅 기반 기준을 능가하는 성능을 보여줬어요. 모델 패밀리 선택 시 0.81의 스피어만 로(Spearman's rho)를 기록하며, 기존 손실 함수는 0.36에 불과했습니다.
사전 훈련 데이터 선택 시 10,000배 적은 컴퓨팅 비용으로 25개 후보 코퍼스를 순위 결정하고, 훈련 시간 예측 시 기존 방법보다 절반의 오차로 18배의 컴퓨팅 지평선을 예측하는 데 성공했습니다.