LLM 사전 파인튜닝 비용 절감을 위해 사전 성능 예측이 중요하지만, 예측의 이론적 한계는 아직 연구되지 않았습니다. 연구진은 예측 위험을 고유 한계(정적 데이터-모델 호환성)와 줄일 수 있는 최적화 분산으로 분해했습니다. 최적화 분산은 불확실성 감소 속도에 대한 하한선을 가지며, 예측 방법론의 근본적인 제약을 시사합니다.
새로운 예비 탐색 원칙을 도출하고, 작업의 세 가지 구역(정적-충분, 동적-임계, 노이즈-지배)을 분류하는 예측 가능성 상형도를 소개했습니다. 합성 및 실제 벤치마크 실험을 통해 이론적 구역을 검증하고 예비 탐색 전략의 효율성을 입증했습니다.
본 연구는 사전 파인튜닝 성능 예측의 한계를 밝히고, 효율적인 탐색 전략을 제시하여 LLM 활용 비용 절감에 기여할 것으로 기대됩니다.