연구진이 LLM 벤치마크 점수가 모델의 지식을 오도할 수 있다는 문제점을 지적했어요. 특정 형식 요구사항을 따르는 능력에 의존하기 때문이에요.
소프트 프롬프트 튜닝을 통해 모델의 지식을 정확하게 반영하는 공정하고 효율적인 평가 방법을 제안했어요. 7B 모델의 약 0.0006% 파라미터인 10개의 소프트 프롬프트 벡터만 최적화했어요.
7개 모델과 7개 데이터셋으로 평가한 결과, 80단계(약 640 샘플) 내에 형식 준수가 포화되는 것을 확인했어요. 기존 프롬프트 방식보다 성능이 훨씬 뛰어나고, 모델의 잠재력을 발견할 수 있었어요.
소프트 프롬프트 튜닝은 LLM 개발 초기 단계에서 최적의 사전 훈련 전략을 파악하는 데 도움이 되는 저비용 방법이 될 수 있어요.