연구진은 LLM 입력에 학습된 벡터를 삽입하는 방식이 성능 향상에 미치는 영향을 분석하며, 학습 없이 무작위로 생성된 임베딩 벡터를 주입하는 '랜덤 소프트 프롬프트(RSP)' 기법을 제안했습니다.
RSP는 수학 추론 벤치마크에서 최적화된 소프트 프롬프트와 유사한 정확도를 달성했으며, 초기 토큰 다양성을 높여 Pass@N 확률을 넓히는 효과를 보였습니다.
연구진은 RSP 기법을 DAPO 훈련에도 적용하여 실질적인 성능 향상을 확인했으며, 학습 없이도 소프트 프롬프트 주입의 효과를 분석하고 활용할 수 있음을 입증했습니다.