연구진은 LLM 훈련 시 프롬프트의 역할이 간과되어 왔음을 지적하며, 프롬프트 재구성 시 성능은 비슷해도 파국적 망각과 일반화에 미치는 영향은 크게 다르다고 밝혔습니다.
연구 결과, 특정 프롬프트는 여러 작업에서 일관되게 더 나은 성능을 보이며, 학습 전 작업 손실을 통해 이러한 우수한 프롬프트를 식별할 수 있습니다.
연구진은 State-Adaptive Prompt Optimization (SAPO)이라는 새로운 훈련 전략을 제시하여 망각을 완화하고 일반화를 개선했으며, 기존 방법보다 성능을 크게 향상시켰습니다.