연구진이 다중 데이터셋 환경에서 LLM 에이전트의 테스트 시간 프롬프트 학습을 가능하게 하는 EEVEE 프레임워크를 제안했어요. EEVEE는 입력 데이터를 작업 클러스터로 분할하고 적합한 프롬프트 구성을 할당하는 라우터를 도입하여 데이터셋 간 간섭 문제를 완화해요. Qwen3-4B-Instruct와 DeepSeek-V3.2 모델을 사용했을 때 평균 멀티 벤치마크 점수를 각각 10.38점, 24.32점 향상시켰어요.