EEVEE는 LLM 에이전트를 위한 최초의 멀티 데이터셋 테스트 시간 프롬프트 학습 프레임워크입니다. 다양한 데이터 스트림 환경에서 테스트 시간 프롬프트 학습을 가능하게 합니다.
EEVEE는 입력 데이터를 작업 클러스터로 분할하고 적합한 프롬프트 구성을 할당하는 라우터를 도입하여 데이터셋 간 간섭을 완화합니다.
Qwen3-4B-Instruct와 DeepSeek-V3.2 모델에서 평균 멀티 벤치마크 점수를 각각 10.38점, 24.32점 향상시켰으며, SOTA 방법인 GEPA와 ACE를 최대 48.2% 능가했습니다.