연구진은 기존 LLM 검색 벤치마크가 실제 사용자의 만족도를 제대로 반영하지 못한다고 지적했어요. 사용자와 LLM 에이전트가 함께 의도를 구체화하는 VibeSearch라는 새로운 패러다임을 제시하고, 이를 평가하기 위한 VibeSearchBench를 공개했어요. VibeSearchBench는 200개의 다국어(중국어, 영어) 과제를 포함하며, 전문(VibeSearch-Pro)과 일상(VibeSearch-Daily)으로 나뉘어져 있어요.
7개의 최신 모델을 ReAct 프레임워크와 OpenClaw 에이전트 하니스를 통해 테스트한 결과, VibeSearch에서 모두 낮은 성능(F1 점수 30.30)을 보였으며, 장기 컨텍스트 추론, 선제적 의도 파악, 구조화된 지식 구축에 대한 근본적인 발전 필요성을 시사해요.
VibeSearchBench는 실제 사용 환경을 반영한 평가를 통해 LLM 에이전트의 성능 개선 방향을 제시하고, 사용자와 에이전트의 협업을 통한 의도 구체화 과정을 강조해요.