VitaBench 2.0은 LLM 에이전트의 개인화 및 선제적 행동을 평가하는 새로운 벤치마크입니다. 이 벤치마크는 사용자의 선호도를 추론하고 활용하는 능력을 평가하며, 기존 벤치마크의 한계를 보완합니다. 실험 결과, 최신 모델조차도 현실적인 개인화에 어려움을 겪고 있으며, 향후 모델 개선을 위한 통찰력을 제공합니다.