연구진이 LLM 에이전트의 개인 앱 활용 성능을 평가하는 새로운 벤치마크 'MCP-Persona'를 공개했어요. MCP-Persona는 Reddit, Xiaohongshu, Lark, Slack 등 실제 사용자들이 쓰는 앱 환경을 시뮬레이션하여 개인화된 도구 사용 능력을 측정해요. 최신 에이전트들의 성능 테스트 결과, 개인화된 도구 사용에 어려움을 겪는다는 점이 확인돼, 관련 연구 및 개선 필요성을 보여줬어요.