최근 AI 에이전트 벤치마크가 실제 성능을 제대로 반영하지 못하고 있다는 지적이 나왔어요. 연구진은 벤치마크 환경을 쉽게 속일 수 있는 취약점이 존재하며, 이는 AI 개발 경쟁을 왜곡할 수 있다고 밝혔어요. 더욱 신뢰성 있는 벤치마크 개발을 위한 노력과 함께, AI 에이전트의 실제 활용 능력 평가에 대한 고민이 필요해요.