사용자들은 벤치마크 점수가 높은 시스템도 실제 사용 환경에서 사용자 의도 불명확, 맥락 혼잡, 상반된 지시, 장시간 세션 등으로 인해 실패하는 경우가 많다고 지적했어요. 현재 평가 방식은 깔끔한 작업 최적화에 치중되어 있어 행동 기반의 안정성을 제대로 측정하지 못하는 한계가 있어요. 사용자들은 표준 평가 파이프라인 외에 어떤 방법을 활용하고 있는지 의견을 구하고 있어요.