T1-Bench는 현실적인 고객 응대 환경에서 에이전트 시스템을 평가하는 새로운 벤치마크입니다. 25개 도메인에서 복합적인 추론과 조율 능력을 요구하는 다중 단계 시나리오를 포함합니다. 12개의 모델을 평가한 결과, 기존 벤치마크보다 작업 복잡성, 상호 작용 깊이, 도메인 커버리지가 크게 향상된 점이 확인됐습니다.
T1-Bench는 자동 평가와 함께 인간 평가를 결합하여 에이전트의 행동, 도구 활용, 대화 품질을 평가합니다. 향후 연구를 위해 데이터와 평가 코드를 공개할 예정입니다.