연구진은 기존 벤치마크의 한계를 극복하기 위해 TASTE라는 새로운 방법론을 제안했어요. TASTE는 LLM이 판단한 유효성 신호를 활용해 다양한 도구 조합을 포함하는 벤치마크를 자동으로 생성해요. 이를 통해 기존 벤치마크를 압도하는 수준의 난이도와 도구 커버리지를 가진 τ^c-Bench를 구축했어요.
Gemini-3-Flash 모델은 τ^2-Bench에서는 높은 점수를 기록했지만, TASTE로 생성된 τ^c-Bench에서는 성능이 크게 저하되는 현상이 나타났어요.
TASTE는 기존 벤치마크에 비해 두 배 이상의 고유한 도구 조합을 요구하며, 자동화된 벤치마크 생성으로 미래 에이전트의 지속적인 평가를 가능하게 해요.