연구진은 도구 사용 및 반복적인 문제 해결을 포함하는 어려운 작업으로 AI 평가가 변화하고 있음을 확인했어요. 최첨단 언어 모델 12개를 평가한 결과, 테스트 시점에 할당된 연산량이 성능에 큰 영향을 미치는 것으로 나타났어요. 연구 결과, 평가 프로토콜에 따라 점수가 달라지므로, 평가가 추론 시간 연산량에 따른 성능을 보고하고 프로토콜 선택을 명시해야 한다고 주장해요.