오픈AI 노엄 브라운 부사장이 AI 모델 평가 시 단일 벤치마크 점수만으로는 부족하다고 지적했어요. 최신 AI 모델은 답을 내는 데 사용된 토큰 수, 비용, 시간에 따라 성능이 달라지기 때문이에요. GPT-5.5의 경우, 벤치마크 점수상 소폭 개선된 수준이었지만 출력 토큰 수 기준으로 보면 더 큰 차이가 나타났다고 설명했어요.
브라운 부사장은 AI 성능 평가가 안전성 평가와도 연결된다며, 모델의 추론 자원 사용량을 함께 반영해야 한다고 강조했어요. 모델을 오래 실행하면 위험한 능력이 드러나지 않을 수 있기 때문이에요.
그는 제3자 벤치마크 기관이 모델 평가 시 토큰, 비용, 시간에 대한 명확한 제한을 두어야 한다고 제안했어요. AI 모델 평가에도 예산 조건이 필요하다는 의견이에요.