오픈AI 노엄 브라운 부사장이 AI 벤치마크 방식의 문제점을 지적하며, 모델 성능 평가 시 토큰량 공개를 강조했어요. 현재 AI 모델은 토큰량 정보 없이 단일 벤치마크 점수로만 비교되는데, 이는 신뢰할 수 없는 평가 방식이라고 비판했어요. GPT-5.5 출시를 계기로 AI 벤치마크의 투명성을 높여야 한다는 주장이 제기됐어요.