오픈AI 노엄 브라운 부사장이 차세대 AI 모델 평가에 있어 기존 벤치마크 점수 중심의 방식에서 벗어야 한다고 주장했어요. GPT-5.5 성능 논란을 언급하며, 모델의 추론 단계 연산 자원(테스트 타임 컴퓨트)을 중심으로 평가해야 한다고 강조했어요.