Pulse · AI 뉴스

오픈AI 부사장, 단일 벤치마크 평가 방식 비판하며 새로운 평가 체계 제안

OpenAI · 2026-07-03

오픈AI 노엄 브라운 부사장이 차세대 AI 모델 평가에 있어 기존 벤치마크 점수 중심의 방식에서 벗어야 한다고 주장했어요.

GPT-5.5 성능 논란을 언급하며, 모델의 추론 단계 연산 자원(테스트 타임 컴퓨트)을 중심으로 평가해야 한다고 강조했어요.

##OpenAI##GPT-5.5##AI평가##벤치마크##테스트타임컴퓨트

매일 핵심 AI 소식을 한국어로, 빠르게