Pulse · AI 뉴스

오픈AI “AI 벤치마크 한계…토큰·비용·시간 고려해야”

OpenAI · 2026-07-03

오픈AI 노엄 브라운 부사장이 AI 모델 평가 시 단일 벤치마크 점수만으로는 부족하다고 지적했어요. 최신 AI 모델은 답을 내는 데 사용된 토큰 수, 비용, 시간에 따라 성능이 달라지기 때문이에요. GPT-5.5의 경우, 벤치마크 점수상 소폭 개선된 수준이었지만 출력 토큰 수 기준으로 보면 더 큰 차이가 나타났다고 설명했어요.

브라운 부사장은 AI 성능 평가가 안전성 평가와도 연결된다며, 모델의 추론 자원 사용량을 함께 반영해야 한다고 강조했어요. 모델을 오래 실행하면 위험한 능력이 드러나지 않을 수 있기 때문이에요.

그는 제3자 벤치마크 기관이 모델 평가 시 토큰, 비용, 시간에 대한 명확한 제한을 두어야 한다고 제안했어요. AI 모델 평가에도 예산 조건이 필요하다는 의견이에요.

##AI##오픈AI##벤치마크##GPT-5.5
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기