Pulse · AI 뉴스

추론 연산이 최첨단 LLM 평가에 미치는 영향

OpenAI · 2026-06-16

연구진은 도구 사용 및 반복적인 문제 해결을 포함하는 어려운 작업으로 AI 평가가 변화하고 있음을 확인했어요.

최첨단 언어 모델 12개를 평가한 결과, 테스트 시점에 할당된 연산량이 성능에 큰 영향을 미치는 것으로 나타났어요.

연구 결과, 평가 프로토콜에 따라 점수가 달라지므로, 평가가 추론 시간 연산량에 따른 성능을 보고하고 프로토콜 선택을 명시해야 한다고 주장해요.

##LLM##평가##추론##성능##연구

매일 핵심 AI 소식을 한국어로, 빠르게