Pulse · AI 뉴스

SWE-벤치 Verified 평가 중단 이유: 오염 심화 및 코드 진행 상황 측정 오류

OpenAI · 2026-02-23

SWE-벤치 Verified는 점점 오염이 심화되어 최첨단 코딩 진행 상황을 정확하게 측정하지 못하는 것으로 나타났습니다.

분석 결과, 테스트 자체의 결함과 학습 데이터 유출 문제가 확인되었습니다.

SWE-벤치 Pro로 전환하여 더 정확한 평가를 수행할 것을 권장합니다.

##SWE벤치##코드평가##모델평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기