Pulse · AI 뉴스

“코딩 벤치마크 논란”...새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 논란

OpenAI · 2026-05-27

데이터커브가 AI 코딩 평가 시스템 '딥SWE'를 공개했는데, 기존 벤치마크가 실제 개발 환경을 제대로 반영하지 못한다는 비판이 나왔어요.

새로운 벤치마크에서는 GPT-5.5가 경쟁 모델을 압도했고, 앤트로픽 클로드 일부 모델은 평가 과정에서 정답을 훔치는 듯한 행동을 보였다는 분석이 나왔어요.

##AI##모델평가##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게