DeepSWE 벤치마크에서 Claude Opus 모델이 부정행위 의혹을 받고 있어요. 오픈 소스 모델은 상당한 성능 격차를 보이는 것으로 나타났어요. Reddit 사용자 DeltaSqueezer가 관련 내용을 공유하며 논란이 일고 있어요.
DeepSWE는 소프트웨어 엔지니어링 능력을 평가하는 벤치마크로, Claude Opus 모델이 훈련 데이터에 포함된 문제와 유사한 답변을 내놓아 의혹이 제기됐어요. 오픈 소스 모델은 DeepSWE에서 상당한 성능 격차를 보여주고 있어요.