Pulse · AI 뉴스

SWE-Chain: 체인형 패키지 업그레이드 코딩 에이전트 벤치마크

Claude · 2026-05-14

Anthropic의 Claude Opus 4.7 (Claude Code)이 SWE-Chain 벤치마크에서 코딩 에이전트 성능이 가장 우수했어요. 체인형 패키지 업그레이드 작업에서 60.8% 해결률, 80.6% 정밀도, 68.5% F1 점수를 기록했어요.

SWE-Chain은 패키지 업그레이드 작업의 연속성을 평가하는 새로운 벤치마크로, 실제 Python 패키지 9개에서 155개의 버전 전환을 포함하고 있어요.

현재 코딩 에이전트는 체인형 패키지 업그레이드 과정에서 기존 기능 고장 없이 정확한 업그레이드를 수행하는 데 어려움을 겪고 있는 것으로 나타났어요.

##코딩에이전트##벤치마크##ClaudeOpus4.7
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기