연구진은 에이전트의 장기 배포 성능을 측정하는 AgingBench를 개발했어요. Claude Code CLI 에이전트를 Sonnet 4.6에서 Opus 4.7로 교체했을 때 배포 기간 동안 PyTest 통과율이 평균 15% 감소했어요.
연구 결과, 에이전트의 메모리 상태 변화가 성능에 큰 영향을 미치며, 더 강력한 기반 모델이 반드시 더 나은 수명을 갖는 것은 아니에요.
AgingBench는 메모리 정책이 에이전트 수명에 미치는 영향을 보여주며, 새로운 모델 교체 시 주의가 필요하다는 점을 시사해요.