연구진이 SWE-Interact라는 새로운 벤치마크를 공개했어요. 이 벤치마크는 사용자와의 상호작용을 통해 코딩 에이전트의 능력을 평가하는 방식이에요.
기존 벤치마크와 달리, SWE-Interact는 사용자가 점진적으로 요구사항을 제시하고 피드백을 제공하는 방식으로 진행돼요. 이를 통해 에이전트가 사용자 의도를 파악하고 변화하는 요구사항에 적응하는 능력을 측정할 수 있어요.
Opus 4.8과 GPT-5.5를 포함한 최상위 모델조차도 여전히 과도한 에이전트 행동, 요구사항 망각, 기술적 실수를 겪는 것으로 나타났어요.