Anthropic이 사용자 중심의 장기 코딩 작업 평가를 위한 새로운 벤치마크 'SWE-Interact'를 공개했어요. SWE-Interact는 기존 벤치마크와 달리 사용자가 점진적으로 요구사항을 제시하고 피드백을 제공하는 방식으로, 에이전트의 의도 파악 및 적응 능력을 평가해요. Opus 4.8과 GPT-5.5를 포함한 최상위 모델도 초기 모호한 지시에도 강점을 보이지만, 여전히 과도한 에이전트 행동, 요구사항 망각 등의 한계가 있어요.