연구진이 실제 사용자-에이전트 코딩 세션을 기반으로 한 SWE-Together 벤치마크를 공개했어요. 기존 벤치마크는 정적인 반면, SWE-Together는 사용자의 목표 명확화, 제약 조건 추가, 오류 수정 등 다중 턴 상호작용을 반영해요. 연구팀은 LLM 기반 사용자 시뮬레이터를 구축하여 실제 사용자 의도를 보존하고, 에이전트 진행 상황에 따라 피드백을 제공해요.
SWE-Together는 최종 저장소 정확도와 교정 피드백 턴 수를 측정하여 에이전트를 협력자로 평가하며, 최신 에이전트는 더 높은 성공률과 적은 개입으로 더 나은 사용자 경험을 제공하는 것으로 나타났어요. 11,260개의 세션에서 109개의 저장소 레벨 작업을 선별하여 벤치마크를 구성했어요.