Pulse · AI 뉴스

SWE-Together: 사용자 상호작용 기반 코딩 에이전트 평가 벤치마크

SWE-Together · 2026-06-29

연구진이 실제 사용자-에이전트 코딩 세션을 기반으로 한 SWE-Together 벤치마크를 공개했어요. 기존 벤치마크는 정적인 반면, SWE-Together는 사용자의 목표 명확화, 제약 조건 추가, 오류 수정 등 다중 턴 상호작용을 반영해요. 연구팀은 LLM 기반 사용자 시뮬레이터를 구축하여 실제 사용자 의도를 보존하고, 에이전트 진행 상황에 따라 피드백을 제공해요.

SWE-Together는 최종 저장소 정확도와 교정 피드백 턴 수를 측정하여 에이전트를 협력자로 평가하며, 최신 에이전트는 더 높은 성공률과 적은 개입으로 더 나은 사용자 경험을 제공하는 것으로 나타났어요. 11,260개의 세션에서 109개의 저장소 레벨 작업을 선별하여 벤치마크를 구성했어요.

##코딩에이전트##벤치마크##SWE-Together
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기