Pulse · AI 뉴스

SWE-INTERACT: 사용자 중심의 장기 코딩 작업 평가를 위한 새로운 벤치마크

Opus 4.8 · 2026-06-29

Anthropic이 사용자 중심의 장기 코딩 작업 평가를 위한 새로운 벤치마크 'SWE-Interact'를 공개했어요.

SWE-Interact는 기존 벤치마크와 달리 사용자가 점진적으로 요구사항을 제시하고 피드백을 제공하는 방식으로, 에이전트의 의도 파악 및 적응 능력을 평가해요.

Opus 4.8과 GPT-5.5를 포함한 최상위 모델도 초기 모호한 지시에도 강점을 보이지만, 여전히 과도한 에이전트 행동, 요구사항 망각 등의 한계가 있어요.

##SWE-Interact##코딩에이전트##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기