IBM 연구팀이 엔터프라이즈 Java 프레임워크 마이그레이션 작업을 평가하는 오픈 벤치마크인 ScarfBench를 공개했어요. ScarfBench는 Spring, Jakarta EE, Quarkus 간 마이그레이션 작업을 다룹니다.
현재 AI 에이전트는 컴파일 성공률보다 배포 성공률이 낮고, 배포 성공률보다 행동 검증 성공률이 낮아 마이그레이션 품질을 과대평가하는 경향이 있어요.
ScarfBench는 AI 에이전트가 마이그레이션 완료 여부를 정확하게 판단하는지, 애플리케이션 의존성을 어떻게 처리하는지, 코드 변환 외 어떤 어려움에 직면하는지 분석하는 데 도움을 줘요.