연구진이 AI 코딩 능력을 평가하는 새로운 벤치마크 MirrorCode를 공개했어요. MirrorCode는 AI 에이전트가 기존 프로그램의 소스 코드 없이 기능 재구축하는 방식으로 진행돼요.
Unix 유틸리티, 데이터 시리얼라이즈 등 다양한 분야의 25개 프로그램으로 구성됐으며, 현재 최고 성능 모델은 56%의 정확도를 기록했어요.
MirrorCode는 AI가 복잡한 소프트웨어 재구축을 수행할 수 있음을 보여주며, 소프트웨어 엔지니어링 분야에 혁신적인 영향을 미칠 것으로 예상돼요.