연구팀은 200개의 작업으로 구성된 ProgramBench 벤치마크를 구축하여 에이전트가 대상 실행 파일과 설명서만으로 프로그램을 처음부터 설계하도록 했습니다. 에이전트는 프로그래밍 언어를 선택하고 추상화 계층을 설계하며 전체 프로그램을 아키텍처해야 합니다. 600만 줄의 행동 테스트를 생성하고 필터링하여 테스트의 정확성을 높였습니다.
ProgramBench는 인터넷 접속이나 다른 형태의 부정행위를 허용하지 않으며, 결과는 programbench.com에서 확인할 수 있습니다. GitHub, Hugging Face, Docker 이미지가 공개되어 사용자들이 직접 평가를 시작할 수 있습니다.
현재는 폐쇄형 모델만 지원하지만, 오픈 소스 모델을 파이프라인에 포함하고 있으며, SWE-bench와 유사하게 벤치마크 제출을 곧 공개할 예정입니다.