AxDafny는 모델이 실행 가능한 코드와 검증 증거를 함께 생성하는 에이전트 기반 코드 생성 연구입니다. 검증 지침에 따라 구현, 불변식, 단정, 종료 인수를 반복적으로 생성하는 AxDafny 프레임워크를 소개합니다. AxDafny는 GPT-5.5 성능을 크게 개선하며, 92.7%의 검증 성공률을 달성했습니다.
LiveCodeBench-Pro-Dafny 벤치마크를 통해 AxDafny의 성능을 검증했으며, 검증 성공률이 높았습니다. 검증 성공률과 런타임 테스트 성능은 생성된 코드의 서로 다른 측면을 측정하는 것을 확인했습니다.
AxDafny는 기존 검증 힌트 기반 모델보다 6.5% 더 높은 검증 성공률을 보였습니다.