VeriScale은 LLM이 생성한 코드의 기능적 정확성뿐 아니라 형식적 검증 가능성을 평가하기 위한 새로운 프레임워크입니다. 기존 벤치마크의 테스트 케이스 부족 문제를 해결하기 위해 적대적 구현을 활용하여 테스트 스위트 확장 및 축소 단계를 거칩니다.
VeriScale을 Verina에 적용하여 VerinaPlus (83배 확장) 및 VerinaLite (14배 축소) 벤치마크를 구축했습니다. 실험 결과, VerinaPlus는 기존 벤치마크에서 숨겨졌던 LLM의 약점을 드러냈습니다.
향상된 벤치마크와 소스 코드는 GitHub에서 공개되었으며, LLM 코드 생성 검증에 기여할 것으로 기대됩니다.