연구진은 LLM 에이전트가 비형식 프로그래밍 문제를 형식 사양으로 번역하는 '형식화 사양 자동화' 연구를 발표했어요.
Verus 검증기를 위한 Rust 사양 작성 벤치마크인 Verus-SpecBench와 LLM 모델이 Verus, bash, 파일 시스템과 상호작용하며 사양을 개발하는 환경인 Verus-SpecGym을 소개했어요.
Gemini 3.1 Pro는 Verus-SpecBench에서 77.8%의 정확도를 기록했지만, 모델 생성 사양은 중요한 입력 가정을 누락하거나 잘못된 출력을 허용하는 등 취약점을 드러냈어요.