Anthropic의 Claude Code가 agentic proving 프레임워크를 활용해 프로그램 검증 벤치마크 CLEVER에서 높은 성능을 보여줬어요. Claude는 98.8%의 문제에 대해 유효한 명세(specification)를 생성하고, 87.5%의 문제에 대해 정확한 명세에 대한 구현을 인증했어요.
전체 프로그램 생성 및 검증 파이프라인에서 Claude는 98.1%의 성공률을 기록했으며, 실패 원인과 데이터셋의 버그를 스스로 파악하는 피드백 능력을 보여줬어요.
연구 결과는 기존 프로그램 검증 벤치마크의 난이도와 최신 agentic prover의 능력 간 불일치를 보여주며, 보다 엄격하고 버그에 강한 평가 방법론의 필요성을 강조해요.