연구진은 언어 모델이 작성한 확률 프로그램의 통계적 오류를 감지하고 수정하는 방법을 연구했어요.
14가지 오류 유형을 가진 10개 모델 패밀리(200개 인스턴스)에 대한 벤치마크에서 오류 감지 AUC는 0.97로 나타났어요.
단위 테스트 피드백보다 교정 피드백이 LLM 수정 루프에서 더 효과적이며, GPT-5.1의 정확도를 33%에서 92%로 향상시켰어요.
LLM이 처음부터 작성한 프로그램 중 15~47%가 통계적으로 잘못되었으며, 교정 기반 수정은 LLM 심사보다 우수했어요.