연구진은 LLM 기반 최적화 모델링에서 제약 조건 오류를 검증하는 새로운 방법인 '제약 조건 주입'을 제안했어요. 기존 방법은 목표 등가성 신호에 의존하여 프로그램이 오류를 발생시키거나 필요한 제약 조건을 누락할 수 있다는 한계가 있었어요.
연구진은 차량 경로 문제(VRP)를 위한 80억 파라미터 모델 VRPCoder를 개발하고, 전문가 검증 VRP 벤치마크를 구축했어요. VRPCoder는 자연어 VRP 시나리오를 Gurobi 스크립트로 변환합니다.
VRPCoder-GRPO는 4가지 VRP 벤치마크에서 평균 Pass@1 93%를 달성하며, Gemini-3.1-Pro Preview, Claude-Sonnet-4.5, 기존 OR-LLM을 능가하는 성능을 보여줬어요.