연구진은 강화 학습을 활용해 작은 규모의 언어 모델이 텍스트-SPARQL 변환을 수행하도록 훈련하는 방법을 연구했어요. 그룹 상대 정책 최적화(GRPO)를 Qwen3-1.7B 모델에 적용하여 DBLP-QuAD 데이터셋에서 제로샷 성능을 향상시켰어요.
실행 피드백, 구조적 제약, 답변 수준의 보상을 활용하여 모델을 훈련했으며, 금 표준 쿼리를 기반으로 한 추가 훈련도 시도했어요. 결과적으로 GRPO는 제로샷 기준 모델보다 성능이 향상되었고 일반화 능력도 경쟁력을 보였어요.
실행 기반 보상이 대부분의 성능 향상을 이끌었으며, 금 표준 쿼리 기반의 추가 훈련은 큰 도움이 되지 않았어요.