Pulse · AI 뉴스

강화 학습 기반 텍스트-SPARQL 변환: DBLP 데이터셋에서의 GRPO 접근 방식

Qwen · 2026-05-20

연구진은 강화 학습을 활용해 작은 규모의 언어 모델이 텍스트-SPARQL 변환을 수행하도록 훈련하는 방법을 연구했어요. 그룹 상대 정책 최적화(GRPO)를 Qwen3-1.7B 모델에 적용하여 DBLP-QuAD 데이터셋에서 제로샷 성능을 향상시켰어요.

실행 피드백, 구조적 제약, 답변 수준의 보상을 활용하여 모델을 훈련했으며, 금 표준 쿼리를 기반으로 한 추가 훈련도 시도했어요. 결과적으로 GRPO는 제로샷 기준 모델보다 성능이 향상되었고 일반화 능력도 경쟁력을 보였어요.

실행 기반 보상이 대부분의 성능 향상을 이끌었으며, 금 표준 쿼리 기반의 추가 훈련은 큰 도움이 되지 않았어요.

##강화학습##SPARQL##Qwen##DBLP##지식그래프

매일 핵심 AI 소식을 한국어로, 빠르게