Pulse · AI 뉴스

LongTraceRL: 지식 그래프 기반 다중 홉 질문 생성 및 루브릭 보상을 활용한 장문 추론 강화 학습

LongTraceRL · 2026-05-30

연구진은 장문 추론 능력 향상을 위한 새로운 강화 학습 방법 LongTraceRL을 개발했어요.

LongTraceRL은 지식 그래프 기반 다중 홉 질문 생성과 루브릭 보상 시스템을 활용하여 기존 방법보다 훨씬 어려운 학습 환경을 구축해요.

실험 결과, LongTraceRL은 다양한 장문 추론 벤치마크에서 강력한 성능을 보이며, 증거 기반의 종합적인 추론을 장려하는 것으로 나타났어요.

##LLM##강화학습##장문추론##LongTraceRL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기