Pulse · AI 뉴스

LongTraceRL: 지식 그래프 기반 장문 추론 강화 학습

LongTraceRL · 2026-05-29

연구진은 장문 내 핵심 정보 탐색 및 통합에 어려움을 겪는 LLM의 장문 추론 능력을 향상시키기 위해 LongTraceRL을 개발했어요.

LongTraceRL은 지식 그래프 기반 다중 홉 질문 생성과 검색 에이전트의 경로를 활용하여 기존 방식보다 훨씬 어려운 훈련 환경을 구축하고, 단계별 추론 과정을 감독하기 위한 루브릭 보상을 도입했어요.

실험 결과, LongTraceRL은 다양한 장문 추론 벤치마크에서 강력한 성능을 보여주며, 증거 기반의 종합적인 추론을 장려하는 것으로 나타났어요.

##LLM##강화학습##장문추론##LongTraceRL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기