Pulse · AI 뉴스

모든 것을 잠금 해제하는 단일 정제기: 강화 학습 기반 쿼리 정제를 통한 추론 시간 추론 유도

ReQueR · 2026-04-28

연구진은 LLM의 잠재적인 추론 능력을 활용하기 위한 새로운 프레임워크인 ReQueR을 제안했어요.

ReQueR은 강화 학습을 통해 원시 쿼리를 명시적인 논리 분해로 재작성하는 Refiner 정책을 훈련하여 추론 시간 정렬 작업을 수행해요.

ReQueR은 다양한 아키텍처와 벤치마크에서 1.7%~7.2%의 절대적인 성능 향상을 보여주며, 단일 Refiner가 다양한 모델의 추론을 효과적으로 활성화할 수 있음을 입증했어요.

##LLM##추론##강화학습##ReQueR##정제기

매일 핵심 AI 소식을 한국어로, 빠르게