Pulse · AI 뉴스

유추 기반 추론 능력 향상을 위한 검색 강화 강화 학습 미세 조정

Qwen · 2026-06-12

연구진은 복잡한 추론에 적합한 검색을 위해 Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT) 프레임워크를 제안했어요.

RA-RFT는 추론 이점을 기준으로 맥락을 순위화하는 검색기를 학습하고, 검색된 유사한 데모를 통해 정책 모델을 강화 학습 방식으로 미세 조정해요.

AIME 2025 벤치마크에서 RA-RFT는 기존 강화 학습 방법보다 평균@32 정확도가 7.1~2.8 포인트 향상된 결과를 보여줬어요.

##추론##강화학습##검색##미세조정##RA-RFT

매일 핵심 AI 소식을 한국어로, 빠르게