Pulse · AI 뉴스

CAPF: 신뢰도 감쇠 우선 피드백으로 검색 에이전트 배포 안내

Qwen · 2026-06-01

연구진은 LLM 검색 에이전트의 학습 효율을 높이기 위해 신뢰도 감쇠 우선 피드백(CAPF)이라는 새로운 훈련 기법을 제안했어요.

CAPF는 에이전트의 오류를 수정하고 긍정적인 보상 경로를 생성하여 어려운 문제 해결 능력을 향상시키는 데 도움을 줘요.

실험 결과, CAPF를 적용한 Qwen3-4B 모델의 정확도 점수가 7개의 오픈 도메인 QA 벤치마크에서 48.5%로 향상됐어요.

##LLM##에이전트##강화학습##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기