Pulse · AI 뉴스

AgentV-RL: 에이전트 기반 검증기를 활용한 보상 모델링 확장

Agentic Verifier · 2026-04-17

연구진은 LLM 추론 능력 향상을 위해 검증기(Verifier)를 활용하는 방법인 테스트-타임 스케일링(TTS)을 제시했어요.

Agentic Verifier는 보상 모델링을 다단계, 도구 활용적 의사 결정 과정으로 전환하여 오류 전파와 외부 지식 부족 문제를 해결해요.

AgentV-RL은 강화 학습을 통해 검증기가 자체적으로 도구 사용과 내부 추론을 반복하도록 훈련하여, 기존 ORM보다 25.2% 높은 성능을 달성했어요.

##에이전트##검증기##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게