Pulse · AI 뉴스

SENTINEL: 실패 기반 강화 학습으로 도구 사용 언어 모델 에이전트 훈련

Qwen · 2026-06-11

SENTINEL은 도구 사용 언어 모델 에이전트 훈련의 어려움을 해결하기 위해 실패 기반 강화 학습 프레임워크를 제안합니다. 컨트롤러는 실패한 트레이커리를 분석하고, 제안자는 약점을 강조하는 실행 가능한 작업을 생성하며, 솔버는 목표 작업으로 훈련합니다.

Tau2-Bench Retail에서 Qwen3-4B-Thinking-2507을 사용했을 때, SENTINEL은 Pass^1을 66.4에서 74.9로 개선했습니다. 일반적인 합성 작업에서 Pass^k 지표를 통해 RL을 능가했습니다.

모델 실패는 도구 사용 언어 모델 에이전트 개선을 위한 효과적이고 확장 가능한 훈련 신호원입니다.

##강화학습##언어모델##에이전트##도구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기