Pulse · AI 뉴스

RODS: 보상 기반 온라인 데이터 합성으로 멀티턴 툴 사용 에이전트 성능 향상

RODS · 2026-06-17

연구진은 멀티턴 툴 사용 강화 학습(RL) 훈련 시 정적 데이터셋의 유용한 샘플이 빠르게 고갈되는 문제를 해결하기 위해 RODS(Reward-driven Online Data Synthesis)를 제안했어요.

RODS는 RL 훈련과 데이터 생성의 루프를 닫아, 훈련 과정에서 정책 경계를 실시간으로 감지하고, 복잡성을 고려한 새로운 멀티턴 변형을 합성하며, 정책과 함께 진화하는 동적 리플레이 버퍼를 관리해요.

RODS는 400개의 인간 시드에서 시작하여 약 800개의 샘플을 활성 훈련 풀로 유지하며, 17K 샘플 오프라인 파이프라인과 유사한 성능을 내면서 20배 적은 트래젝토리를 사용해요.

##RL##에이전트##데이터합성

매일 핵심 AI 소식을 한국어로, 빠르게