Pulse · AI 뉴스

시뮬레이션의 함정: 도구 사용 에이전트를 위한 Sim-to-Real 벤치마크 및 도메인 랜덤화 RL 레시피

ToolRL-DR · 2026-05-12

연구진은 실제 환경에서 발생하는 도구 사용 에이전트의 오류를 sim-to-real POMDP 관점에서 분석하고, RobustBench-TC 벤치마크를 통해 22가지의 오류 유형을 제시했습니다.

모델 규모가 크다고 해서 오류에 강해지는 것은 아니며, 특히 보상 관련 및 전환 관련 오류가 정확도를 크게 떨어뜨리는 것으로 나타났습니다.

ToolRL-DR 레시피를 통해 도메인 랜덤화 RL을 적용하여 오류에 대한 강건성을 높였으며, 3B 모델로 14B 모델 수준의 성능을 달성하고 o4-mini 와의 격차를 좁혔습니다.

##에이전트##RL##벤치마크##도구사용##RobustBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기