연구진은 에이전트 강화 학습(RL) 훈련 과정에서 불필요한 도구 사용 증가와 모델의 고유 지식 경계 흐려짐 문제를 확인했어요.
AKBE(Agentic Knowledge Boundary Enhancement)는 훈련 시 양방향(도구 사용/미사용) 시뮬레이션을 통해 모델의 고유 지식 경계를 동적으로 탐색하는 기법이에요.
AKBE는 7개의 QA 벤치마크에서 기존 에이전트 RL 대비 작업 정확도 1.85% 향상, 도구 사용 횟수 18% 감소, 도구 생산성 25% 향상 효과를 보였어요.