연구진은 도구 활용 강화 학습(RL) 과정에서 모델 성능이 급격히 저하되는 현상(catastrophic collapse)을 관찰했어요. 이는 특정 제어 토큰의 확률 급증으로 인해 구조적 실행이 중단되기 때문이며, 도구 활용 능력 자체는 손상되지 않았다는 것을 확인했어요.
다양한 감독 신호(오프폴리시 감독, 힌트 기반 가이드 등)를 활용해 RL 학습을 안정화하고 성능을 개선하는 방법을 연구했어요. 특히 감독 학습(SFT)과 RL을 번갈아 진행하는 방식이 효과적이었어요.
연구 결과는 복잡한 다단계 도구 활용 작업을 위한 LLM 학습 시 RL 실패 원인을 이해하고 감독 신호를 활용하는 것이 중요하다는 점을 강조해요. 코드와 자료는 GitHub에서 확인할 수 있어요.