연구진은 이질적인 LLM 정책이 서로 유형화된 경험을 교환하면서 개별 파라미터, 목표, 토크나이저를 유지하는 동시 RL 사후 훈련 프레임워크인 상호 강화 학습(Mutual Reinforcement Learning)을 소개했습니다.
Shared Experience Exchange (SEE), Multi-Worker Resource Allocation (MWRA), 토크나이저 이질성 레이어(THL)를 결합하여 텍스트를 재토큰화하고 호환되지 않는 어휘 간 토큰 수준 추적을 정렬합니다.
실험 결과, 결과 수준의 공유가 안정성-지원 균형의 유리한 지점을 차지했습니다.