연구진은 강화 학습과 검증 가능한 보상(RLVR)의 인간 호환성 문제를 해결하기 위해 Tandem 강화 학습(TRL)을 제안했어요.
TRL은 더 강력한 시니어 모델과 고정된 주니어 모델이 번갈아 가며 추론을 생성하고, 함께 보상을 받으며 학습하는 방식이에요.
Qwen3-4B-Instruct 모델을 활용한 실험 결과, TRL은 기존 방식과 유사한 추론 능력을 유지하면서도 주니어 모델과의 호환성을 높이고, 추론 과정의 가독성을 향상시키는 효과를 보였어요.