연구진은 강화 학습(RL) 전문가 모델 병합의 어려움을 해결하기 위해 ResMerge 프레임워크를 제안했어요. 기존 방법이 주요 작업 신호가 선행 특이 방향에 있다고 가정하는 것과 달리, ResMerge는 선행 헤드와 잔차 구성 요소 모두 중요한 행동 지식을 복구한다고 밝혔어요. 선행 헤드는 정보가 풍부하지만 전문가 간 충돌 가능성이 높고, 잔차 구성 요소는 더 안정적인 기반을 제공해요.
ResMerge는 구면 잔차 합의 적응을 통해 안정적인 잔차 백본을 구축하고, 긍정적인 전문가 간 합의에 의해 게이트된 경량 헤드 수정 모듈을 통해 선행 헤드 정보를 재도입해요. 이를 통해 전문가 간 충돌을 완화하고 성능을 개선해요.
다양한 RL 전문가 그룹 및 역량 도메인에서 실험한 결과, ResMerge는 기존 방식보다 전문가 역량을 더 잘 보존하는 것으로 나타났으며, GitHub에서 구현 코드를 공개했어요.