연구진은 도메인 전문화가 LLM의 수직 도메인 행동을 개선하지만 일반적인 능력을 약화시키는 경향이 있다는 점에 주목했어요.
기존 MOPD는 교사-정렬된 프롬프트 커버리지를 가정하지만, 이는 교사 모델의 사후 훈련 데이터가 알려지지 않은 오픈소스 모델의 경우 어렵습니다.
CaMOPD는 분리된 교차 훈련과 격차 기반 샘플 선택을 통해 복구-보존 카운터액션과 약한 신호 평탄화를 해결하여 일반 능력 회복과 도메인 보존을 동시에 달성합니다.
역할극 대화 및 의료 추론 QA 시나리오에서 CaMOPD는 기본 모델보다 일반적인 회복에서 우수한 성능을 보이며 도메인별 행동을 유지합니다.