연구진은 RLVR(Reinforcement Learning from Verified Responses)로 유도된 추론을 선택적으로 삭제하는 방법론 MAST(Mechanism-Aligned Selective Targeting)를 제안했어요.
MAST는 기존 방식보다 부작용을 줄이면서 특정 목표를 잊도록 설계되었으며, Qwen2.5-Math-1.5B 및 Qwen3-1.7B-Base 모델에서 효과를 보였어요.
MAST는 주의 집중(attention) 텐서를 순열 에너지, 업데이트 크기, 망각 기울기 결합 크기로 순위화하여 일부만 업데이트하며, MATH 문제 해결 능력은 약간 감소했지만 GSM8K 문제 해결 능력은 유지했어요.