Pulse · AI 뉴스

RLVR 추론의 선택적 삭제를 위한 메커니즘 기반 방법론 MAST 제안

Qwen · 2026-06-18

연구진은 RLVR(Reinforcement Learning from Verified Responses)로 유도된 추론을 선택적으로 삭제하는 방법론 MAST(Mechanism-Aligned Selective Targeting)를 제안했어요.

MAST는 기존 방식보다 부작용을 줄이면서 특정 목표를 잊도록 설계되었으며, Qwen2.5-Math-1.5B 및 Qwen3-1.7B-Base 모델에서 효과를 보였어요.

MAST는 주의 집중(attention) 텐서를 순열 에너지, 업데이트 크기, 망각 기울기 결합 크기로 순위화하여 일부만 업데이트하며, MATH 문제 해결 능력은 약간 감소했지만 GSM8K 문제 해결 능력은 유지했어요.

##RLVR##MAST##Qwen##unlearning##reasoning

매일 핵심 AI 소식을 한국어로, 빠르게