연구진이 LLM 추론 능력을 강화하는 새로운 RL 프레임워크 MaR(Metacognition-as-Reward)을 개발했어요. MaR은 지식 기반 정보 식별과 추론 과정 조절을 통해 모델의 추론 과정을 안내하며, 기존 방식의 한계를 극복했어요. 실험 결과, MaR은 기존 모델 대비 최대 7.7% 성능 향상을 보였고, Qwen3.5-9B 모델은 GPT-OSS-120B를 능가하는 성과를 기록했어요.