Pulse · AI 뉴스

Metacognition as Reward: LLM 추론 강화 기술

Qwen · 2026-05-22

연구진이 LLM 추론 능력을 강화하는 새로운 RL 프레임워크 MaR(Metacognition-as-Reward)을 개발했어요.

MaR은 지식 기반 정보 식별과 추론 과정 조절을 통해 모델의 추론 과정을 안내하며, 기존 방식의 한계를 극복했어요.

실험 결과, MaR은 기존 모델 대비 최대 7.7% 성능 향상을 보였고, Qwen3.5-9B 모델은 GPT-OSS-120B를 능가하는 성과를 기록했어요.

##LLM##RL##Metacognition##추론

매일 핵심 AI 소식을 한국어로, 빠르게