연구진이 LLM의 메타인지 능력 부족 문제를 해결하기 위해 강화 학습 기반의 새로운 방법론을 제시했어요. 메타인지 피드백 강화 학습(RLMF)을 통해 LLM의 자기 평가 성능을 개선하고, 이를 바탕으로 모델의 불확실성을 정확하게 표현하도록 훈련했어요. RLMF는 기존 강화 학습보다 최대 63% 성능 향상을 보였으며, 모델이 자신의 능력 한계를 정확히 평가하고 표현하는 데 도움을 줘요.