연구진은 AI 메타인지 평가를 위한 새로운 벤치마크 MEDLEY-BENCH를 공개했는데, 독립적인 추론, 사적 자기 수정, 사회적 영향 수정 과정을 평가합니다. MEDLEY-BENCH는 35개의 모델을 분석한 결과, 모델 크기가 커질수록 평가 능력은 향상되지만 통제 능력은 그렇지 않다는 점을 발견했습니다. 연구 결과, AI 모델의 메타인지 능력은 단순히 규모의 문제가 아니며, 향후 훈련은 보정된, 비례적인 업데이트를 장려해야 함을 시사합니다.