생성형 AI 평가는 벤치마크가 모델을 단순히 측정하는 것이 아니라, 모델의 모습을 형성하는 방식으로 작용해요. 본 논문은 생성형 AI를 다원주의 사회기술 시스템으로 평가하는 새로운 프레임워크인 MaSH 루프를 제시하고, 기존의 기능주의적 접근 방식의 한계를 지적해요. MaSH 루프는 모델, 사용자, 기관이 상호 작용하며 의미와 가치를 공동으로 구성하는 과정을 추적하며, 평가를 출력 판단에서 상호 작용 방식 분석으로 전환해요.