LLM 연구에서 모델 출력에 인간 같은 속성을 부여하는 의인화 평가는 해석에 따라 편향될 수 있다는 지적이 나왔어요. Age of Empires II 게임 내 단순 신경망 구현·훈련 사례는 LLM과 유사한 기질로서의 가능성을 보여줬다고 해요. 연구 결과는 LLM 평가 시 객관적인 기준 마련의 중요성을 강조하고 있어요.