연구자가 8개의 LLM을 테이블탑 게임 마스터(GM)로 테스트한 결과, 270억 파라미터 모델인 Gemma 3 27B가 405억 파라미터 모델인 Hermes 405B보다 내러티브 품질에서 더 높은 점수를 받았습니다.
테스트는 모델의 내러티브 품질을 평가하기 위해 설계되었으며, 6개의 GM 시나리오를 통해 모델의 분위기 조성 능력, NPC 묘사, 장면 관리 등을 측정했습니다.
결과적으로, 더 큰 모델이 항상 더 나은 내러티브 품질을 제공하는 것은 아니며, 27B 모델은 로컬 추론 환경에서 경쟁력 있는 성능을 보여주었습니다.