연구진은 다양한 통제된 텍스트 생성(CTG) 시스템을 공정하게 비교 평가하기 위해 레벨-플레이잉-필드(LPF) 평가 방법을 개발했어요. LPF 평가를 통해 기존 CTG 시스템의 성능이 기존 보고서보다 낮게 평가되었으며, 이는 표준화된 평가 방법의 중요성을 강조해요. 연구 결과, 통제된 텍스트 생성 분야에서 표준화된 재현 가능한 평가 관행의 필요성이 절실히 요구됨을 보여줘요.