연구진이 페르시아 문학 지식 평가를 위한 벤치마크 PersLitEval을 공개했어요. 4,514개의 객관식 질문으로 구성되며, 맞춤법, 문학 기법, 어휘 등 8가지 세부 범주를 포함해요. Claude Opus 4.7을 포함한 6개의 LLM을 10가지 프롬프트 전략으로 평가한 결과, 모델별로 세부 범주별 성능 차이가 컸어요. 설명과 함께 제공된 few-shot 예시가 가장 좋은 성능을 냈으며, 특히 형식적인 언어 범주에서 효과적이었어요.