연구진은 장문 요약 평가의 어려움을 해결하기 위해 LongSumEval이라는 새로운 평가 프레임워크를 제시했어요. LongSumEval은 질문-응답 방식을 활용하여 요약의 품질을 평가하고, 평가 결과에 따른 피드백을 제공하여 요약 개선을 돕는 방식이에요. 새로운 프레임워크는 기존 평가 지표보다 인간 평가와 더 높은 상관관계를 보이며, 자체 개선을 통해 요약 품질을 향상시키는 데 기여했어요.