연구진은 LLMLingua-2를 활용해 8B 파라미터 디퓨전 LLM인 LLaDA의 프롬프트 압축 성능을 평가했어요.
GSM8K, DUC2004, ShareGPT 데이터셋에서 수학적 추론, 프롬프트 재구성, 요약 작업을 수행하며 압축 효과를 분석했는데요. 압축률은 약 2배.
수학적 추론은 성능이 크게 저하되었지만 요약 작업은 비교적 안정적인 반면, BERTScore는 recall이 precision보다 낮아 정보 누락이 주요 원인으로 파악됐어요.