연구진은 LLM 추론 비용 절감을 위한 'CAVEWOMAN'이라는 평가 프로토콜을 개발했어요. 사용자 프롬프트와 모델 응답 채널별 압축 효과를 측정했습니다. 출력 압축은 대부분 API 모델과 오픈 웨이트 모델에서 비용을 절감하는 효과가 있었지만, 입력 압축은 오히려 비용을 증가시키고 정확도를 떨어뜨렸어요. 텍스트 표면은 모델의 기준 응답과 달라졌으며, 여러 교정 시도에도 이러한 차이는 유지되어 LLM의 일관성 문제를 시사합니다.