LLM 평가의 중요성이 커짐에 따라, pairwise 평가 방식이 널리 사용되고 있어요. 하지만 프롬프트 비교 결과가 일관성을 갖지 못해 순위 결정에 어려움이 발생할 수 있습니다. 이 논문에서는 프롬프트 변형을 통해 LLM 평가의 구조적 일관성을 개선하는 프레임워크를 제안합니다.
프레임워크는 각 프롬프트의 변형된 버전을 생성하고, 비교 그래프를 활용해 일관성 없는 비교 패턴을 식별 및 필터링합니다. 필터링된 비교 결과에 표준 순위 결정 방법을 적용하여 순위의 안정성과 신뢰도를 높입니다.
새로운 프레임워크는 그래프 수준의 구조적 일관성을 평가 파이프라인에 명시적으로 통합하여 순환적 불일치를 줄이고 LLM 순위를 개선합니다.