연구진은 LLM이 논쟁의 강점을 평가하는 자동 심판으로 활용되면서 일관성, 투명성, 논리 구조와 수사학적 호소가 분리되는 것이 중요하다고 강조했어요. 하지만 LLM이 전체적인 판결을 내리는 방식은 모델 간 의견 불일치가 심각한 문제를 야기하는 것으로 나타났어요. GRASP는 상호작용 그래프 기반의 결정적 프레임워크로, 안정적인 로컬 상호작용 판단을 공격-방어 전파 연산자를 통해 수렴적으로 통합하여 글로벌 순위를 결정해요.
GRASP는 로컬 상호작용 판단이 전체적인 순위보다 더 재현 가능하며, 이를 통해 더 일관된 글로벌 순위를 제공하며, 인간의 '설득력' 레이블과 상관관계가 없다는 점을 보여줘요. 이는 GRASP가 설득력, 사실성, 수사학적 호소 대신 상호작용 그래프 기반의 논리적 충분성을 측정한다는 것을 의미해요.
연구진은 GRASP가 투명하고 감사 가능한 LLM 심판 방식의 대안을 제시하며, LLM이 논쟁의 구조적 충분성을 평가하는 데 집중하도록 설계되었음을 강조했어요.