연구진은 논쟁 품질 평가에 LLM을 활용하는 방법을 연구했어요. 12개의 오픈 웨이트 LLM을 다양한 방식으로 테스트한 결과, Llama-70B 모델이 인간 전문가의 판단과 가장 높은 상관관계를 보였어요. LLM 예측은 안정적이며, 대부분의 경우 동일한 결과를 보여줘요.
논리적, 수사적, 변증법적 측면에서 논쟁 품질을 평가하는 페어와이즈 브래들리-테리 모델을 활용했어요. Llama-70B 모델은 Cohen's κ 0.493, Kendall/Pearson/Spearman 상관관계 0.327~0.477을 기록했어요.
다른 LLM들도 인간 전문가와 유사한 결과를 보여주며, 모델 크기나 종류에 관계없이 논쟁 품질의 핵심 요소를 부분적으로 이해하는 것으로 나타났어요.