연구진은 베트남 법률 문서의 복잡성을 해결하기 위해 GPT-4o, Claude 3 Opus, Gemini 1.5 Pro, Grok-1 등 4개 LLM을 정확성, 가독성, 일관성 측면에서 평가했어요.
오류 분석 결과, Grok-1은 가독성과 일관성이 뛰어나지만 정확도가 낮고, Claude 3 Opus는 높은 정확도를 보이지만 미묘한 추론 오류가 많다는 점이 확인됐어요.
연구는 현재 LLM이 요약보다는 정확한 법률 추론 능력이 부족하다는 점을 강조하며, 정량적 벤치마크와 질적 분석을 결합한 평가 방법을 제시했어요.