대규모 언어 모델은 최소 중간 수준의 법률 텍스트를 생성하지만, 교리적 법률 추론을 평가할 수 있는 벤치마크는 아직 없습니다. 교리적 법률 추론은 법률 업무의 해석 핵심을 이루며, 대부분의 현재 법률 AI 평가는 부수적인 업무를 측정합니다.
이 측정 격차는 방법론적일 뿐만 아니라 법적인 문제이기도 합니다. EU AI 법은 사법 영역에서 사용되는 고위험 AI에 대해 '적절한 정확성'을 구속력 있는 요건으로 규정하지만, 이 요건은 해당 분야에 부족한 교리적 추론 벤치마크 없이는 실질적인 내용을 갖출 수 없습니다.