연구진은 법률 LLM의 인용 오류 가능성을 평가하기 위해 LegalCiteBench라는 새로운 벤치마크를 공개했습니다. LegalCiteBench는 외부 정보 없이 인용을 회수하고 검증하는 능력에 초점을 맞추고 있으며, 약 24,000개의 평가 항목으로 구성되어 있습니다.
21개의 LLM을 평가한 결과, 정확한 인용 회수는 여전히 매우 어려운 과제로 나타났으며, 최고 성능 모델조차도 인용 회수 및 완성 항목에서 100점 중 7점 미만의 점수를 기록했습니다.
LegalCiteBench는 외부 정보가 없을 때 권위 생성 실패, 검증 행동, 그리고 회피에 대한 진단 프레임워크로 활용될 예정이며, 모델 규모 확대와 법률 도메인 사전 훈련은 이러한 어려움을 해결하지 못했습니다.