Pulse · AI 뉴스

LegalCiteBench: 법률 LLM의 인용 정확성 평가 벤치마크

LegalCiteBench · 2026-05-11

연구진은 법률 LLM의 인용 오류 가능성을 평가하기 위해 LegalCiteBench라는 새로운 벤치마크를 공개했습니다. LegalCiteBench는 외부 정보 없이 인용을 회수하고 검증하는 능력에 초점을 맞추고 있으며, 약 24,000개의 평가 항목으로 구성되어 있습니다.

21개의 LLM을 평가한 결과, 정확한 인용 회수는 여전히 매우 어려운 과제로 나타났으며, 최고 성능 모델조차도 인용 회수 및 완성 항목에서 100점 중 7점 미만의 점수를 기록했습니다.

LegalCiteBench는 외부 정보가 없을 때 권위 생성 실패, 검증 행동, 그리고 회피에 대한 진단 프레임워크로 활용될 예정이며, 모델 규모 확대와 법률 도메인 사전 훈련은 이러한 어려움을 해결하지 못했습니다.

##법률LLM##인용오류##LegalCiteBench

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기