LegalHalluLens는 법률 워크플로우에 배포된 AI 시스템의 환각을 감사하는 프레임워크입니다.
유형별 환각 프로필, 위험 방향 지수(RDI), 유형별 토론 파이프라인의 세 가지 구성 요소를 포함합니다.
510개의 계약서와 249,252개의 조항 수준 인스턴스를 분석한 결과, 의무/숫자와 시간 청구 간에 38~40pp의 격차가 있다는 사실이 밝혀졌습니다.
다중 에이전트 토론 파이프라인은 측정된 실패 모드에 대한 비대칭 게이트를 사용하여 일반적인 튜닝 토론보다 성능이 우수합니다.