Pulse · AI 뉴스

법률 판례 분석 LLM 벤치마크: Gemini 2.5 Flash와 GPT-5-mini 비교

Google · 2026-05-18

연구팀이 법률 판례 분석을 위한 새로운 평가 프레임워크를 제시했어요. 기존 정확도 문제점을 보완하기 위해, 전문가가 직접 라벨링한 239건의 실제 법률 인용 데이터를 활용했어요. 새로운 Average Severity Error 지표를 통해 분류 오류의 실제 영향을 측정할 수 있도록 설계됐어요.

Gemini 2.5 Flash는 전반적인 분류에서 79.1%의 정확도를 기록하며 가장 높은 성능을 보였어요. GPT-5-mini는 더 복잡한 세부 분류에서 67.7%의 정확도를 기록하며 상위권을 차지했어요.

이번 연구는 중요한 기준점을 제시하고, 새로운 맥락 기반 데이터셋과 평가 지표를 제공하며, 복잡한 법률 추론 작업의 요구사항에 맞춰졌어요.

##LLM##벤치마크##법률##Gemini##GPT-5
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기