Pulse · AI 뉴스

TW-LegalBench: 대만 법률 이해도 측정

TW-LegalBench · 2026-06-17

연구진이 대만 법률 시스템의 공식 자료를 활용한 LLM 평가 벤치마크 TW-LegalBench를 공개했어요.

TW-LegalBench는 객관식 문제, 주관식 에세이, 법원 판결 예측 세 가지 유형의 과제를 포함하며, 총 29,000여 개 항목으로 구성돼요.

현재 최고 성능 모델은 변호사 시험 합격률에 근접하지만 판사·검사 수준에는 미치지 못하며, 정확한 법 조항 인용에는 어려움을 겪는 것으로 나타났어요.

##LLM##벤치마크##대만법##법률
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기