Pulse · AI 뉴스

LLM, 역사학자처럼 기능할 수 있을까? 중국 과거 시험 기반 LLM 역사 연구 능력 평가

ProHist-Bench · 2026-04-28

연구진은 기존 LLM 평가 방식의 한계를 지적하며, 역사 연구에 필요한 증거 기반 추론 능력을 평가하는 새로운 벤치마크 ProHist-Bench를 개발했어요.

ProHist-Bench는 1300년 역사의 중국 과거 시험(Keju) 시스템을 기반으로, 8개 왕조 시대의 400개 난이도 높은 질문과 1만 891개의 평가 기준을 포함하고 있어요.

18개의 LLM 평가 결과, 최첨단 모델조차 복잡한 역사 연구 질문에 어려움을 겪는 것으로 나타났으며, ProHist-Bench를 통해 역사 연구 LLM 개발 및 잠재력 발굴을 기대하고 있어요.

##LLM##역사연구##벤치마크##ProHist-Bench##중국
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기