Pulse · AI 뉴스

사오지 않음: 최첨단 LLM이 표준화된 사무능력 시험을 통과할 수 있을까?

arXiv cs.CL · 2026-06-09

연구진은 LLM 에이전트의 사무 자동화 능력을 평가하기 위해 중국의 국가 컴퓨터 능력 시험(NCRE)을 기반으로 한 평가를 도입했어요.

7개의 최첨단 LLM을 벤치마크한 결과, 단일 턴 모델은 최대 36.6%에 그쳤고, 피드백 기반 에이전트 시스템은 68.8%를 기록했지만 여전히 기준점에는 미치지 못했어요.

실험 결과, 정밀한 사무 문서 자동화는 현재 코드 생성 LLM과 에이전트 시스템에게 여전히 큰 과제라는 것을 보여줘요.

##LLM##사무자동화##NCRE##벤치마크##에이전트

매일 핵심 AI 소식을 한국어로, 빠르게