연구진은 LLM 에이전트의 사무 자동화 능력을 평가하기 위해 중국의 국가 컴퓨터 능력 시험(NCRE)을 기반으로 한 평가를 도입했어요. 7개의 최첨단 LLM을 벤치마크한 결과, 단일 턴 모델은 최대 36.6%에 그쳤고, 피드백 기반 에이전트 시스템은 68.8%를 기록했지만 여전히 기준점에는 미치지 못했어요. 실험 결과, 정밀한 사무 문서 자동화는 현재 코드 생성 LLM과 에이전트 시스템에게 여전히 큰 과제라는 것을 보여줘요.