Pulse · AI 뉴스

WorkstreamBench: LLM 에이전트의 금융 스프레드시트 작업 평가

Claude · 2026-05-22

연구진은 LLM 에이전트의 엔드투엔드 스프레드시트 작업 능력을 평가하는 WorkstreamBench를 공개했어요. 기존 벤치마크는 질문 답변이나 단일 수식 편집에 집중했지만, WorkstreamBench는 금융 모델링, 예측, 시나리오 분석 등 핵심 워크플로우를 측정해요.

평가 기준은 정확성, 수식, 형식의 세 가지 차원으로 구성되며, 전문적인 기준을 반영한 세부 기준을 포함해요. Claude 패밀리가 벤치마크에서 선두를 달렸지만, 복잡도가 높아질수록 성능이 저하되는 한계가 있어요.

현재 LLM 에이전트는 실무 워크플로우 수준의 복잡도를 가진 전문적인 스프레드시트를 안정적으로 생성하기 어렵다는 점을 시사해요. WorkstreamBench는 LLM 에이전트의 스프레드시트 작업 능력을 평가하고 개선 방향을 제시하는 데 기여할 것으로 기대돼요.

##LLM##에이전트##스프레드시트##금융##WorkstreamBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기