연구진은 AI 에이전트의 금융 업무 수행 능력을 평가하는 새로운 벤치마크 'Herculean'을 공개했어요. Herculean은 트레이딩, 헤징, 시장 분석, 감사 등 4가지 금융 업무 워크플로우를 포함하고 있어요.
현재 에이전트는 트레이딩과 시장 분석에서는 비교적 잘 수행하지만, 헤징과 감사에서는 장기적인 조정, 상태 일관성, 구조적 검증의 어려움을 겪고 있어요.
연구 결과, AI 에이전트가 금융 추론을 신뢰할 수 있는 워크플로우 실행으로 전환하는 데 중요한 격차가 있음을 보여줘요.