Trata Inc. 가 실제 헤지 펀드 애널리스트의 업무 데이터를 기반으로 한 AI 에이전트 벤치마크 'Hedge-Bench 1.0'을 공개했어요. 기존 벤치마크는 전문가의 복잡한 추론 능력을 제대로 평가하지 못한다는 문제점을 개선했습니다. 최첨단 모델과 에이전트는 벤치마크에서 16% 미만의 낮은 점수를 기록했어요.
Hedge-Bench는 102개의 실제 업무 과제를 포함하며, 전문가의 추론 과정을 기반으로 객관적인 평가가 가능하도록 설계됐어요. 데이터셋과 평가 도구는 GitHub에서 공개됐습니다.
이번 벤치마크는 AI 에이전트가 금융 분야에서 더욱 복잡한 추론 능력을 갖추도록 돕고, 실제 업무에 적용될 수 있는 가능성을 평가하는 데 기여할 것으로 기대됩니다.