Pulse · AI 뉴스

BigFinanceBench: 금융 연구 에이전트 워크플로우 기반 벤치마크

BigFinanceBench · 2026-06-03

BigFinanceBench는 금융 연구 작업의 감사 가능성을 평가하는 928개 항목의 새로운 벤치마크입니다. 기존 벤치마크와 달리, 답변뿐 아니라 답변 도출 과정을 세분화하여 평가합니다. 10개의 최첨단 모델을 평가한 결과, 최고 성능 모델도 58.8%의 루브릭 점수에 그쳤습니다.

BigFinanceBench는 전문가가 작성했으며, 각 항목은 참조 답변과 점수 기반 루브릭으로 구성되어 답변 도출 과정을 독립적으로 확인할 수 있도록 합니다. 이 벤치마크는 답변의 최종 결과물뿐 아니라 전체 도출 과정을 평가하는 워크플로우 기반입니다.

최고 성능 모델의 루브릭 점수가 낮고, 최종 답변 정확도가 도출 과정의 품질을 제대로 반영하지 못하는 것으로 나타났습니다. 모델의 역량은 금융 워크플로우에 따라 편차를 보입니다.

##금융##벤치마크##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기