연구진은 복잡한 금융 분야의 정량적 과제에 대한 LLM의 추론 능력을 평가하는 새로운 방법론과 벤치마크를 개발했어요. Time Series Augmented Generation (TSAG) 프레임워크를 통해 LLM 에이전트가 외부 도구를 활용하여 금융 시계열 분석을 수행하도록 했어요. GPT-4o, Llama 3, Qwen2 등 최신 LLM 에이전트들의 도구 선택 정확도, 신뢰성, 환각 현상 등을 비교 분석 결과를 공개했어요.