연구진은 ForecastBench 벤치마크에서 최고 성능을 달성한 에이전트 기반 이진 예측 시스템인 BLF(Bayesian Linguistic Forecaster)를 개발했어요.
BLF는 LLM이 반복적인 도구 사용 루프에서 업데이트하는 자연어 증거 요약과 수치적 확률 추정치를 결합한 반정형 표현인 베이지안 언어적 신념 상태를 활용해요.
실험 결과, BLF는 Cassi, GPT-5, Grok~4.20, Foresight-32B 등 기존 최고 성능 모델들을 능가하는 것으로 나타났어요.