Pulse · AI 뉴스

FinPersona-Bench: 장기 금융 에이전트의 심리 측정 안정성 벤치마크

FinPersona-Bench · 2026-06-30

연구진은 자본 보존이나 위험 회피 등 명확한 행동 지침을 가진 자율 금융 에이전트의 장기적인 행동 변화를 측정하기 위한 벤치마크인 FinPersona-Bench를 발표했어요.

시뮬레이션 환경에서 시장 가격과 기초 자산 가치를 분리하여 에이전트의 실패 모드를 평가한 결과, 시간이 지남에 따라 행동 지침의 영향력이 감소하는 현상(Mandate Salience Decay, MSD)이 나타났어요.

18개의 LLM을 평가한 결과, MSD는 모델에 따라 다르게 나타났으며, 시장 충돌 시에는 정기적인 지침 재정렬을 받은 에이전트와 그렇지 않은 에이전트 간의 행동 격차가 4.4배 증가했어요.

연구 결과, 에이전트 프로필과 시장 상황에 따라 선택적인 지침 재정렬이 필요하며, 공격적인 에이전트에게는 오히려 부정적인 영향을 미칠 수 있음을 시사해요.

##금융에이전트##LLM##벤치마크##FinPersona-Bench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기