Pulse · AI 뉴스

LLM 심판과 강화 학습 피드백을 활용한 에이전트 기반 주식 예측 시스템의 다차원 행동 평가

Claude · 2026-05-07

연구진은 에이전트 기반 주식 예측 시스템의 의사 결정 과정을 평가하기 위한 행동 평가 프레임워크를 개발했습니다. 이 프레임워크는 GPT 5.4, Claude Opus 4.6, Gemini 3.1 Pro 등 LLM 심판을 활용하여 시스템의 행동을 6가지 차원에서 평가합니다.

행동 평가 점수는 에피소드 간 보고에만 사용되며, 오프라인 백테스팅에서 실현된 20일 션샤프 비율과 0.72의 상관관계를 보입니다.

행동 평가 프레임워크는 시스템의 부족한 차원별 점수를 SAC 보상에 추가하여 시스템을 개선하고, 2017-2025 테스트 기간 동안 MAPE를 11.5% 줄이고 션샤프 비율을 18% 향상시켰습니다.

##LLM##강화학습##주식예측##에이전트##행동평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기