Pulse · AI 뉴스

LLM 에이전트의 경험 기반 규칙과 정책 통합 학습

JERP · 2026-06-26

연구진은 다단계 상호작용 환경에서 LLM 에이전트의 경험 활용 문제를 해결하기 위해 경험 기반 규칙과 정책을 통합 학습하는 JERP (Joint Learning of Experiential Rules and Policies) 방법을 제시했어요.

JERP는 상호작용 기록을 활용해 정책을 개선하고, 동시에 경험 기반 규칙 풀을 업데이트하여 정책과 규칙을 일치시키며, 에이전트가 규칙과 상호작용 기록을 기반으로 의사 결정을 내리도록 해요.

AlfWorld와 WebShop 실험 결과, JERP는 복잡한 상호작용 작업에서 의사 결정 성능을 향상시키는 효과를 보였어요.

##LLM##에이전트##강화학습##규칙기반##AlfWorld
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기