Pulse · AI 뉴스

APPO: 에이전트 절차적 정책 최적화

APPO · 2026-06-11

APPO는 에이전트 강화 학습에서 분기 지점과 신용 할당을 세분화된 결정 지점으로 이동시키는 방법입니다. 토큰 불확실성과 정책 기반 가능성 이득을 결합한 분기 점수(Branching Score)를 사용하여 목표 탐색을 가능하게 합니다. 절차 수준의 이점 스케일링을 통해 분기된 롤아웃 전반에 걸쳐 신용을 더 잘 분배합니다.

13개 벤치마크 실험에서 기존 에이전트 강화 학습 기준 성능을 약 4점 향상시켰습니다. 효율적인 도구 호출을 유지하면서 행동 해석 가능성도 유지합니다.

APPO는 기존 방법이 사용하는 툴 호출 경계나 고정 워크플로우와 같은 거친 단위 대신 시퀀스 내의 세분화된 결정 지점을 통해 분기 및 신용 할당을 수행합니다.

##강화학습##에이전트##APPO

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기