Pulse · AI 뉴스

LLM 에이전트 계획 능력 진단 프레임워크: Agent Planning Benchmark (APB) 공개

Agent Planning Benchmark · 2026-06-03

연구진이 LLM 에이전트의 계획 능력을 진단하는 새로운 벤치마크인 Agent Planning Benchmark (APB)를 발표했어요. APB는 4,209개의 멀티모달 사례로 구성되어 있으며, 장기 계획, 피드백 기반 단계별 계획, 오류가 있는 도구 환경에서의 견고성 등 다양한 시나리오를 포함하고 있어요. APB 테스트 결과, 대부분의 LLM이 장기 계획, 도구 노이즈 강건성, 거절 정확도, 추론 시간 개선 등에서 약점을 보였어요.

##LLM##에이전트##벤치마크##계획##APB
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기