LLM 에이전트 계획 능력 진단 프레임워크: Agent Planning Benchmark (APB) 공개
Agent Planning Benchmark · 2026-06-03
연구진이 LLM 에이전트의 계획 능력을 진단하는 새로운 벤치마크인 Agent Planning Benchmark (APB)를 발표했어요. APB는 4,209개의 멀티모달 사례로 구성되어 있으며, 장기 계획, 피드백 기반 단계별 계획, 오류가 있는 도구 환경에서의 견고성 등 다양한 시나리오를 포함하고 있어요. APB 테스트 결과, 대부분의 LLM이 장기 계획, 도구 노이즈 강건성, 거절 정확도, 추론 시간 개선 등에서 약점을 보였어요.