Pulse · AI 뉴스

π-Bench: 장기 워크플로우에서 선제적 개인 비서 에이전트 평가

OpenClaw · 2026-05-19

연구진은 OpenClaw와 같은 개인 비서 에이전트의 잠재력 증가에 주목하며, 사용자의 숨겨진 의도를 파악하고 선제적으로 지원하는 능력 평가를 위한 벤치마크 π-Bench를 발표했어요.

π-Bench는 5가지 사용자 페르소나의 100가지 멀티턴 작업을 포함하며, 숨겨진 사용자 의도, 작업 간 의존성, 세션 연속성을 반영하여 장기적인 상호작용에서 에이전트의 선제적 의도 해결 능력을 평가해요.

실험 결과, 선제적 지원은 여전히 어려운 과제이며, 작업 완료와 선제성 사이에 명확한 차이가 존재하며, 이전 상호작용이 후속 작업에서 선제적 의도 해결에 유용함을 확인했어요.

##에이전트##벤치마크##LLM

매일 핵심 AI 소식을 한국어로, 빠르게