Pulse · AI 뉴스

Ask Now, Use Later: 장기 LLM 에이전트의 선제성 격차 벤치마크

OpenClaw · 2026-05-27

OpenClaw와 같은 장기 LLM 에이전트는 사용자의 선호와 제약 조건을 세션 전체에서 활용해야 합니다. 하지만 현재 에이전트는 사용자가 제공하는 정보 외에 추가 질문을 하지 않아 선제성 격차가 발생합니다. ATRBench는 에이전트가 현재 작업에는 필요 없지만 향후 세션에서 유용한 사용자 선호도를 미리 질문하는 Ask-to-Remember(ATR)를 측정하는 최초의 벤치마크입니다.

8개의 최첨단 LLM 에이전트 테스트 결과, 기본 성능은 관련 선호도를 알고 있는 오라클보다 62점 이상 낮았습니다. 진단 결과, 정보 습득이 주요 병목 현상으로 확인되었습니다. ATRBench는 현재 에이전트의 선제성 격차를 드러내고 이를 해소하기 위한 진단 테스트베드를 제공합니다.

ATRBench는 사용자의 선호도를 숨겨진 진실로 고정하여 성공 여부를 측정하고, 에이전트가 질문하는 능력을 평가합니다.

##LLM##에이전트##벤치마크##선제성##ATRBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기