연구진은 LLM 에이전트가 요청된 작업량을 완료할 때까지 지속적으로 작동하지 못하는 현상을 연구했어요. 이를 '양적 목표 지속성(QGP)'이라고 명명하고, PushBench 벤치마크를 통해 반복 작업, 중복 제출, 오탐지, 진행 방향 이탈 등을 측정했어요. 실험 결과, 상태 추적 및 작업 단위 추적 컨트롤러가 기존 방식보다 높은 성공률을 보였어요.
Claude Code (Sonnet 4.6) 및 Codex CLI (gpt-5.4)를 활용한 평가에서 50개의 아티팩트 작업은 성공적으로 수행했지만, 100개의 아티팩트 작업에서는 성공률이 감소했어요. 이는 양적 목표가 로컬 작업 능력과는 다른 신뢰성 요구 사항을 강조한다는 것을 보여줘요.
연구 결과, 에이전트는 검증된 진행 상황을 유지하고 요청된 작업이 완료될 때까지 중단해야 하는 것으로 나타났어요.