연구진은 코딩 에이전트의 성능을 결정하는 하니스 엔지니어링을 자동화하는 AHE(Agentic Harness Engineering) 프레임워크를 소개했어요.
AHE는 컴포넌트 관측성, 경험 관측성, 의사 결정 관측성이라는 세 가지 관측성 기둥을 통해 하니스 컴포넌트 편집, 트래jectory 검사, 의사 결정 과정을 자동화해요.
실험 결과, AHE는 Terminal-Bench 2에서 pass@1을 69.7%에서 77.0%로 끌어올려 인간 설계 하니스 Codex-CLI(71.9%)를 능가했어요.