연구진은 배포된 AI 에이전트의 수명 주기 동안의 신뢰성 저하를 측정하는 새로운 벤치마크 AgingBench를 공개했어요.
AgingBench는 압축 노화, 간섭 노화, 수정 노화, 유지보수 노화 등 에이전트 노화의 4가지 메커니즘을 분석하고 진단 프로파일을 통해 문제 지점을 파악해요.
7가지 시나리오, 14개 모델, 다양한 메모리 정책, 그리고 runner-controlled 및 자율 에이전트에서 400번의 실행을 통해 에이전트 노화는 단순하지 않으며, 행동 테스트는 괜찮은 상태로 유지되면서 사실적 정확도가 감소할 수 있다는 점을 확인했어요.