연구진은 LLM 에이전트의 회귀를 정확히 파악하기 위한 레이어별 격리 평가 방법을 제시했어요. 이는 온톨로지, 의도, 라우팅 등 8가지 레이어로 분해하여 각 레이어를 독립적으로 테스트하는 방식이에요.
개발된 테스트 하네스는 238개의 테스트 케이스를 2.39초 안에 실행하며, 회귀 발생 시 해당 레이어의 성능 저하를 정확하게 감지할 수 있어요.
회귀 주입 실험 결과, 특정 레이어의 오류가 다른 레이어에 영향을 미치지 않고, 집계 통계에서는 회귀를 감지하기 어려울 수 있다는 점이 확인되었어요.