연구진은 결과만으로 평가하는 방식이 경제적으로 안전하지 않은 에이전트를 인증할 수 있다고 지적했어요. 호텔 가격 책정에서 숨겨진 경쟁자 상태를 가진 학습 모델이 수익을 늘리면서 규칙 기반 경쟁사의 가격 규율을 지키지 못하는 현상을 확인했어요.
추적 기반 평가 패러다임인 '규율 안정성'을 도입하여 벤치마크 행동을 정의하고, 배포 환경을 제한하며, 실패로부터 추적 진단을 유도하고, 능동적인 분리 및 테스트를 수행해요.
추적 우선 RL은 용량 비대칭 하에서 제한적인 적응을 가능하게 하며, 순수한 행동 복제는 대칭적 모방에 거의 충분해요.