연구진은 AI 모델의 성능 격차를 고려한 새로운 모니터링 방식인 '부트스트랩 모니터링'을 제안했어요.
부트스트랩 모니터링은 투명한 추론 과정을 가진 중간 모델을 활용해 에이전트의 행동을 평가하고, 더 약한 신뢰 모델이 중간 모델의 추론 과정을 감시하는 방식이에요.
실험 결과, 부트스트랩 모니터링은 신뢰 모델만 사용할 때보다 협력적인 에이전트 감지율을 크게 향상시켰으며, AI 기술 발전과 함께 신뢰 모델의 유효 기간을 늘릴 수 있음을 보여줬어요.