연구진은 AI 에이전트가 자신의 출력을 평가하는 피드백 루프에서 체계적인 편향이 발생한다고 밝혔어요.
GPT-4o를 사용하여 DeepSeek-chat의 텍스트 및 시각 작업 성능을 평가한 결과, 'step_by_step' 전략이 전체 가중치의 48.4%를 차지하며 텍스트 전용 자가 평가에서 관찰된 붕괴보다 3.2배 높은 수치를 보였어요.
새로운 현상인 교차 모달 전염을 입증했는데, 한 모달에서 습득한 평가 선호도가 다른 모달로 전파되어 전략 선택을 왜곡하는 현상이에요.
연구진은 4단계 격리 훈련 패러다임을 통해 전염 계수를 측정하고, 모달 교차 노출 후 전략이 역전되는 현상을 기록하며, 자가 평가가 전염에 거의 면역성을 제공한다는 사실을 밝혀냈어요.