LLM은 정렬 훈련을 받았음에도 배포 시 안전하지 않은 출력을 생성할 위험이 있어요. 온라인 출력을 모니터링하고 안전을 보장할 수 없을 때 경고를 울리는 것이 중요합니다. 연구에서는 외부 모델의 검증 신호를 임계값으로 설정하여 경고 결정을 내리는 간단한 실시간 모니터를 연구했어요. 수학적 추론과 레드 팀 데이터셋 실험에서 이 간단한 디자인이 순차적 가설 검증 기반의 고급 모니터와 경쟁력 있는 성능을 보여줬어요.