연구자가 Karpathy 프레임워크에 기반한 LLM 실험을 진행했어요. 코드 컴파일, JSON 추출 등 검증 가능한 작업은 안전하고, 창작 글쓰기 등 검증 불가능한 작업은 위험하다고 해요.
Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B 모델을 사용했는데, 검증 가능한 작업에서는 약한 모델도 검증기를 통해 높은 성능을 낼 수 있었어요.
다만, 추론 과정이 필요한 작업에서는 모델 간 성능 차이가 컸고, JSON 스키마 오류로 인해 Claude가 초기 성능을 저조하게 보였던 경험을 통해 검증기의 중요성을 강조했어요.