연구에 따르면 코드 에이전트의 복잡한 솔루션 생성은 쉬워졌지만, 이를 신뢰성 있게 검증하는 것이 더 어려워졌습니다. 현재 검증기는 인간의 의도를 완벽하게 반영하지 못하며, 자연스럽게 의도가 명확하지 않아 검증이 어렵고, 모델 훈련 과정에서 검증 신호와 의도 간의 격차가 커집니다. 연구에서는 검증 신호의 품질을 확장성, 충실성, 안정성 세 가지 측면에서 분석하고, 이 세 가지를 동시에 달성하는 것이 핵심 과제임을 강조합니다.