이 논문은 LLM의 추론 학습을 최소한의 감독 신호로 확장하는 준지도 프레임워크를 제시합니다. LLM이 생성한 중간 추론 과정을 경량 검증기로 판단하여 데이터 생성 메커니즘으로 활용합니다. Orca-Math 및 GQA 데이터셋 실험 결과, 10~15배 더 많은 라벨 데이터를 사용하는 것과 유사한 정확도를 달성했습니다.
검증기와 엔트로피 기반 신뢰도 임계값은 모두 확장 가능하고 노이즈에 강한 준지도 학습에 필수적인 요소로 확인되었습니다. 기존의 답변 수준 감독을 경량 추론 검증으로 대체하여 대규모 추론 자원 구축을 위한 실용적인 방법을 제시합니다.
이 방법은 인간의 최소한의 입력으로 학습하는 미래의 자율 추론 시스템 개발의 길을 열어줍니다.