Pulse · AI 뉴스

자기 지도 검증: 학습 및 테스트 시간 자기 개선을 위한 방법

STV · 2026-05-29

연구진은 추론 모델의 자기 개선을 위한 새로운 방법인 자기 지도 검증(STV)을 제안했어요. STV는 모델이 스스로 생성한 오류를 감지하는 능력을 향상시켜 검증-수정 루프(V-R)와 자기 학습의 성능을 높이는 데 목표를 두고 있어요.

기존 검증 방식의 한계를 극복하기 위해, 모델이 참조 솔루션을 통해 오류를 감지할 수 있다는 점을 활용하여 검증기를 학습시켜 스스로의 판단을 모방하도록 만들었어요.

테스트 시간에서는 STV가 어려운 문제에 대한 V-R 루프를 크게 개선하고, 학습 시간에서는 검증기의 피드백을 활용한 ViL(verifier-in-the-loop) 훈련을 통해 성능을 더욱 향상시켰어요.

STV는 어려운 수학 문제에서 정확도를 두 배로 높이고, 과학적 추론 작업에서는 1.5%에서 21%로 14배 향상시키는 놀라운 성과를 보여주며, 자기 지도 검증이 추론 능력의 새로운 지평을 열 수 있음을 시사해요.

##자기지도##검증##추론##ViL##STV
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기