Pulse · AI 뉴스

숨겨진 상태 재귀의 비밀 해제: 온-정책 강화 학습을 이용한 전환 가능 잠재적 추론

SWITCH · 2026-06-11

연구진은 기존 방식의 잠재적 추론 방식의 최적화 및 해석 어려움을 해결하기 위해 SWITCH라는 새로운 프레임워크를 제안했어요.

SWITCH는 명시적인 경계 토큰을 사용하여 잠재적 블록을 표준 온-정책 강화 학습에 적합하게 만들고, 잠재적 단계를 직접적으로 조사하고 원인 개입할 수 있도록 했어요.

실험 결과, SWITCH는 기존 방식보다 우수한 성능을 보였으며, 잠재적 단계가 문제별로 중요한 계산을 수행한다는 사실을 밝혀냈어요.

##잠재적추론##강화학습##SWITCH##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기