Pulse · AI 뉴스

숨겨진 상태 재귀의 비밀 해제: 온-정책 강화 학습을 이용한 전환 가능한 잠재적 추론

SWITCH · 2026-06-11

연구진이 Switchable Latent Reasoning (SWITCH) 프레임워크를 제안했어요. 이 프레임워크는 잠재적 추론 과정의 시작과 끝을 나타내는 경계 토큰을 사용해 온-정책 강화 학습(RL)을 가능하게 하고, 추론 과정을 분석할 수 있도록 설계됐어요.

SWITCH는 기존의 잠재적 추론 방식보다 성능이 뛰어나며, 문제 해결에 중요한 계산이 단일 숨겨진 상태 전환에 집중된다는 사실을 밝혀냈어요.

연구 결과는 잠재적 상태 재귀적 추론이 RL 학습이 가능하며, 내부 작동 방식에 대한 직접적인 분석도 가능하다는 것을 보여줘요.

##잠재적추론##강화학습##SWITCH##인공지능##연구

매일 핵심 AI 소식을 한국어로, 빠르게