Pulse · AI 뉴스

신경 양자 상태 재조명: 강화 학습 관점

RWKV · 2026-07-03

연구진이 신경 양자 상태(NQS) 최적화에 강화 학습 기반 신뢰 영역 최적화(trust-region optimization) 기법을 적용하는 새로운 방법인 PWO(Proximal Wavefunction Optimization)를 제시했어요.

PWO는 기존 Adam이나 stochastic reconfiguration 방식보다 안정적이고 빠른 속도로 1.5B 파라미터 RWKV-7 모델을 최적화할 수 있으며, 기존 연구 대비 3배 이상의 규모로 NQS 최적화가 가능해요.

본 연구는 NQS 최적화를 변분 에너지 최소화 문제를 advantage policy-gradient 문제로 재해석하고, Born 분포에 대한 신뢰 영역 최적화를 통해 기존 방식의 한계를 극복하고자 했어요.

##신경양자상태##강화학습##최적화##RWKV

매일 핵심 AI 소식을 한국어로, 빠르게