연구진이 신경 양자 상태(NQS) 최적화에 강화 학습 기반 신뢰 영역 최적화(trust-region optimization) 기법을 적용하는 새로운 방법인 PWO(Proximal Wavefunction Optimization)를 제시했어요.
PWO는 기존 Adam이나 stochastic reconfiguration 방식보다 안정적이고 빠른 속도로 1.5B 파라미터 RWKV-7 모델을 최적화할 수 있으며, 기존 연구 대비 3배 이상의 규모로 NQS 최적화가 가능해요.
본 연구는 NQS 최적화를 변분 에너지 최소화 문제를 advantage policy-gradient 문제로 재해석하고, Born 분포에 대한 신뢰 영역 최적화를 통해 기존 방식의 한계를 극복하고자 했어요.