연구진은 Self-Improving Alignment (SAIL) 알고리즘의 수렴 문제를 분석하고 SAIL-RevKL이라는 개선된 알고리즘을 제안했어요. SAIL-RevKL은 기존 SAIL의 Hessian 문제를 해결하기 위해 역 KL 발산 페널티를 도입했어요.
SAIL-RevKL은 Polyak-Lojasiewicz (PL) 조건을 만족하며, 전역 수렴 보장과 near-linear sample complexity를 달성했어요.
MuJoCo 벤치마크와 LLM 정렬 작업에서 기존 SAIL보다 성능이 우수함을 실험적으로 검증했어요.