연구진이 복잡한 추론 과정에서 발생하는 오류 전파 문제를 해결하기 위해 ReLAR 프레임워크를 제안했어요. ReLAR는 디코딩 전에 은닉 표현을 반복적으로 업데이트하여 추론 안정성을 높여요. 정책 경사 방법으로 학습된 컨트롤러를 통해 입력에 따라 필요한 정제 단계를 조절해 효율적인 추론이 가능해요.
의료, 수학, 다중 홉 추론, 개방형 생성 벤치마크에서 정확도, 생성 품질, 추론 안정성을 개선하고 기존 방식보다 낮은 추론 오버헤드로 작동해요. ReLAR는 128K 컨텍스트를 지원하며, 기존 방식 대비 효율적인 추론이 가능해요.