연구진이 LLM의 장기 추론 과정에서 발생하는 자가 회귀 오류 문제를 해결하기 위해 새로운 강화 학습 방법인 E3RL을 제안했어요.
E3RL은 모델이 스스로 오류를 감지하고 수정하는 '자가 치유' 능력을 갖도록 설계되었으며, DeepMath-103k 데이터셋으로 학습했어요.
AIME 수학 문제 벤치마크에서 4B 및 8B 파라미터 모델이 기존 최고 성능 모델보다 각각 5.349% 및 6.514%의 성능 향상을 달성했어요.
E3RL은 장기 추론의 자가 회귀 오류를 극복하고 차세대 자가 치유 인공 일반 지능(AGI)의 기반을 마련할 것으로 기대돼요.