Pulse · AI 뉴스

LLM 추론의 자가 회귀 오류 극복: 동적 인식 엔트로피 조율 삭제형 강화 학습

E3RL · 2026-06-16

연구진이 LLM의 장기 추론 과정에서 발생하는 자가 회귀 오류 문제를 해결하기 위해 새로운 강화 학습 방법인 E3RL을 제안했어요.

E3RL은 모델이 스스로 오류를 감지하고 수정하는 '자가 치유' 능력을 갖도록 설계되었으며, DeepMath-103k 데이터셋으로 학습했어요.

AIME 수학 문제 벤치마크에서 4B 및 8B 파라미터 모델이 기존 최고 성능 모델보다 각각 5.349% 및 6.514%의 성능 향상을 달성했어요.

E3RL은 장기 추론의 자가 회귀 오류를 극복하고 차세대 자가 치유 인공 일반 지능(AGI)의 기반을 마련할 것으로 기대돼요.

##LLM##강화학습##자가치유##AGI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기