Pulse · AI 뉴스

풍부한 피드백을 활용한 강화 학습: 분포형 DAgger

Reinforcement Learning · 2026-06-04

연구진은 강화 학습에서 단순한 정답/오답 이분법 대신 실행 추적, 도구 출력, 전문가 수정 등 풍부한 피드백을 활용하는 새로운 방법인 DistIL을 제시했어요.

DistIL은 기존 DAgger 알고리즘을 변형하여, 현재 정책에 따라 방문하는 상태에 대한 전문가 분포에 로컬 접근을 가능하게 하는 순방향 교차 엔트로피 객관 함수를 사용해요.

실험 결과, DistIL은 과학적 추론, 코딩, 어려운 수학 문제 해결 등 다양한 분야에서 기존 RLVR 및 자체 증류 기반 RL 방법보다 성능이 우수했어요.

##강화학습##DistIL##DAgger

매일 핵심 AI 소식을 한국어로, 빠르게