Pulse · AI 뉴스

풍부한 피드백을 활용한 강화 학습: 분산형 DAgger

Reinforcement Learning · 2026-06-03

연구진은 강화 학습에서 단순한 이진 보상 대신 실행 추적, 도구 출력, 전문가 수정 등 풍부한 피드백을 활용하는 방법을 연구했어요.

분산형 DAgger(DistIL)는 전문가의 상태 분포에 대한 로컬 접근을 통해 순방향 교차 엔트로피 목표를 사용하며, 시퀀스 수준의 그래디언트를 통해 과거의 전문가-학생 간의 의견 불일치를 이전 결정으로 전달해 효과적인 신용 할당을 가능하게 해요.

실험 결과, DistIL은 과학적 추론, 코딩, 어려운 수학 문제 해결 등 다양한 분야에서 기존 RLVR 및 자체 증류 기반 강화 학습 방법보다 성능이 우수했어요.

##강화학습##분산형DAgger##DistIL##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기