연구진은 강화 학습에서 단순한 이진 보상 대신 실행 추적, 도구 출력, 전문가 수정 등 풍부한 피드백을 활용하는 방법을 연구했어요.
분산형 DAgger(DistIL)는 전문가의 상태 분포에 대한 로컬 접근을 통해 순방향 교차 엔트로피 목표를 사용하며, 시퀀스 수준의 그래디언트를 통해 과거의 전문가-학생 간의 의견 불일치를 이전 결정으로 전달해 효과적인 신용 할당을 가능하게 해요.
실험 결과, DistIL은 과학적 추론, 코딩, 어려운 수학 문제 해결 등 다양한 분야에서 기존 RLVR 및 자체 증류 기반 강화 학습 방법보다 성능이 우수했어요.