연구진은 강화 학습에서 정책이 스스로를 가르치는 자가 정렬 과정에서 모든 토큰에 KL 페널티를 적용하면 불필요한 위치에 그래디언트가 쓰이고, 외부 정보 유출이 심화되어 성능 저하를 일으킨다는 것을 발견했습니다.
TRACE (Token-Routed Alignment for Critical rEasoning)는 주석 처리된 핵심 구간에만 증류를 적용하여, 올바른 실행 과정의 핵심 구간에 순방향 KL을 적용하고, 오류 구간에 역방향 KL을 선택적으로 적용하며, 나머지 토큰에는 GRPO를 적용하는 방식으로 설계되었습니다.
TRACE는 4개의 수학 벤치마크와 GPQA-Diamond에서 GRPO보다 평균 2.76% 성능을 향상시켰으며, GRPO와 모든 토큰을 사용하는 자가 OPD 기준선에 비해 GPQA-Diamond에서 OOD 점수를 유지했습니다.