Pulse · AI 뉴스

자신만의 실수에서 배우기: 자기 증류를 위한 학습 가능한 미세 반사 경로 구성

Trajectory-Augmented Policy Optimization (TAPO) · 2026-06-17

연구진은 자기 증류의 한계를 극복하기 위해 Trajectory-Augmented Policy Optimization (TAPO)를 제안했어요.

TAPO는 모델의 오류와 정답 경로를 활용해 오류 지점까지는 동일하게 유지하고, 자연어 진단 및 교정 추론을 삽입하는 미세 반사 교정 경로를 생성해요.

AIME 2024, 2025, HMMT 2025 데이터셋에서 GRPO보다 성능이 향상되었으며, 첫 번째 추론과 오류 수정 모두에서 효과적이에요.

##자기증류##TAPO##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게