Pulse · AI 뉴스

필터링 후 재가중치 부여: 온폴리시 증류 최적화 세분성 재고

FiRe-OPD · 2026-06-01

연구진은 온폴리시 증류(OPD)의 최적화 세분성을 재고하고, 불량 샘플을 필터링하고 유용한 토큰에 가중치를 부여하는 FiRe-OPD를 제안했어요.

FiRe-OPD는 하드 토큰 선택 대신 소프트 재가중치 메커니즘을 활용하여 정보 손실을 줄이고 최적화 안정성을 향상시켰어요.

강력-약, 단일-교사, 다중-교사 설정에서 FiRe-OPD는 기존 토큰 레벨 OPD 방법보다 성능이 우수했으며, AIME 2024에서 +6.25, Miner에서 +18.81의 성능 향상을 보였어요.

##LLM##증류##최적화##FiRe-OPD##온폴리시

매일 핵심 AI 소식을 한국어로, 빠르게