Pulse · AI 뉴스

HINT-SD: 장기 과제 에이전트 훈련을 위한 표적 백투백 증류

HINT-SD · 2026-05-18

연구진은 강화 학습을 이용한 장기 과제 LLM 에이전트 훈련의 어려움을 해결하기 위해 HINT-SD라는 표적 백투백 증류 프레임워크를 제안했어요.

HINT-SD는 전체 경로를 활용해 실패와 관련된 행동을 선택하고, 표적 행동 구간에만 피드백 기반 증류를 적용하는 방식이에요.

BFCL v3와 AppWorld 실험 결과, 기존의 밀도 높은 피드백 방식보다 최대 18.8% 성능을 향상시키고 훈련 시간은 2.26배 단축했어요.

##강화학습##LLM##에이전트##HINT-SD

매일 핵심 AI 소식을 한국어로, 빠르게