Pulse · AI 뉴스

두 단계 증류를 통한 다중 작업 에이전트 LLM 구축

arXiv cs.LG · 2026-06-29

본 연구는 여러 작업을 수행할 수 있는 모델 구축을 위해 분리된 RL 전문가를 먼저 훈련한 후 증류를 통해 통합하는 방법을 연구해요. 다중 작업 환경에서 오프라인 증류는 모델의 용량을 초과하는 행동 모드를 도입하여 성능을 저하시킨다는 것을 확인했어요. 이에 따라 오프라인 증류 후 온라인 정제라는 두 단계 접근 방식을 제안했어요.

대화형 에이전트와 텍스트 기반 게임 평가 결과, 두 단계 접근 방식은 개별 작업에 대한 단일 작업 RL 전문가 성능과 일치하는 반면, 오프라인 또는 온라인 증류만으로는 이러한 성능을 달성하지 못했어요. 이 방법은 인공 일반 지능을 향한 중요한 단계로 평가돼요.

연구팀은 두 단계 증류 방식이 기존 증류 방식의 한계를 극복하고, 다중 작업 환경에서 모델의 성능을 향상시키는 효과적인 방법임을 입증했어요.

##LLM##RL##증류##에이전트##다중작업

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기