Pulse · AI 뉴스

다중 도메인 RL에서의 교차 도메인 간섭 및 복구에 대한 국소적 교란 이론

Reinforcement Learning · 2026-06-02

연구진은 단일 도메인 RL 훈련이 다른 도메인 성능을 저하시키는 현상에 대한 새로운 이론적 설명을 제시했어요.

이들은 도메인 간 간섭이 전역 기울기 충돌로 설명될 수 없으며, 오히려 국소적 교란 모델에 의해 발생하는 이차 손상에 기인한다고 밝혔어요.

수학-코드-질의응답-창작 쓰기 도메인 순서로 훈련했을 때, 짧은 수학 도메인 재훈련(refresh)을 통해 수학 성능을 복구하고 다른 도메인 성능을 유지하는 데 성공했어요.

##RL##LLM##간섭##복구##다중도메인
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기