연구팀은 코드 LLM의 멀티태스크 강화 학습을 위한 ASTOR 프레임워크를 제안했습니다. ASTOR은 각 작업의 학습 잠재력과 상호 시너지를 나타내는 유틸리티 신호에 기반합니다.
ASTOR은 계층적 유틸리티 라우팅 데이터 스케줄링 모듈과 적응적 유틸리티 보정 정책 최적화 모듈로 구성되어, 학습 예산을 효율적으로 분배하고 정책 업데이트를 조정합니다.
실험 결과 ASTOR은 기존의 멀티태스크 강화 학습 방법보다 성능이 뛰어나며, 모든 작업에서 단일 모델의 성능을 향상시켰습니다.