연구진은 다양한 환경에서 액션 선택을 수행하는 단일 경량 모델의 가능성을 조사했어요.
DeBERTa-v3 모델을 ALFWorld, WebShop, ScienceWorld 세 환경에서 공동 훈련한 결과, 환경 간 균형 잡힌 훈련이 단일 환경 훈련보다 성능이 향상됐어요.
교차 환경 적응은 샘플 효율성이 높아, 목표 환경 데이터의 9.2%만으로 전체 데이터 성능의 93%를 회복했어요.
세 환경 훈련은 환경별 결과가 특화된 단일 환경 모델에 근접하면서도 긍정적인 교차 도메인 전이 효과를 보여줬어요.