Pulse · AI 뉴스

텍스트 기반 에이전트의 샘플 효율적인 액션 선택을 위한 교차 환경 신경 재순위

DeBERTa-v3 · 2026-06-01

연구진은 다양한 환경에서 액션 선택을 수행하는 단일 경량 모델의 가능성을 조사했어요.

DeBERTa-v3 모델을 ALFWorld, WebShop, ScienceWorld 세 환경에서 공동 훈련한 결과, 환경 간 균형 잡힌 훈련이 단일 환경 훈련보다 성능이 향상됐어요.

교차 환경 적응은 샘플 효율성이 높아, 목표 환경 데이터의 9.2%만으로 전체 데이터 성능의 93%를 회복했어요.

세 환경 훈련은 환경별 결과가 특화된 단일 환경 모델에 근접하면서도 긍정적인 교차 도메인 전이 효과를 보여줬어요.

##LLM##에이전트##재순위##교차환경
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기