Pulse · AI 뉴스

결정 트랜스포머의 RTG 조건화 방식 개선: 순차적 모델링 외부에 주입

Decision Transformer · 2026-05-07

연구진은 결정 트랜스포머(DT)의 효율성과 성능을 높이기 위해 RTG(Return-to-Go)를 순차 모델링에서 제외하고, 대신 상태 표현에 RTG 정보를 주입하는 SlimDT를 제안했습니다.

SlimDT는 RTG 정보를 상태 표현에 주입하여 (상태, 행동) 시퀀스만 처리하도록 하여 시퀀스 길이를 3분의 1 줄여 추론 효율성을 직접적으로 향상시켰습니다.

D4RL 벤치마크에서 SlimDT는 다양한 작업에서 표준 DT를 능가하고, 기존 최고 성능 수준에 견줄 만한 결과를 달성했습니다.

##결정트랜스포머##강화학습##오프라인강화학습##SlimDT

매일 핵심 AI 소식을 한국어로, 빠르게