연구진은 터미널 에이전트가 명령을 내리고 결과를 기록하는 과정에서 환경 피드백을 활용할 수 있다고 주장했어요.
ECHO(Environment Cross-entropy Hybrid Objective)는 기존 GRPO 방식에 환경 관측 토큰 예측을 결합하여 정책을 학습하는 새로운 방식이에요.
ECHO는 Qwen3-8B 모델의 TerminalBench-2.0 pass@1 성능을 2.70%에서 5.17%로, Qwen3-14B 모델은 5.17%에서 10.79%로 향상시켰어요.
ECHO는 전문가 데이터 없이도 기존 전문가 수준의 성능을 달성하고, 때로는 환경 예측 손실만으로도 검증 없이 스스로 개선하는 능력을 보여줬어요.