Pulse · AI 뉴스

ECHO: 터미널 에이전트, 무료 월드 모델 학습

Qwen · 2026-05-23

연구진은 터미널 에이전트가 명령을 내리고 결과를 기록하는 과정에서 환경 피드백을 활용할 수 있다고 주장했어요.

ECHO(Environment Cross-entropy Hybrid Objective)는 기존 GRPO 방식에 환경 관측 토큰 예측을 결합하여 정책을 학습하는 새로운 방식이에요.

ECHO는 Qwen3-8B 모델의 TerminalBench-2.0 pass@1 성능을 2.70%에서 5.17%로, Qwen3-14B 모델은 5.17%에서 10.79%로 향상시켰어요.

ECHO는 전문가 데이터 없이도 기존 전문가 수준의 성능을 달성하고, 때로는 환경 예측 손실만으로도 검증 없이 스스로 개선하는 능력을 보여줬어요.

##에이전트##터미널##월드모델##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기