Pulse · AI 뉴스

TerminalWorld: 실제 터미널 작업 환경에서 에이전트 성능 벤치마킹

TerminalWorld · 2026-05-21

TerminalWorld는 실제 터미널 기록을 활용해 자동화된 평가 작업을 생성하는 데이터 엔진입니다.

1,530개의 검증된 작업으로 구성된 벤치마크를 구축했으며, 현재 시스템은 최대 62.5%의 통과율을 기록했습니다.

기존 벤치마크와는 다른 실제 터미널 환경의 복잡성을 반영하며, 데이터와 코드는 GitHub에서 확인할 수 있습니다.

##에이전트##터미널##벤치마크##TerminalWorld
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기