TerminalWorld는 실제 터미널 기록을 활용해 자동화된 평가 작업을 생성하는 데이터 엔진입니다. 1,530개의 검증된 작업으로 구성된 벤치마크를 구축했으며, 현재 시스템은 최대 62.5%의 통과율을 기록했습니다. 기존 벤치마크와는 다른 실제 터미널 환경의 복잡성을 반영하며, 데이터와 코드는 GitHub에서 확인할 수 있습니다.