터미널 에이전트 벤치마크는 대규모 언어 모델의 코딩 및 시스템 관리 능력을 측정하는 주요 지표로 자리 잡고 있어요.
벤치마크 작업 작성 시, 검증 로직에 대한 충분한 적대적 검토 없이 빠르게 작업을 출시하는 경우가 많다는 점을 지적하며, 작업 작성 방식을 프롬프트 작성 방식과 다르게 해야 한다고 강조해요.
좋은 작업은 적대적이고, 어렵고, 가독성이 뛰워야 하며, AI가 생성한 지침, 과도하게 상세한 사양, 서면적 어려움, 숨겨진 지식을 가정하는 오라클 솔루션 등과 같은 일반적인 실패 요인을 예측할 수 있다고 설명해요.