AI 모델 성능이 상향평준화되면서, 모델의 작업을 뒷받침하는 도구 및 환경 설계의 중요성이 커지고 있습니다. 이를 ‘하네스 엔지니어링’이라 부르며, AI 에이전트를 제어·검증하기 위한 환경 설계를 의미합니다.
랭체인은 하네스 엔지니어링을 ‘에이전트=모델+하네스’로 정의하며, 모델 외 코드, 설정, 실행 로직 등을 하네스로 포함합니다. 랭체인은 하네스 재설계만으로 코딩 에이전트 성능을 13.7% 끌어올렸습니다.
마이크로소프트는 다수 모델과 AI 에이전트를 결합한 보안 분석 시스템 ‘MDASH’를 공개하며, 공개 사이버짐 벤치마크에서 88.45%의 성공률로 최고 점수를 기록했습니다. 이는 OpenAI GPT-5.5 및 Anthropic Claude Mythos Preview보다 높은 수치입니다.