사용자가 Github Copilot, Pi, Claude Code, Opencode에서 다양한 에이전트 하네스/모델 조합을 테스트한 결과를 공유했어요. Opencode는 기본적으로 인터넷 검색 기능이 있어 결과가 더 좋았고, 웹 개발 작업에서는 뛰어난 결과를 보여줬어요. Github Copilot은 파일 편집 도구 사용에 어려움을 겪어 다른 하네스에 비해 속도가 느렸어요.
Qwen3-vl-4 모델은 OpenCode에서 무한 루프에 빠져 파일 생성조차 할 수 없었으며, Github Copilot은 파일 편집 시 13번의 LLM 요청이 필요했어요. 다양한 에이전트 하네스와 모델 조합 테스트를 통해 각 플랫폼의 장단점을 파악할 수 있었어요.
결과를 통해 Github Copilot의 파일 편집 도구 스키마가 LLM과 호환되지 않는 문제가 있을 수 있다는 점을 시사하며, 자동 평가 시스템 구축을 위해 노력 중이라고 밝혔어요.