RTX 3090 GPU를 사용한 Qwen3.6 27b와 Ornith 35b 모델의 성능을 비교하는 벤치마크 결과를 공유합니다. 일반 지식과 추론 능력에서 두 모델이 비슷한 성능을 보였으며, 코딩 작업에서는 Qwen3.6 27b가 더 우수한 결과를 보였습니다.
Ornith 35b는 에이전트 작업에 특화된 것으로 보이지만, 관련 벤치마크를 실행하는 데 어려움을 겪었습니다. Gemma 4 26b는 일부 벤치마크에서 무한 루프 문제를 일으켜 테스트 환경 설정을 제한해야 했습니다.
벤치마크 실행 과정에서 모델별로 적절한 토큰 제한과 타임아웃 설정을 조정해야 했으며, 일부 벤치마크는 실행에 상당한 시간이 소요되었습니다 (예: ifevalcode는 18시간 소요).