최근 오픈 소스 모델 논의는 IQ 테스트나 단일 턴 품질 평가에 집중하는 경향이 있어요. Ling-2.6-1T 모델 공개로 실행 능력이 중요한 평가가 새로운 기준으로 떠오르고 있어요. 향후 오픈 소스 모델이 SWE-벤치 Verified, 도구 호출, 멀티 스텝 작업 등 실행 능력을 최적화할 수 있을까요?