Reddit 사용자 alphatrad가 직접 제작한 벤치마크 테스트에서 Devstral Small 2 - 24B Instruct 모델이 로컬 모델 중 최고 점수를 기록했어요. 이 모델은 기존 Qwen 모델보다 높은 성능을 보여줬어요.
Devstral Small 2 - 24B Instruct는 Sonnet 4.6 및 Codex 5.3와 같은 모델보다 뛰어난 성능을 보여주며, 로컬 모델 벤치마크에서 80% 이상의 점수를 획득했어요.
alphatrad는 Devstral Small 2 - 24B Instruct 모델의 실제 성능을 검증하기 위해 몇 주 동안 프로덕션 환경에서 테스트할 예정이며, 벤치마크의 정확성에 대한 논의도 환영해요.