이번 벤치마크는 3~4B 크기의 다양한 모델들을 금융, 추론, 코딩 작업에서 비교했습니다. 네모트론 3 나노가 전반적으로 85%의 정확도를 기록하며 가장 뛰어난 성능을 보였습니다.
네모트론 3 나노는 특히 금융 분야에서 15회 중 15회를 성공하며, 더 큰 모델들보다도 뛰어난 성능을 입증했습니다. 이는 모델이 중간 계산 과정을 명확하게 보여주는 '생각하는 모델'의 특징 때문으로 분석됩니다.
Qwen 3.5 4B 모델은 제한된 토큰 예산으로 인해 추론 과정이 중단되는 문제를 보여주었고, 이는 이전 벤치마크에서도 유사한 문제가 발생했던 패턴입니다.