사용자가 직접 설계한 120개의 심층 추론 문제들을 다양한 모델에 적용하여 성능을 테스트한 결과, 벤치마크 점수보다 모델 간 성능 차이가 미미하지만, 문제 유형에 따라 강점이 다르게 나타났습니다.
AIME 스타일 수학 문제에서는 Ring 2.6 1T 모델이 38/40문제를 정확하게 풀어내며 가장 뛰어난 성능을 보였고, 과학 문제에서는 물리/화학 분야에서 강세를 보였지만 생물학 분야에서는 평균적인 수준을 보였습니다.
코드 버그 및 알고리즘 문제에서는 더 깊이 생각하는 모델이 유리했지만, 지나치게 긴 추론 과정은 오히려 역효과를 낼 수 있었으며, Ring 2.6 1T 모델은 복잡한 문제 해결에 효과적인 것으로 나타났습니다.