연구진은 국제수학올림피아드(IMO) 및 국제물리올림피아드(IPhO) 문제 해결에 금메달 수준의 성능을 보이는 새로운 모델 SU-01을 공개했어요.
SU-01은 역-퍼플렉시티 커리큘럼을 활용한 SFT, 두 단계의 강화 학습(RL), 테스트 시간 확장을 통해 개발되었으며, 약 34만 개의 서열을 활용해 학습했어요.
이 모델은 10만 토큰을 초과하는 복잡한 문제에 대한 안정적인 추론을 지원하며, 수학 및 물리 올림피아드 대회에서 금메달 수준의 성과를 달성했어요.