Toto 2.0은 400만에서 25억 파라미터까지 단일 학습 레시피로 예측 품질 향상이 가능하다는 것을 보여줍니다. Apache 2.0 라이선스로 공개된 5개의 오픈 웨이트 예측 모델인 Toto 2.0 패밀리는 BOOM, GIFT-Eval, TIME 벤치마크에서 최고 성능을 달성했습니다. 본 보고서에서는 Toto 2.0의 아키텍처, 학습 레시피, 데이터, u-muP 하이퍼파라미터 전이 파이프라인 설계 결정을 상세히 설명합니다.