새로운 연구에서 다국어 모델의 확장성을 분석하고, 데이터 크기, 모델 크기, 연산량 간의 관계를 규명했어요. ATLAS 모델은 27개 언어 데이터를 활용하여 130억 개 토큰으로 학습되었으며, 다양한 벤치마크에서 뛰어난 성능을 보여줬어요. 연구 결과는 다국어 모델 개발 시 데이터 효율성을 높이고, 특정 언어에 편향되지 않도록 균형 잡힌 데이터셋 구축의 중요성을 강조해요.