미국 대중교통 분야 연구자가 Andrej Karpathy의 autoresearch 프레임워크를 활용하여 3300만 토큰의 대중교통 데이터셋으로 8000만 파라미터 모델을 처음부터 학습했어요.
autoresearch 에이전트는 배치 크기를 두 번 줄여 훈련 업데이트 횟수를 늘리는 등 예상 밖의 변화를 찾아냈고, 모델 크기 곡선은 8000만 파라미터가 최적임을 보여줬어요.
연구자는 autoresearch가 작은 규모의 전문 데이터셋에서도 유의미한 성능 향상을 가져올 수 있음을 확인했으며, 앞으로는 LoRA fine-tuning과 autoresearch를 비교하는 연구를 진행할 계획이에요.