연구진은 LLM을 활용해 신경망 아키텍처의 성능을 예측하는 분류 작업을 NNGPT 프레임워크에 통합했습니다.
DeepSeek-Coder-7B-Instruct 모델을 LoRA 방식으로 학습시킨 결과, 코드만으로 구성된 프롬프트에서 15회 에포크 후 80%의 최고 정확도를 기록했습니다.
코드 기반 프롬프트는 데이터셋 메타데이터 프롬프트보다 더 균형 잡힌 성능을 보이며, 아키텍처 소스 코드가 데이터셋 메타데이터보다 더 풍부한 정보를 담고 있음을 시사합니다.