연구진은 38개의 LLM 모델을 평가하여 모델 크기와 학습 데이터 내 주제 빈도가 사실적 회상 품질에 미치는 영향을 분석했어요. 모델 파라미터 수와 학습 데이터 내 주제 빈도의 조합이 증가함에 따라 사실적 회상 품질은 S자형 곡선을 보였어요. 이 두 변수는 16개의 모델 변동의 60%를 설명하며, 개별 모델 패밀이에서는 74~94%까지 설명해요.
모델의 용량과 개념 빈도가 결합된 신호 대 잡음 비율에 의해 사실적 회상 품질이 결정된다는 점이 확인되었어요. 이는 모델 크기가 커질수록 잡음 수준이 높아지는 현상을 반영해요. 연구 결과는 LLM의 사실적 회상 능력 향상을 위한 중요한 통찰력을 제공합니다.
본 연구는 LLM의 성능 향상을 위해 모델 크기뿐만 아니라 학습 데이터의 구성도 중요하게 고려해야 함을 시사합니다.