본 연구는 LLM이 사실 지식을 암기하는 데 어려움을 겪으며 환각 현상을 일으키는 문제를 다룬다. 정보 이론적 관점에서 사실 암기를 분석하고, 훈련 데이터 분포가 사실 정확도에 미치는 영향을 연구한다. 훈련 데이터 내 사실 정보량이 모델 용량을 초과할 때 사실 정확도가 저하됨을 확인하고, 데이터 가지치기를 통해 이를 개선할 수 있음을 보인다.