LLM 연구는 사실 정확성과 작업 수행 능력에 집중해 왔지만, 언어학적 수준에서 생성된 텍스트가 얼마나 인간과 유사한지에 대한 근본적인 질문은 간과되어 왔습니다.
본 연구에서는 인간 참조 코퍼스와 LLM 생성 코퍼스의 언어적 특징 분포 간의 두 샘플 문제를 활용하여 인간 유사성을 평가하는 레지스터 인지 평가 프레임워크를 제안합니다.
실험 결과, LLM은 테스트 설정에 관계없이 인간 기준선과 차이를 보이지만, 모델 크기가 레지스터에 따라 인간 언어에 가장 가까운 모델을 결정하지는 않습니다.