연구진은 언어 모델의 학습 가능성을 엄밀하게 분석하기 위해 확률적 유한 오토마타에서 유도된 형식 언어를 활용했어요. 기존 상관관계 분석 방식의 한계를 지적하며, 인과적 개입을 통해 학습 가능성을 평가하는 새로운 방법론을 제시했어요. 실험 결과, 상관관계 분석만으로는 학습 가능성을 정확히 판단하기 어렵다는 점을 확인했어요.
새로운 방법론인 '빈(bin) 반환 고리'를 도입하여 특정 속성이 샘플링된 말뭉치에서 얼마나 자주 발생하는지 통제하고, 쿨백-라이블러 발산 지표를 활용해 하위 작업의 학습 가능성을 측정했어요. 이는 자연어 환경에서도 상관관계 분석의 함정을 경고하는 역할을 해요.
본 연구는 언어 모델의 학습 가능성 평가에 있어 인과적 개입의 중요성을 강조하며, 향후 자연어 처리 연구에 시사점을 제공할 것으로 기대돼요.