최근 대규모 트랜스포머 모델은 프로그램 합성 벤치마크에서 뛰어난 성과를 보여주고 있지만, 데이터 오염과 불투명한 훈련 코퍼스로 인해 진정한 일반화 능력은 가려져 있어요.
연구진은 특정 산술 문법을 기반으로 엄격하게 통제된 프로그램 합성 환경을 구축하여 모델이 단순히 기억한 템플릿을 검색하는 것이 아니라 진정으로 일반화하는지 평가했어요.
다양한 의미론적, 구문적 공간을 샘플링하여 밀도 일반화를 최적화하면 강력한 분산 환경 일반화를 유도할 수 있지만, 구문적으로 새로운 프로그램을 생성해야 할 때는 성능이 30% 이상 감소하는 것으로 나타났어요.