파르케는 루프를 활용한 언어 모델로, 770M 파라미터로 1.3B 수준의 성능을 냅니다. 기존 트랜스포머 모델보다 두 배 큰 모델과 비슷한 품질을 제공하며, 루핑에 대한 새로운 스케일링 법칙을 제시했습니다. 데이터뿐만 아니라 반복 횟수를 늘리는 것이 컴퓨팅 효율적인 성능 향상 경로임을 보여주었습니다.