사용자 데이터에 따르면 양자화 인식 학습(QAT)을 활용한 모델 출시가 4비트에서 2비트로 확장될 가능성이 있어요. 120b~400b 규모의 대규모 MoE 모델이 8/16비트 성능에 미치지는 못하더라도 2비트 LLM을 처음부터 학습하는 것보다 나은 대안이 될 수 있다고 제안해요. 2비트 양자화 모델은 소비자용 컴퓨터에서 실행 가능하며, 4비트 정밀도로 더 작은 모델보다 뛰어난 성능을 낼 수 있을 것으로 예상돼요.