BWLA는 LLM의 메모리 및 연산 부담을 줄이기 위해 가중치를 1비트, 활성화를 6비트로 양자화하는 새로운 프레임워크입니다.
Orthogonal-Kronecker Transformation(OKT)을 통해 가중치를 변환하고 Proximal SVD Projection(PSP)을 통해 양자화성을 향상시켜 높은 정확도를 유지합니다.
Qwen3-32B 모델에서 Wikitext2 퍼플렉시티 11.92를 달성하고 3.26배의 추론 속도 향상을 보였습니다.