Pulse · AI 뉴스

BWLA: LLM 가중치 1비트 양자화, 활성화 6비트로 성능 유지

Qwen · 2026-05-01

BWLA는 LLM의 메모리 및 연산 부담을 줄이기 위해 가중치를 1비트, 활성화를 6비트로 양자화하는 새로운 프레임워크입니다.

Orthogonal-Kronecker Transformation(OKT)을 통해 가중치를 변환하고 Proximal SVD Projection(PSP)을 통해 양자화성을 향상시켜 높은 정확도를 유지합니다.

Qwen3-32B 모델에서 Wikitext2 퍼플렉시티 11.92를 달성하고 3.26배의 추론 속도 향상을 보였습니다.

##LLM##양자화##압축##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게