LBLLM은 자원 제약 환경에서 LLM을 효율적으로 배포하기 위한 경량화된 이진화 프레임워크입니다. 3단계 증류 전략을 통해 W(1+1)A4 양자화 달성하며, 기존 방법보다 뛰어난 성능을 보입니다. 0.016B 토큰으로 단일 GPU에서 학습하여 언어 모델링, 상식 QA, 언어 이해 등 다양한 작업에서 우수한 결과를 냈습니다.