이타인 바르(Itay Barr)가 llama.cpp 포크를 통해 LLM 레이어를 로드 시 건너뛸 수 있는 기능을 구현했어요. 이 기능은 모델 성능에 미치는 영향이 최소화하면서도 추론 속도를 높일 수 있어요.
건너뛰는 레이어에 따라 성능 차이가 크기 때문에, 어떤 레이어를 건너뛸지 선택하는 메커니즘을 함께 제공해요.
llama.cpp 자체에 기능을 통합하고 싶지만, PR 과정에 부담을 느끼는 개발자는 커뮤니티의 의견을 구하며, standalone 포크 유지, PR 전달, 공동 유지 등의 방안을 고려 중이에요.
기능에 대한 사용자의 PPL 또는 생성 결과 검증을 요청하며