크라시스(Krasis) 런타임이 VRAM 부족 모델 실행을 위한 업데이트를 공개했어요. 핫 패스에서 파이썬 코드를 제거하고 Rust로 전환하여 성능을 개선했습니다.
RTX 3000 시리즈 지원을 추가하고, 메모리 사용량을 줄이며, 새로운 4비트 및 6비트 KV 캐시 구현을 제공합니다.
HQQ 어텐션 도입으로 모델 정확도를 높였으며, Gemma 및 MiniMax 모델 지원, 비전 기능 추가를 계획하고 있습니다. GitHub에서 관련 정보 확인 가능합니다.