OCTOPUS는 KV 캐시 압축을 위한 새로운 기술로, 회전 전처리 후 3개의 좌표를 묶어 8각 패러미터화하여 양자화합니다. 이 방식은 기존 방식보다 성능이 뛰어나며, 데이터에 의존하지 않고 실시간으로 작동합니다. 텍스트, 비디오, 오디오 등 다양한 데이터에서 기존 방식보다 압축 성능이 우수하며, 메모리 대역폭이나 지연 시간을 추가하지 않습니다.
OCTOPUS는 각 좌표 3개 묶음의 방향을 사각형에 매핑하고, Lloyd-Max 양자화를 적용하여 구현에 맞는 주변 분포에 맞춰 최적화합니다. 이 과정에서 발생하는 제곱 오차를 최소화하여 비트 할당을 최적화합니다.
프로젝트 페이지를 통해 자세한 정보를 확인할 수 있으며, 8각 패러미터화는 키의 전체 차원에 따라 달라지는 비트 할당을 통해 성능을 극대화합니다.