FuseFSS는 LLM 추론 시 함수 비밀 공유(FSS) 기반 GPU 시스템의 성능 병목 현상을 해결하는 컴파일러입니다. 기존 방식 대신 단일 파이프라인으로 모든 스칼라 고정점 연산자를 처리하여 비교, 보정, 전처리 과정을 간소화했습니다. FuseFSS는 BERT 및 GPT 스타일 모델에서 최대 1.5배 빠른 속도와 16% 낮은 온라인 통신량을 달성했습니다.
컴파일러는 공개된 마스크 값에 대한 두 개의 일괄 FSS 평가를 생성하며, 이를 통해 모든 예측 비트를 반환하는 패키지 비교 및 활성 계수와 상수를 반환하는 벡터 간격 조회를 수행합니다. 또한 키 생성 시간과 키 크기를 각각 23% 및 24% 줄여 전처리 과정도 가벼워졌습니다.
FuseFSS는 정확도를 유지하면서 기존 FSS 기반 GPU 추론 방식 대비 속도 향상과 통신량 감소 효과를 보여 LLM 보안 추론 환경 개선에 기여할 것으로 기대됩니다.