본 연구에서는 대규모 언어 모델(LLM)의 긴 프롬프트 처리 비용을 줄이기 위해 라틴 임베딩 공간에서 시퀀스를 압축하는 새로운 프레임워크인 K-토큰 병합을 제안합니다.
K-토큰 병합은 K개의 연속된 토큰 임베딩을 경량 인코더를 통해 단일 임베딩으로 병합하여 최대 75%까지 입력 길이를 줄입니다.
Textualized Tree, Amazon Reviews, CommitPackFT 데이터셋에 대한 실험 결과, K-토큰 병합은 성능과 압축률 간의 균형을 잘 이루며 성능 저하를 최소화합니다.