최근 LLM들이 장문 컨텍스트 효율성에 집중하면서 KV 캐시 크기 감소를 위한 아키텍처 트릭이 빠르게 늘어나고 있어요. Gemma 4는 계층 간 KV 공유와 per-layer embedding을 활용하여 메모리 사용량을 줄이고 성능을 개선했어요. KV 공유, mHC, 압축 어텐션 등 다양한 기술들이 LLM 아키텍처의 주요 트렌드로 떠오르고 있습니다.