Pulse · AI 뉴스

LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션

Gemma · 2026-05-23

최근 LLM들이 장문 컨텍스트 효율성에 집중하면서 KV 캐시 크기 감소를 위한 아키텍처 트릭이 빠르게 늘어나고 있어요.

Gemma 4는 계층 간 KV 공유와 per-layer embedding을 활용하여 메모리 사용량을 줄이고 성능을 개선했어요.

KV 공유, mHC, 압축 어텐션 등 다양한 기술들이 LLM 아키텍처의 주요 트렌드로 떠오르고 있습니다.

##LLM##Gemma##KV공유

매일 핵심 AI 소식을 한국어로, 빠르게