Pulse · AI 뉴스

Express 언어 모델링: 효율적인 시퀀스 처리 기법

Express · 2026-06-09

연구진이 비인과적 어텐션 근사를 인과적 근사로 변환하는 새로운 도구 Express를 공개했어요. Thinformer 근사와 결합하면 기존 인과적 어텐션 근사보다 성능이 향상돼요. Express는 시퀀스 길이 n에 대해 O(s) 메모리와 O(s^2 log^2(n)) 압축 오버헤드로 log^(3/2)(n)/s 근사 오류를 제공합니다.

연구진은 Express를 활용해 장문 사전 채우기, KV 캐시 압축, 메모리 제약 장문 디코딩, 컴퓨팅 제약 장문 디코딩 등 4가지 병목 현상을 해결했어요. Triton을 사용한 효율적인 구현으로 FlashAttention 2보다 속도가 빨라졌어요.

Express는 장문 시퀀스 처리의 효율성을 높여 언어 모델링 성능을 개선하는 데 기여할 것으로 기대돼요.

##어텐션##인공지능##언어모델링

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기