Pulse · AI 뉴스

Orthrus: AR Transformer 기반 고효율 토큰 생성 기법 연구

Orthrus · 2026-05-16

연구진은 AR Transformer의 각 레이어에 학습 가능한 Diffusion Attention 모듈을 삽입하는 Orthrus라는 새로운 기법을 개발했어요. 이 기법은 기존 모델의 정확도를 유지하면서 토큰 생성 속도를 획기적으로 향상시킵니다.

Orthrus는 기존 방식과 달리 기반 모델의 가중치를 수정하지 않아 정확도 손실 없이 최대 7.8배 빠른 토큰 생성 속도를 달성하며, 16%의 파라미터만 학습하여 24시간 내에 8개의 H200 GPU에서 학습을 완료할 수 있습니다.

기존 Diffusion LM 대비 정확도를 유지하며, Speculative Decoding 방식보다 KV 오버헤드가 적고 TTFT 페널티가 없어 효율적인 토큰 생성이 가능하며, 단일 단계 디노이징이 다중 단계보다 더 효과적임을 확인했습니다.

##모델출시##ARTransformer##DiffusionAttention
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기