Pulse · AI 뉴스

RACER: 검색 증강 컨텍스트 기반 빠른 추론 디코딩

arXiv cs.CL · 2026-04-16

RACER는 대규모 언어 모델(LLM)의 추론 지연 시간을 줄이기 위한 새로운 추론 디코딩 방법입니다.

RACER는 검색된 정확한 패턴과 로짓 기반의 미래 단서 정보를 결합하여 신뢰성 있는 앵커와 유연한 외삽을 동시에 제공합니다.

Spec-Bench, HumanEval, MGSM-ZH 벤치마크에서 RACER는 기존 방식보다 2배 빠른 속도를 달성하며 성능 또한 우수함을 입증했습니다.

##모델출시##추론최적화##OpenSource
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기