Pulse · AI 뉴스

MarginGate: LLM 추론의 배치 불변성 검증을 위한 희소 마진 트리거 방식

MarginGate · 2026-05-29

MarginGate는 배치 환경에서 LLM 추론의 재현성을 높이기 위해 개발된 새로운 검증 방식입니다. MATH500 벤치마크에서 Llama-3.1-8B 모델은 동기화된 디코딩 단계의 0.48%에 불과한 희소한 토큰 플립을 보였습니다. MarginGate는 낮은 마진을 가진 토큰에만 검증을 적용하여 LLM-42의 지연 시간을 2.23배/1.99배 줄였습니다.

저희는 K/V 섭동이 플립 전에 일정하게 유지되며, 낮은 상위 1/2 로짓 마진이 플립 위험을 드러낸다는 점을 발견했습니다. 이를 바탕으로 MarginGate는 높은 마진 단계에서는 BF16 디코딩을 유지하고, 낮은 마진 단계에서만 검증을 수행하며, 확인된 불일치를 수정하기 위해 현재 K/V 열을 교체합니다. 이 방식은 Llama-3.1-8B와 Qwen2.5-14B 모델에서 100% 시퀀스 수준의 결정론적 디코딩을 복원했습니다.

MarginGate는 MATH500에서 교정하고 GSM8K, SharedGPT, HumanEval로 전송하여 평가되었으며, DSR1-Distill-Qwen-7B 모델에서 더 엄격한 환경에서 49.50%의 트리거율로 결정론을 달성했습니다.

##LLM##검증##배치불변성##MarginGate

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기