Pulse · AI 뉴스

Ornith 35B 모델에 MTP 적용하여 코딩 성능 최적화

Ornith · 2026-07-02

사용자가 Ornith 35B 모델에 MTP(Multi-Query Transformer)를 적용하여 코딩 성능을 향상시켰습니다. MTP 적용 시 추론 속도가 18% 향상되었으며, drafter 수용률은 평균 70%를 기록했습니다.

256K 전체 컨텍스트 윈도우를 지원하며, 80GB 이상의 VRAM을 가진 RTX 기반 시스템에서 실행 가능합니다. GB10과 같은 Unified Memory System에서도 활용 가능합니다.

관련 스크립트와 vLLM 고성능 추론 컨테이너는 GitHub에서 확인할 수 있습니다.

##모델튜닝##Ornith##MTP##vLLM

매일 핵심 AI 소식을 한국어로, 빠르게