Pulse · AI 뉴스

AdaSR: 계층적 상대 정책 최적화를 통한 적응적 스트리밍 추론

AdaSR · 2026-06-13

연구진은 동적 환경에서 스트리밍 데이터를 처리하는 LLM을 위해 AdaSR 프레임워크를 제안했어요.

AdaSR은 입력 스트리밍 중 추론하고, 스트림 완료 후 최종 숙고를 수행하며, 언제 추론하고 어떤 단계를 얼마나 할지 학습해요.

Hierarchical Relative Policy Optimization (HRPO)을 통해 스트리밍 추론과 심층 추론 단계를 분리하고, 유효한 추론 프로토콜을 강제하며, 최종 작업 성능을 유지하고, 지연 시간 인지 컴퓨팅 할당을 장려해요.

##스트리밍LLM##추론##최적화##AdaSR

매일 핵심 AI 소식을 한국어로, 빠르게