연구진은 동적 환경에서 스트리밍 데이터를 처리하는 LLM을 위해 AdaSR 프레임워크를 제안했어요.
AdaSR은 입력 스트리밍 중 추론하고, 스트림 완료 후 최종 숙고를 수행하며, 언제 추론하고 어떤 단계를 얼마나 할지 학습해요.
Hierarchical Relative Policy Optimization (HRPO)을 통해 스트리밍 추론과 심층 추론 단계를 분리하고, 유효한 추론 프로토콜을 강제하며, 최종 작업 성능을 유지하고, 지연 시간 인지 컴퓨팅 할당을 장려해요.