연구진은 동적 환경에서 스트리밍 데이터를 처리하는 LLM을 위해 AdaSR 프레임워크를 제안했어요. AdaSR은 모델이 입력 스트리밍 중에도 추론하고, 스트림 완료 후 최종 숙고를 수행하도록 설계됐어요. Hierarchical Relative Policy Optimization (HRPO)을 통해 스트리밍 추론과 심층 추론 단계를 분리하고, 효율적인 연산 할당을 유도했어요.