연구진은 Reservoir Attention Network (RAN)의 가능성과 동역학을 연구했어요. RAN은 사전 훈련된 Transformer의 중간 레이어 어텐션에 고정된 랜덤 초기화된 Reservoir를 주입하여 순방향 패스 간에 State를 전달하는 구조예요.
GPT-2(124M, 355M)부터 Qwen2.5(0.5B, 1.5B)까지 단일 소비자 GPU에서 실험을 진행했어요. 실험은 개별 메커니즘을 분리하기 위해 최소한의 Probe를 사용했고, 항상 켜져 있는 에이전트의 더 넓은 비전은 계산 능력에 제한된 미래 작업으로 간주했어요.
Reservoir는 훈련되지 않은 상태(고정 랜덤)로 유지하여 훈련되지 않은 순환 동역학만으로 사용 가능한 Cross-Pass State를 전달할 수 있는지 확인했어요. 훈련된 순환은 상호 보완적인 더 비싼 방향으로 남겨두었어요.