연구팀이 순환 메모리 기반의 실험적인 232M 파라미터 모델 Hierarchos를 공개했어요. 트랜스포머 아키텍처를 벗어나 RWKV, 신경 메모리, 계층적 추론을 결합한 하이브리드 구조를 사용했어요.
Hierarchos는 훈련/추론 파리티 불일치 및 수치적 안정성 문제를 해결하는 데 중점을 뒀으며, 짧은 형식의 지시사항 일관성을 유지하는 데 성공했어요.
연구팀은 훈련/추론 상태 불일치, 감독 학습 메모리 업데이트 불일치, RWKV 채널 믹싱 문제를 해결했으며, 현재 ARC Easy, HellaSwag, TruthfulQA 벤치마크에서 GPT-2 시대 수준의 성능을 보이고 있어요.