배터리필(batteryphil)이 1.4B Mamba 백본에 8개의 추론 전문가 경로(총 2.54B 파라미터)를 결합한 Mamba-Titan-1.4B-Reasoning 모델을 단일 RTX 3060에서 구축했어요.
연구 결과, 모델은 </think> 토큰을 종료하기 위한 안전 장치를 구축하고, SSM 고유의 반복 실패 모드인 어트랙터 락(attractor lock)을 유발하며, PreNorm 신호 폭발 함정을 안고 있었어요.
블랙보드(Blackboard) IPC는 모델이 인지 상태를 유지하는 구조적 앵커 역할을 하며, 40,000+ 스텝 훈련 후 읽기-쓰기 신호가 76배 증가했어요.