연구진이 완벽하게 동기화된 네트워크는 아무런 계산도 수행하지 못한다는 점에 착안해 새로운 신경망 구조인 좌절된 동기화 네트워크(FSN)를 개발했어요.
FSN은 토큰 상태를 토러스상의 위상으로 표현하고, 복합 커널과 1단계 지연을 통해 계산을 수행하며, 각 구성 요소는 동기화 문헌에서 좌절로 정의돼요.
1백만 파라미터 규모에서 문자 수준 텍스트와 코드 데이터셋에서 검증 손실이 RoPE-SwiGLU 트랜스포머보다 낮았고, 50에포크 학습 후에도 손실이 감소하는 결과가 나타났어요.
자료 복사 시 성능 저하를 극복하기 위해 피드포워드 블록을 집단 모드 커플링으로 대체한 변형 모델은 트랜스포머와 유사한 성능을 보였어요.