Macrocosmos에서 파이프라인 병렬 훈련 시 저대역폭 통신을 위해 설계된 새로운 트랜스포머 기반 아키텍처인 ResBM(Residual Bottleneck Models)에 대한 논문을 발표했습니다.
ResBM은 파이프라인 경계를 가로지르는 잔여 인코더-디코더 병목 현상을 도입하여 단계 간 통신을 줄이면서 명시적인 저랭크 아이덴티티 경로를 유지하는 것을 목표로 합니다.
논문에서는 압축되지 않은 기준선과 비교하여 수렴 손실 없이 128배의 활성화 압축을 달성했다고 보고하며, 분산/인터넷 등급 파이프라인 병렬 훈련 발전에 기여할 것으로 예상됩니다.