연구진은 텐서 병렬 처리와 시퀀스 병렬 처리를 하나의 장치 축에 통합하는 TSP(Tensor and Sequence Parallelism)라는 새로운 병렬 실행 전략을 제시했어요.
TSP는 기존 방식과 달리, 각 랭크에 가중치 샤드와 시퀀스 샤드를 모두 할당하여 파라미터와 활성화 메모리를 동시에 줄여요.
실험 결과, TSP는 긴 컨텍스트와 메모리 제약이 있는 모델 학습에 적합하며, 파이프라인 및 전문가 병렬 처리와 함께 사용할 수 있는 유망한 병렬 처리 방식이에요.