LightSplit은 분산 학습 시 고차원 활성화 데이터를 줄이고 개인 정보 노출을 막는 새로운 기법입니다. 이 기법은 절단 레이어에 고정된 직교 랜덤 투영을 적용하여 정보 노출을 제한하고 통신 오버헤드를 줄입니다. LightSplit은 기존 분산 학습 아키텍처와 호환되며, 32배까지 데이터 차원을 줄일 수 있습니다.
LightSplit은 섀넌 정보 이론에 기반하여, 투영을 통해 특정 인스턴스에 대한 정보를 제한하고 악용 가능한 샘플별 신호를 억제합니다. 투영은 클라이언트에서 원본 표현의 일부를 되돌릴 수 없게 삭제하여 정보 재구성을 막고 개인 정보 노출을 제한합니다.
실험 결과, LightSplit은 기준 성능의 95% 이상을 유지하면서 안정적인 학습을 가능하게 하며, 다양한 투영 차원과 클라이언트 규모에서 효과적인 것으로 나타났습니다.