연구진은 연합 학습(FL) 환경에서 하드웨어 오류(비트 플립)를 유도하여 모델에 백도어를 심는 새로운 공격 기법을 제안했어요. 이 공격은 특정 작업에 구애받지 않고, ResNet-18 모델에서 19회 발생, 1회당 10개 정도의 오류만으로도 94%의 성공률을 기록했어요. 연구는 Rowhammer 공격의 현실적인 제약과 잠재적 방어책에 대한 논의도 포함하고 있어요.
기존 백도어 공격은 알고리즘에 의존했지만, 이번 연구는 하드웨어 오류를 활용하여 모델 오염을 유발하는 새로운 공격 패러다임을 제시했어요. 공격은 FL 훈련 과정에서 단일 로컬 모델의 파라미터에 하드웨어 오류를 발생시켜 백도어를 심는 방식으로 진행돼요.
사전에 준비된 백도어는 다양한 모델과 데이터셋에 적용 가능하며, 공격 성공률은 비교적 낮은 수준의 하드웨어 오류만으로도 달성될 수 있다는 점을 보여줘요.