연구진은 오디오 언어 모델(ALM)의 탈옥 공격 시 전체 파형을 밀집적으로 업데이트하는 방식이 불필요하다는 점을 밝혔습니다. 토큰 정렬 그래디언트 분석 결과, 일부 토큰에만 에너지가 집중되는 현상이 확인되어 토큰 기반 그래디언트 최적화(TAGO) 방법을 제안했습니다. TAGO는 높은 그래디언트 에너지를 가진 토큰에 맞춰 파형을 희소하게 업데이트하여 기존 방식 대비 성능을 향상시키고, 공격 성공률을 유지했습니다.