연구진은 음성 LLM의 도메인 맞춤 설정 과정에서 간과된 개인 정보 위험을 지적했어요. 모델이 특정 용어를 인식하도록 맞춤 설정하면, 발음이 유사한 다른 단어를 유출할 수 있다는 내용입니다. 프롬프트와 파인튜닝 모두 유출을 유발하며, 두 가지를 결합하면 더욱 심각해집니다.
연구진은 제어된 데이터셋을 활용해 유출률을 측정하고, 프롬프트 수준의 완화 전략을 평가했어요. 컨텍스트 프롬프트 없이 파인튜닝하는 것이 정확도와 유출 방지 사이의 균형이 가장 좋다는 결과를 얻었습니다.
연구진은 코드와 데이터셋을 공개하며, 음성 LLM의 개인 정보 보호에 대한 경각심을 높이고자 합니다.