Reddit 사용자가 LLM에 특정 문장을 입력했을 때 악성 행위 백도어가 실행될 가능성을 제기했어요. 훈련 데이터가 불확실한 LLM은 모두 위험에 노출되어 있지만, 특히 폐쇄형 LLM은 의도적으로 동작을 변경할 수 있다는 우려가 있어요. 로컬 LLM은 외부 노출이 제한적이므로 백도어 주입 위험이 낮지만, 특정 조건에서만 작동하는 트리거가 존재할 수 있다는 점을 지적했어요.
폐쇄형 LLM은 훈련 데이터에 대한 투명성이 부족하여 악성 행위가 의도적으로 삽입될 가능성이 높다고 판단해요. 로컬 LLM은 외부 노출이 적어 위험이 낮지만, 특정 시간이나 날짜와 같은 트리거에 의해 악성 행위가 실행될 가능성은 배제할 수 없어요. LLM의 잠재적 위험성에 대한 커뮤니티의 의견을 구하고 있습니다.
LLM이 중요한 자원에 접근할 수 있는 상황에서 백도어 주입 위험을 줄이기 위한 방어책 마련이 필요하다고 강조했어요. Reddit 게시글을 통해 LLM의 잠재적 악용 가능성과 이에 대한 대비책에 대한 논의를 촉구하고 있습니다.