Pulse · AI 뉴스

LLM의 자연스러운 취약점, 'junking' 문제 연구

arXiv cs.LG · 2026-05-07

연구진은 LLM의 자연스러운 취약점인 'junking' 문제를 처음으로 연구했습니다. 'junking'은 악의적인 프롬프트 없이도 모델이 유해한 답변을 내놓도록 하는 토큰 시퀀스를 찾는 문제입니다.

연구 결과, 'junking' 문제는 기존의 jailbreak 공격보다 어렵지만, 간단한 무작위 탐색 전략으로도 높은 성공률로 해결할 수 있었습니다.

발견된 토큰 시퀀스는 모델 분포의 낮은 확률 영역에 위치하며, 이는 학습 과정에서 자연스럽게 발생한 결과임을 시사합니다.

##LLM##보안##취약점##연구

매일 핵심 AI 소식을 한국어로, 빠르게