Pulse · AI 뉴스

비밀을 지킬 수 있을까? 언어 모델 작성 시 의도치 않은 정보 유출

arXiv cs.AI · 2026-05-12

연구진은 언어 모델이 비밀 정보를 유출하는지 테스트했습니다. 모델에게 비밀 단어를 알려주지 말라는 지시와 함께 이야기를 작성하게 한 후, 다른 모델이 이야기에서 비밀 단어를 식별하는 테스트를 진행했습니다.

비밀 단어가 직접적으로 드러나지는 않았지만, 주제 선택, 이미지, 배경 등을 통해 5개의 최첨단 모델 모두 유출이 감지되었으며, 유출 비율은 무작위 추측보다 훨씬 높았습니다.

모델이 비밀을 숨기도록 지시하면 오히려 회피하는 모습을 보이며, 이러한 회피마저도 감지될 수 있었습니다. 정보 유출은 모델 크기에 따라 증가하며, 짧은 형식의 글에서는 사라집니다.

##LLM##정보유출##보안##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기