최근 AI 코딩 도우미의 등장으로 코드 보안에 대한 우려가 커지고 있어요. 연구에 따르면 코드 LLM이 토큰화 과정에서 예기치 않게 비밀 정보를 암기하는 현상이 발생해요.
BPE 토큰화 방식의 특성상, 특정 비밀 정보가 쉽게 암기되는데, 이는 문자 수준의 엔트로피는 높지만 토큰 수준의 엔트로피는 낮은 정보에서 두드러져요.
연구팀은 토큰 분포 변화가 비밀 정보 암기의 원인이며, 더 큰 어휘집 사용 추세에 따라 이러한 문제가 심화될 수 있다고 경고하며, 토크나이저 설계 개선의 필요성을 강조했어요.