연구진이 공개 소스 코드 저장소의 자격 증명 유출 탐지를 위한 3가지 분류 프레임워크를 제안했어요. 기존 도구의 높은 오탐율 문제를 해결하기 위해, 실제 자격 증명과 자리 표시자 또는 취약한 자격 증명을 명확히 구분하는 방법을 사용했어요.
CodeBERT 기반의 의미론적 이해와 문자 수준 패턴 인식을 결합하여 9,426개 샘플로 구성된 데이터셋에서 Matthews Correlation Coefficient 0.86, macro F1-score 0.90을 달성했어요.
자리 표시자 또는 취약한 자격 증명 탐지 정확도를 54%에서 81%로 향상시키고, 10개 언어 중 9개에서 F1 점수가 0.80 이상을 기록하며 강력한 언어 간 일반화 능력을 입증했어요.