Pulse · AI 뉴스

LLM 생성 코드 조각의 출처 추적을 위한 효율적이고 확장 가능한 방법

SOURCETRACKER · 2026-05-27

연구진은 LLM이 생성한 코드의 저작권 및 라이선스 준수 문제를 해결하기 위해 SOURCETRACKER라는 3억 파라미터 인코더와 HYBRIDSOURCETRACKER(HST) 파이프라인을 개발했어요.

HST는 벡터 검색으로 후보 조각을 좁힌 후, 윈도잉을 이용해 정확한 지문으로 재순위를 매겨, 1000만 조각의 THESTACKV2 데이터셋에서 검증했어요.

실험 결과, HST는 60토큰 이상의 긴 컨텍스트 창에서 윈도잉보다 최대 5.4% 더 뛰어난 성능을 보이며, 로그 시간 복잡도를 유지했어요.

LLM 기반 평가 결과, 정확한 출처로 분류되지 않은 조각들도 유사성을 보여 사용자에게 유용하며, 벡터 검색과 지문 기반 방법을 결합하여 확장 가능한 출처 추적을 가능하게 해요.

##LLM##코드추적##저작권##Provenance##SOURCETRACKER
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기