LLM 기반 자동 프로그램 수정(APR) 기술이 디버깅 비용을 줄이는 데 유망한 결과를 보여주고 있지만, 사전 학습 데이터와 평가 벤치마크가 겹치면 데이터 유출로 인해 성능이 과대평가될 수 있어요.
연구진은 변형적 테스트(MT)와 부정 로그 우도(NLL)를 결합하여 데이터 유출을 더 잘 파악할 수 있음을 확인했으며, Defects4J 및 GitBug-Java 데이터셋에 의미를 보존하는 변환을 적용하여 변형된 벤치마크를 구축했어요.
GPT-4o에서 -4.1%, Llama-3.1에서 -15.98%에 이르는 상당한 패치 생성 성공률 감소가 나타났으며, 이는 NLL과 성능 저하 간의 강한 상관관계를 보여주며 모델이 기억할 가능성이 높은 인스턴스에서 더 나은 성능을 낸다는 것을 시사해요.