연구진은 규칙 기반 필터링과 LLM 분류를 결합한 자동 신조어 감지 파이프라인을 개발했습니다. 이 파이프라인은 문법적, 비문법적 형태론이라는 두 가지 프레임워크를 기반으로 신조어를 정의하고 4가지 분류 체계를 사용합니다. 527만 개의 영어 Reddit 게시물을 분석한 결과 1,021개의 신조어 후보가 추출되었으며, 수동 검증을 거쳤습니다.
LLM 간의 의견 불일치가 상당했으며, 이는 대규모 신조어 감지를 구현하는 데 어려움이 있음을 보여줍니다. 수동 주석 결과 1,021개 후보 중 58.7%가 실제 어휘 혁신으로 확인되었습니다.
파이프라인 코드, 어휘 컴파일 스크립트, 주석 처리된 후보 목록은 GitHub에서 확인할 수 있습니다.