본 연구는 노이즈가 많은 소매 제품명을 소비자 가격 범주로 매핑하는 일반적인 방법을 제시합니다.
텍스트 정규화, 규칙 기반 사전 분류, 이진 확인 모델을 결합한 파이프라인을 구축하여 최대 F1 점수 0.99를 달성했습니다.
신뢰도 가중 인간 검토 라벨링 프로토콜은 67개 정도의 라벨만으로도 충분한 성능을 보이며, 단순 다수 투표보다 성능이 약간 개선됩니다.
통계 기관에서 거래 데이터를 고려할 때 가격 수준 품질 관리 및 설계에 대한 교훈을 제공합니다.