연구진이 산업 제품의 기술 사양 추출을 위한 IndustryBench-MIPU 벤치마크를 공개했어요. 이 벤치마크는 다중 이미지에서 속성-값 쌍을 추출하는 방식으로, 텍스트 인식, 시각적 추론, 산업 전문 지식, 이미지 간 증거 통합 능력을 평가합니다.
IndustryBench-MIPU는 4,559개 제품, 27,652개 이미지, 103,703개 어노테이션으로 구성되어 있으며, 18개 산업 카테고리를 포함해요. 다중 이미지 환경에서 모델의 완성도(completeness)가 주요 성능 저하 요인으로 나타났어요.
단일 이미지 추출 대비 다중 이미지 추출 시 리콜(recall)이 15~34% 포인트 감소했으며, 최고 성능 모델조차 제품 속성의 49.9%만 복구하는 데 그쳤어요. 벤치마크 데이터셋과 코드는 공개됐어요.