연구진은 다양한 소스(텍스트, 이미지, 음성)에서 구조화된 데이터를 추출하는 LLM의 성능을 평가하는 다중 소스 벤치마크인 SOB를 발표했어요. SOB는 스키마 준수 여부와 값 정확도를 측정하며, 텍스트는 83.0%, 이미지는 67.2%, 음성은 23.7%의 정확도를 보였어요. 연구 결과, 모델들은 스키마 준수에는 거의 완벽하지만, 값 정확도 측면에서 상당한 개선이 필요하며, 특히 긴 문맥에서 추출이 어려워요.