SAHM은 아랍어 금융 NLP 및 샤리아 준수 추론을 위한 새로운 벤치마크와 instruction-tuning 데이터셋이에요. AAOIFI 표준 QA, 율법 기반 QA/MCQ, 회계 시험 등 7가지 과제를 포함하며, 총 14,380개의 전문가 검증된 사례로 구성돼요. 기존 모델들은 인식 기반 작업에서는 강점을 보이지만, 생성 및 인과 추론에서는 큰 격차를 보여 아랍어 유창력이 금융 추론 능력을 보장하지 않는다는 점을 확인했어요.