SMH-Bench는 LLM이 스마트 홈 환경에서 추론하고 행동하는 능력을 평가하는 새로운 벤치마크입니다. HomeEnv 시뮬레이터를 기반으로 1,100개의 고품질 작업과 7개 카테고리로 구성되어 있습니다. 실험 결과, 최첨단 LLM은 명시적인 제어 및 쿼리 작업에서는 강한 성능을 보이지만, 가정 복잡도가 증가함에 따라 자동화 작업 스케줄링, 모호성 처리, 개인화된 추론에서 약점을 드러냈습니다.