연구진은 기존 벤치마크의 한계를 극복하기 위해 공간-기능 지능 벤치마크(SFI-Bench)를 새롭게 공개했어요. SFI-Bench는 1700개 이상의 질문으로 구성되어 있으며, 다양한 실내 영상 스캔을 기반으로 합니다. 이 벤치마크는 단순히 공간 인지 능력을 넘어, 사물의 기능적 의미를 이해하는 능력을 평가하는 데 초점을 맞추고 있어요.
SFI-Bench는 기존 VSI-Bench와 달리, 멀티모달 LLM의 고차원적인 인지 능력을 평가하는 데 필요한 질문들을 포함하고 있어요. 연구진은 SFI-Bench를 통해 LLM이 사물의 위치뿐만 아니라 그 용도를 이해하는지 측정하고자 했습니다.
SFI-Bench는 128K 컨텍스트를 지원하는 Claude Opus 4.7을 포함한 다양한 멀티모달 LLM의 성능을 평가하는 데 활용될 수 있을 것으로 기대됩니다.