연구진은 복잡한 구조를 가진 다이어그램에서 추론 능력이 떨어지는 MLLM의 한계를 보여주는 ReactBench 벤치마크를 발표했어요.
ReactBench는 화학 반응 다이어그램을 활용하여 분기 경로, 수렴 흐름, 순환 의존성과 같은 복잡한 토폴로지 구조를 추론하는 능력을 평가하며, 기존 벤치마크의 부족한 점을 보완해요.
17개의 MLLM을 평가한 결과, 구조적 추론 능력에서 30% 이상의 성능 격차가 나타났으며, 이는 MLLM의 구조적 이해 능력 부족을 시사해요.