연구진은 다중 모드 대규모 언어 모델(MLLM)의 STEM 추론 능력을 정밀하게 평가하기 위한 새로운 벤치마크 StepSTEM을 공개했어요. StepSTEM은 수학, 물리학, 화학, 생물학, 공학 분야의 283개 문제를 포함하며, 텍스트와 시각 정보의 상호 보완성을 강조했어요. 현재 MLLM은 여전히 텍스트 기반 추론에 의존하며, Gemini 3.1 Pro와 Claude Opus 4.6조차도 38.29%의 정확도를 기록했어요.