다중 모달 LLM은 다양한 방식으로 제시된 동일한 산술 문제에 대해 정확한 다중 자릿수 곱셈을 수행하지 못하는 것으로 나타났어요. 연구진은 곱셈 문제의 자릿수, 표현 방식, 모달리티를 체계적으로 변화시킨 새로운 다중 모달 곱셈 벤치마크를 개발했어요. 모델의 성능 저하는 주로 계산 능력의 문제이며, 인식 능력과는 관련이 없는 것으로 확인되었고, 분해 방식이 텍스트와 비전 모달리티 모두에서 선호되는 경향을 보였어요.