Pulse · AI 뉴스

시각적 단서의 미세한 흔적을 파악하다: 다중 모드 STEM 과제에서 다중 모드 추론 체인 평가

arXiv cs.CV · 2026-04-22

연구진은 다중 모드 대규모 언어 모델(MLLM)의 STEM 추론 능력을 정밀하게 평가하기 위한 새로운 벤치마크 StepSTEM을 공개했어요.

StepSTEM은 수학, 물리학, 화학, 생물학, 공학 분야의 283개 문제를 포함하며, 텍스트와 시각 정보의 상호 보완성을 강조했어요.

현재 MLLM은 여전히 텍스트 기반 추론에 의존하며, Gemini 3.1 Pro와 Claude Opus 4.6조차도 38.29%의 정확도를 기록했어요.

##MLLM##STEM##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기