Pulse · AI 뉴스

VLMs가 엔지니어처럼 추론할 수 있을까? 8단계 평가 벤치마크

EngVQA · 2026-06-09

연구진은 VLMs의 엔지니어링 추론 능력을 평가하는 벤치마크 EngVQA와 8단계 자동 평가 프레임워크를 새롭게 공개했어요.

EngVQA는 5가지 엔지니어링 분야의 696개 문제로 구성되며, 기술 도면 해석, 물리 법칙 적용, 물리적 일관성 유지가 중요해요.

현재 VLMs는 엔지니어링 추론에서 상당한 한계를 보이며, 과정 중심 평가의 중요성을 강조하며, 인간 평가와 자동 평가 프레임워크 간의 높은 상관관계(0.975)를 확인했어요.

##VLM##엔지니어링##벤치마크##자동평가##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기