Pulse · AI 뉴스

ERQA-Plus: 로봇 AI 추론 진단 벤치마크 공개

Qwen · 2026-06-16

연구진이 로봇 AI의 추론 능력을 진단하는 새로운 벤치마크 ERQA-Plus를 공개했어요. 이 벤치마크는 시각적 관찰을 바탕으로 공간 관계, 행동, 인간 의도 등을 추론하는 1,766개의 질문-답변 세트로 구성돼요.

LLaVA-NeXT부터 RoboBrain까지 다양한 모델을 테스트한 결과, Qwen3-VL-32B가 83.4%의 정확도를 기록했지만, 여전히 공간 추론, 절차 추론 등에서 약점을 보였어요.

ERQA-Plus는 단순히 정답 여부를 평가하는 것을 넘어, 로봇 AI가 어떤 종류의 추론을 수행할 수 있는지, 그리고 어떤 부분에서 어려움을 겪는지 상세하게 분석할 수 있는 평가 도구를 제공해요.

데이터셋은 Hugging Face에서 공개됐으며

##로봇AI##벤치마크##추론##Qwen3
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기