Pulse · AI 뉴스

VideoNet: 특정 분야 동작 인식 데이터셋 공개

VideoNet · 2026-05-05

연구진은 현대적인 비전-언어 모델(VLM)의 동작 인식 능력을 평가하기 위해 VideoNet이라는 특정 분야 동작 인식 벤치마크를 새롭게 선보였습니다.

VideoNet은 37개 분야에서 1,000가지 고유한 동작을 다루며, Gemini 3.1 Pro는 69.9%의 정확도를 기록하며 Qwen3-VL-8B (45.0%)보다 훨씬 뛰어난 성능을 보였습니다.

연구진은 VideoNet 데이터셋을 활용하여 VLM의 동작 인식 성능을 향상시키기 위한 다양한 실험을 진행했으며, Molmo2-4B 모델을 파인튜닝하여 오픈 웨이트 8B 모델을 능가하는 성과를 거두었습니다.

##동작인식##데이터셋##VLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기