연구진이 대규모 시각-언어 모델(LVLM)의 세분화된 이미지 작업 성능을 평가하는 벤치마크 FG-BMK를 공개했어요. FG-BMK는 101만 개의 질문과 28만 개의 이미지로 구성되어 세부적인 의미 인식과 시각적 차별성을 평가합니다.
실험 결과, 현재 LVLM은 세분화된 이미지 인식에 여전히 부족하며, 시각적 표현, 시각-의미 연결, 세부 지식 부족 등 여러 요인이 원인으로 지목됐어요.
연구진은 데이터 구축 및 모델 설계 개선을 위한 지침을 제시하고, 시각 및 언어적 변화가 LVLM 예측에 미치는 영향을 분석하며, 관련 코드를 GitHub에서 공개했어요.