연구진은 미세한 객체 인식을 위한 새로운 벤치마크 FIKA-Bench를 발표했습니다. FIKA-Bench는 시스템이 외부 정보를 검색하고 검증하여 미세한 객체 인식을 수행하는 능력을 평가합니다. 최신 LLM과 에이전트의 성능은 25.1%로 낮았으며, 잘못된 정보 검색과 시각적 판단 오류가 주요 원인으로 분석되었습니다.
FIKA-Bench는 311개의 실제 사례로 구성되었으며, 기존 모델이 암기한 사례와 정보 유출 가능성이 있는 사례를 제거하여 품질을 높였습니다. 벤치마크는 공개된 소스 이미지와 실제 생활에서 얻은 이미지로 구성되어 있습니다.
연구 결과, 신뢰성 있는 지식 획득을 위해서는 미세한 인식을 위한 에이전트 설계 개선이 필요하며, 단순히 도구를 제공하는 것만으로는 한계가 있는 것으로 나타났습니다.