ToolMerge는 장영상 시각적 증거 검색을 위한 새로운 방법으로, LLM 기반 플래너가 질문을 도구 호출로 분해하고 결과를 결합하는 방식을 지정합니다. 새로운 벤치마크인 Molmo-2 Moments (M2M)를 구축하여 시각적 증거 검색을 직접 평가했으며, 기존 방법 대비 5% 성능 향상을 보였습니다. ToolMerge의 코드와 데이터는 GitHub에서 확인할 수 있습니다.