MicroWorld는 현미경 이미지와 캡션 데이터를 활용해 멀티모달 지식 그래프(MAPG)를 구축하는 프레임워크입니다. 이를 통해 대규모 언어 모델(MLLM)의 과학적 추론 능력을 향상시킵니다.
MicroWorld는 Qwen3-VL-Embedding을 사용하여 이미지와 엔티티를 연결하고, 약 11만 노드와 34만 엣지로 구성된 지식 그래프를 생성합니다.
MicroVQA 벤치마크에서 Qwen3-VL-8B-Instruct 모델의 성능을 37.5% 향상시켜 새로운 최고 기록을 달성했으며, MicroBench 벤치마크에서도 6.0%의 성능 향상을 보였습니다.