Pulse · AI 뉴스

MicroWorld: 현미경 이미지 이해를 돕는 멀티모달 지식 그래프 프레임워크

Qwen · 2026-05-11

MicroWorld는 현미경 이미지와 캡션 데이터를 활용해 멀티모달 지식 그래프(MAPG)를 구축하는 프레임워크입니다. 이를 통해 대규모 언어 모델(MLLM)의 과학적 추론 능력을 향상시킵니다.

MicroWorld는 Qwen3-VL-Embedding을 사용하여 이미지와 엔티티를 연결하고, 약 11만 노드와 34만 엣지로 구성된 지식 그래프를 생성합니다.

MicroVQA 벤치마크에서 Qwen3-VL-8B-Instruct 모델의 성능을 37.5% 향상시켜 새로운 최고 기록을 달성했으며, MicroBench 벤치마크에서도 6.0%의 성능 향상을 보였습니다.

##현미경##지식그래프##MLLM##Qwen##MicroWorld

매일 핵심 AI 소식을 한국어로, 빠르게