연구진은 안과 분야의 시각-언어 모델 개발을 위해 10만 2023개의 이미지-캡션 쌍으로 구성된 PubMed-Ophtha 데이터셋을 공개했어요. 이 데이터셋은 PubMed Central의 1만 5842개 오픈 액세스 논문에서 추출했으며, 기존 데이터셋과 달리 PDF에서 고해상도 이미지를 추출하고 패널 단위로 분해했어요. 연구진은 데이터셋 생성 파이프라인, 학습 모델, 인간이 직접 주석을 단 데이터를 함께 공개하여 재현성을 높였어요.