연구진이 지식 집약적인 다학문 시각 자료 생성 및 편집을 위한 대규모 데이터셋 DisciplineGen-1M을 공개했어요. 이 데이터셋은 수학, 물리학, 화학, 생물학 등 11개 분야의 120만 개 샘플을 포함하며, 텍스트-이미지 생성 및 이미지 편집을 지원해요. DisciplineGen-1M 기반 모델은 GenExam, GRADE 등 관련 벤치마크에서 기존 모델보다 성능이 향상되었으며, 데이터셋, 모델, 파이프라인 코드를 공개할 예정이에요.