연구자들이 과학적 그림 생성을 위해 텍스트-이미지(T2I) 모델을 활용하는 가운데, FEPBench라는 새로운 벤치마크가 발표됐어요. FEPBench는 과학 분야의 고품질 그림을 기반으로 모델의 충실성, 추론 능력, 의미 정확성을 평가합니다. GPT Image 2와 Nano Banana Pro 같은 SOTA 모델도 텍스트 렌더링, 추론 풍부함, 정밀도 균형에서 한계점을 드러냈어요.
FEPBench는 다중 분야의 과학적 그림을 활용해 모델의 성능을 세분화하여 평가하며, 시각, 텍스트, 관계, 레이아웃 요소별로 분석합니다. 연구팀은 MLLM과 전문가의 도움으로 원자 집합 주석을 제공하고 모델의 성능을 세밀하게 분석했어요.
FEPBench 데이터, 원자 집합 주석, 평가 코드는 공개될 예정이며, 과학적 그림 생성에 T2I 모델을 개선하고 활용하는 데 필요한 지침을 제공할 것으로 기대돼요.