GENEB는 유전체 모델의 성능 평가가 어려움을 지적하며, 40개 모델을 100개의 작업에서 평가하는 대규모 진단 벤치마크를 소개했어요. GENEB는 모델 규모, 구조, 토큰화, 사전 훈련 데이터에 따른 성능 변화를 분석하고 작업별 트레이드오프를 명확히 보여줘요. 기존 평가 방식의 한계를 보여주며, 유전체 머신러닝 모델 선택을 위한 기준 프레임워크로 제시돼요.
모델 규모가 성능 향상에 미치는 영향이 미미하고 일관성이 없으며, 모델 구조와 사전 훈련 방식이 파라미터 수보다 중요하게 작용하는 것으로 나타났어요. 집계 리더보드는 불안정하며, 작업 범주에 따라 모델 순위가 크게 달라지는 것을 확인했어요.
GENEB는 기존 벤치마크의 단점을 보완하고, 모델 비교 프로토콜의 통일성을 확보하여 유전체 머신러닝 분야의 발전에 기여할 것으로 기대돼요.