연구진이 유전체 분석 AI 에이전트의 성능을 검증하는 벤치마크 'EpiBench'를 공개했어요. CUT&Tag, ATAC-seq, ChIP-seq, DNA 메틸화 워크플로우를 평가하며, 총 106개의 평가 항목을 포함하고 있어요. GPT-5.5 / Pi 조합이 45%의 성공률로 가장 높은 성능을 보였으며, GPT-5.5 / OpenAI Codex는 39.9%의 성공률을 기록했어요.
에이전트는 대부분 올바른 파일을 찾고 유용한 중간 결과를 계산했지만, 워크플로우의 깊이 있는 과학적 판단이 필요한 경우 실패하는 경향을 보였어요. 연구진은 앞으로 에이전트의 성능을 개선하기 위해 더 많은 데이터와 전문 지식을 활용할 계획이라고 밝혔어요.